Update erf.cpp

akote123 · web-flow · commit 008637d86766 · 2025-12-17T15:49:00.000+05:30
diff --git a/onnxruntime/core/mlas/lib/erf.cpp b/onnxruntime/core/mlas/lib/erf.cpp
@@ -313,13 +313,13 @@ exp_neg_rational_approx_f16(MLAS_FLOAT16X8 x)
     MLAS_FLOAT16X8 d1v = MlasBroadcastF16Float16x8(d1);
     MLAS_FLOAT16X8 d2v = MlasBroadcastF16Float16x8(d2);
     MLAS_FLOAT16X8 x2 = MlasMultiplyFloat16(x, x);
-    MLAS_FLOAT16X8 num = MlasMultiplyAddFloat16(c1v, x,c0v);
-    num = MlasMultiplyAddFloat16(c2v, x2,num);
-    MLAS_FLOAT16X8 den = MlasMultiplyAddFloat16(d1v, x,d0v);
-    den = MlasMultiplyAddFloat16(d2v, x2,den);
-    MLAS_FLOAT16X8 recip = MlasapproximatereciprocalFloat16(den);
-    recip = MlasMultiplyFloat16(recip, MlasreciprocalsqrtFloat16(den, recip));
-    recip = MlasMultiplyFloat16(recip, MlasreciprocalsqrtFloat16(den, recip));
+    MLAS_FLOAT16X8 num = MlasMultiplyAddFloat16(c1v, x, c0v);
+    num = MlasMultiplyAddFloat16(c2v, x2, num);
+    MLAS_FLOAT16X8 den = MlasMultiplyAddFloat16(d1v, x, d0v);
+    den = MlasMultiplyAddFloat16(d2v, x2, den);
+    MLAS_FLOAT16X8 recip = MlasApproximateReciprocalFloat16(den);
+    recip = MlasMultiplyFloat16(recip, MlasReciprocalSqrtFloat16(den, recip));
+    recip = MlasMultiplyFloat16(recip, MlasReciprocalSqrtFloat16(den, recip));
     MLAS_FLOAT16X8 result = MlasMultiplyFloat16(num, recip);
     return result;
 }
@@ -354,32 +354,32 @@ MlasNeonErfKernelFp16(const _mlas_fp16_* Input, _mlas_fp16_* Output, size_t N)
     size_t i = 0;
     for (; i + 8 <= N; i += 8) {
         MLAS_FLOAT16X8 x = MlasLoadFloat16x8(&Input[i]);
-        MLAS_UINT16X8 neg_mask = MlasComparelessthanFloat16(x, vzero);
-        MLAS_FLOAT16X8 sign = MlasselectFloat16(neg_mask, vneg_one, vone);
+        MLAS_UINT16X8 neg_mask = MlasCompareLessThanFloat16(x, vzero);
+        MLAS_FLOAT16X8 sign = MlasSelectFloat16(neg_mask, vneg_one, vone);
         MLAS_FLOAT16X8 absx = MlasAbsFloat16(x);
-        MLAS_UINT16X8 use_mask = MlasComparelessthanFloat16(absx, vth);
+        MLAS_UINT16X8 use_mask = MlasCompareLessThanFloat16(absx, vth);
         MLAS_FLOAT16X8 absx_clamped = MlasMinimumFloat16(absx, vth);
-        MLAS_FLOAT16X8 denom = MlasMultiplyAddFloat16(vp, absx_clamped,vone);
-        MLAS_FLOAT16X8 t = MlasapproximatereciprocalFloat16(denom);
-        t = MlasMultiplyFloat16(t, MlasreciprocalsqrtFloat16(denom, t));
-        t = MlasMultiplyFloat16(t, MlasreciprocalsqrtFloat16(denom, t));
+        MLAS_FLOAT16X8 denom = MlasMultiplyAddFloat16(vp, absx_clamped, vone);
+        MLAS_FLOAT16X8 t = MlasApproximateReciprocalFloat16(denom);
+        t = MlasMultiplyFloat16(t, MlasReciprocalSqrtFloat16(denom, t));
+        t = MlasMultiplyFloat16(t, MlasReciprocalSqrtFloat16(denom, t));
         MLAS_FLOAT16X8 t2 = MlasMultiplyFloat16(t, t);
         MLAS_FLOAT16X8 t3 = MlasMultiplyFloat16(t2, t);
         MLAS_FLOAT16X8 t4 = MlasMultiplyFloat16(t3, t);
         MLAS_FLOAT16X8 t5 = MlasMultiplyFloat16(t4, t);
         MLAS_FLOAT16X8 poly = MlasMultiplyFloat16(va1, t);
-        poly = MlasMultiplyAddFloat16(va2, t2,poly);
-        poly = MlasMultiplyAddFloat16(va3, t3,poly);
-        poly = MlasMultiplyAddFloat16(va4, t4,poly);
-        poly = MlasMultiplyAddFloat16(va5, t5,poly);
+        poly = MlasMultiplyAddFloat16(va2, t2, poly);
+        poly = MlasMultiplyAddFloat16(va3, t3, poly);
+        poly = MlasMultiplyAddFloat16(va4, t4, poly);
+        poly = MlasMultiplyAddFloat16(va5, t5, poly);
         MLAS_FLOAT16X8 x2 = MlasMultiplyFloat16(absx_clamped, absx_clamped);
         MLAS_FLOAT16X8 exp_neg_x2 = exp_neg_rational_approx_f16(x2);
         MLAS_FLOAT16X8 poly_mul_exp = MlasMultiplyFloat16(poly, exp_neg_x2);
         MLAS_FLOAT16X8 one_minus_term = MlasSubtractFloat16(vone, poly_mul_exp);
         MLAS_FLOAT16X8 erf_approx = MlasMultiplyFloat16(sign, one_minus_term);
         erf_approx = MlasMinimumFloat16(erf_approx, vone);
         erf_approx = MlasMaximumFloat16(erf_approx, vneg_one);
-        MLAS_FLOAT16X8 result = MlasselectFloat16(use_mask, erf_approx, sign);
+        MLAS_FLOAT16X8 result = MlasSelectFloat16(use_mask, erf_approx, sign);
         MlasStoreFloat16x8(&Output[i], result);
     }