Tighten fused MoE test tolerances from 5% to 2%

digantdesai · digantdesai · commit 75a2348ad9f8 · 2026-04-15T21:23:12.000-07:00
test_eager_correctness, test_single_expert, and test_batched_correctness used 5% relative tolerance for INT4 kernel-vs-dequant comparison. Tighten to 2% to match the e2e runner bar (fe71bd4).
diff --git a/backends/cuda/tests/test_fused_moe.py b/backends/cuda/tests/test_fused_moe.py
@@ -302,7 +302,7 @@ def test_eager_correctness(self):
                 rel = diff / (ref.float().abs().max().item() + 1e-10)
                 self.assertLess(
                     rel,
-                    0.05,
+                    0.02,
                     f"{desc}: relative diff {rel:.4f} (abs {diff:.6f})",
                 )
 
@@ -332,7 +332,7 @@ def test_single_expert(self):
             ref = w2_dq[1] @ activated
             diff = (out[t].float() - ref.float()).abs().max().item()
             rel = diff / (ref.float().abs().max().item() + 1e-10)
-            self.assertLess(rel, 0.05, f"token {t}: relative diff {rel:.4f}")
+            self.assertLess(rel, 0.02, f"token {t}: relative diff {rel:.4f}")
 
     def test_batched_correctness(self):
         """Batched kernel matches reference across M values."""
@@ -390,7 +390,7 @@ def test_batched_correctness(self):
                 rel = diff / (ref.float().abs().max().item() + 1e-10)
                 self.assertLess(
                     rel,
-                    0.05,
+                    0.02,
                     f"{desc}: relative diff {rel:.4f} (abs {diff:.6f})",
                 )