Fix stale pointer bug in batched MoE GEMM cache

TimDettmers · claude · TimDettmers · commit dc749a9128e6 · 2026-03-09T19:23:16.000-04:00
Include data_ptr() values in the init cache key, not just dimensions.
CUTLASS initialize() bakes data pointers into kernel params. When
different callers (module's _forward_batched vs torch op gemm_nvfp4_moe)
use the same dimensions but different buffer addresses, the old cache
incorrectly skipped re-init, causing run() to write to stale pointers.

Co-Authored-By: Claude Opus 4.6 &lt;noreply@anthropic.com&gt;
diff --git a/bitsandbytes/backends/cuda/ops.py b/bitsandbytes/backends/cuda/ops.py
@@ -1363,7 +1363,12 @@ def _batched_moe_sm100_init_if_needed(
     global _moe_batched_sm100_cache
     _ensure_moe_batched_restype()
 
-    cache_key = (N, K, max_M, num_experts)
+    cache_key = (
+        N, K, max_M, num_experts,
+        A_batched.data_ptr(), B_all.data_ptr(),
+        SFA_batched.data_ptr(), SFB_all.data_ptr(),
+        D_out.data_ptr(), alpha.data_ptr(),
+    )
 
     if (_moe_batched_sm100_cache is not None
             and _moe_batched_sm100_cache["key"] == cache_key):