Use Tokamax's representative group sizes.

niyatic21 · Google-ML-Automation · commit 10b2d0881e49 · 2026-04-15T14:59:08.000-07:00
PiperOrigin-RevId: 885246948
diff --git a/src/maxtext/layers/moe.py b/src/maxtext/layers/moe.py
@@ -955,10 +955,7 @@ def get_tokamax_group_sizes(group_sizes, inputs, kernel):
       elif self.config.attention == "vllm_rpa":
         return group_sizes
       else:
-        return tokamax.RaggedDotGroupSizes(
-            group_sizes,
-            max_utils.generate_representative_group_sizes(inputs.shape[0], kernel.shape[0]),
-        )
+        return tokamax.RaggedDotGroupSizes(group_sizes, len(inputs))
 
     def get_quantization_dtypes():
       lhs_quantize_dtype, rhs_quantize_dtype = None, None
diff --git a/src/maxtext/models/deepseek_batchsplit_fp8.py b/src/maxtext/models/deepseek_batchsplit_fp8.py
@@ -970,10 +970,7 @@ def gmm(
       output = tokamax.ragged_dot(
           lhs=inputs,
           rhs=kernel,
-          group_sizes=tokamax.RaggedDotGroupSizes(
-              group_sizes,
-              max_utils.generate_representative_group_sizes(inputs.shape[0], kernel.shape[0]),
-          ),
+          group_sizes=tokamax.RaggedDotGroupSizes(group_sizes, len(inputs)),
           precision=jax.lax.Precision.DEFAULT,
           preferred_element_type=preferred_element_type,
           implementation="mosaic",
diff --git a/src/maxtext/utils/max_utils.py b/src/maxtext/utils/max_utils.py
@@ -1136,17 +1136,6 @@ def transformer_engine_context():
   except (ImportError, AttributeError):
     yield
 
-
-def generate_representative_group_sizes(target_m: int, g: int) -> tuple[int, ...]:
-  """Generate group sizes for a given target m."""
-  np.random.seed(0)
-  repr_val = np.random.uniform(size=(g,))
-  repr_val = np.random.binomial(1, 0.9, (g,)) * repr_val
-  repr_val = np.int32((repr_val / np.sum(repr_val)) * target_m)
-  repr_val[0] += target_m - np.sum(repr_val)
-  return tuple(map(int, repr_val))
-
-
 def maybe_pad(inputs, tile_size):
   """Pads the inputs leading dimension to be divisible by tile_size."""
   inputs_dim = inputs.shape[0]