Merge pull request #3714 from AI-Hypercomputer:chengnuojin-attn-batch

Google-ML-Automation · Google-ML-Automation · commit f67d8b1db257 · 2026-04-22T14:25:49.000-07:00
PiperOrigin-RevId: 904043717
diff --git a/src/maxtext/common/common_types.py b/src/maxtext/common/common_types.py
@@ -32,16 +32,17 @@
 AxisIdxes = tuple[int, ...]
 
 BATCH = "activation_batch"
+BATCH_ATTN = "activation_batch_attn"
 
-ATTN_LENGTH = "activation_attn_length"
+ATTN_LENGTH = "activation_length_attn"
 
 LENGTH = "activation_length"
 PREFILL_LENGTH = "prefill_activation_length"
 Q_LENGTH = "activation_q_length"
 Q_LORA_UP_PROJ = "q_lora_up_proj"
 KV_LENGTH = "activation_kv_length"
 KV_LORA_UP_PROJ = "kv_lora_up_proj"
-ATTN_EMBED = "activation_attn_embed"
+ATTN_EMBED = "activation_embed_attn"
 EMBED = "activation_embed"
 HEAD = "activation_heads"
 PREFILL_KV_BATCH = "activation_prefill_kv_batch"
diff --git a/src/maxtext/configs/base.yml b/src/maxtext/configs/base.yml
@@ -464,13 +464,14 @@ logical_axis_rules: [
                       # Attention
                       # ==========================================
                       # Attention Activations
+                      ['activation_batch_attn', ['data', 'fsdp', 'fsdp_transpose', 'expert']],
                       ['activation_heads', ['tensor', 'tensor_transpose', 'sequence', 'tensor_sequence', 'autoregressive']],
                       ['activation_kv_heads', ['tensor', 'tensor_transpose', 'sequence', 'tensor_sequence']],
-                      ['activation_attn_length', ['sequence', 'context']],
-                      ['activation_attn_length', ['context']],
+                      ['activation_length_attn', ['sequence', 'context']],
+                      ['activation_length_attn', ['context']],
                       ['activation_q_length', ['context']],
                       ['activation_kv_length', []],
-                      ['activation_attn_embed', ['tensor', 'tensor_transpose']],
+                      ['activation_embed_attn', ['tensor', 'tensor_transpose']],
                       ['activation_kv', ['tensor', 'tensor_transpose', 'tensor_sequence']],
                       ['activation_kv_batch', ['data', 'fsdp', 'fsdp_transpose', 'expert']],
                       ['activation_kv_head_dim', ['tensor', 'tensor_transpose', 'tensor_sequence']],
@@ -514,7 +515,7 @@ logical_axis_rules: [
                       # ==========================================
                       # Dense Activations
                       ['activation_mlp', ['tensor', 'tensor_transpose', 'tensor_sequence']],
-                      # Note activation batch and length also get used in attention and vocab
+                      # Note activation batch and length also get used in vocab
                       ['activation_batch', ['data', 'fsdp', 'fsdp_transpose', 'expert']],
                       ['activation_length', ['sequence', 'context']],
                       ['activation_length', ['context']],
diff --git a/src/maxtext/configs/custom_mesh_and_rule/ep-as-cp.yml b/src/maxtext/configs/custom_mesh_and_rule/ep-as-cp.yml
@@ -31,12 +31,13 @@ logical_axis_rules: [
                       # Attention
                       # ==========================================
                       # Attention Activations
+                      ['activation_batch_attn', ['data', 'fsdp']],
                       ['activation_heads', []],
                       ['activation_kv_heads', []],
-                      ['activation_attn_length', ['expert']],
+                      ['activation_length_attn', ['expert']],
                       ['activation_q_length', ['expert']],
                       ['activation_kv_length', []],
-                      ['activation_attn_embed', []],
+                      ['activation_embed_attn', []],
                       ['activation_kv', []],
                       ['activation_kv_batch', ['data', 'fsdp']],
                       ['activation_kv_head_dim', []],
diff --git a/src/maxtext/configs/custom_mesh_and_rule/pipeline-large-moe.yml b/src/maxtext/configs/custom_mesh_and_rule/pipeline-large-moe.yml
@@ -30,15 +30,16 @@ mesh_axes: ['data', 'stage', 'fsdp', 'context', 'tensor', 'expert']
 data_sharding: [['data', 'stage', 'fsdp', 'context', 'tensor', 'expert']]
 logical_axis_rules: [
                       ['activation_batch', ['data', 'fsdp', 'expert']],
+                      ['activation_batch_attn', ['data', 'fsdp', 'expert']],
                       ['activation_batch_moe', ['data', 'fsdp']],
                       ['activation_embed_and_logits_batch', ['data', 'stage', 'fsdp', 'expert']],
                       ['activation_embed_and_logits_batch_sequence', ['data', 'stage', 'fsdp', 'context', 'expert']],
                       ['activation_heads', ['tensor']],
                       ['activation_kv_heads', ['tensor']],
                       ['activation_length', ['context']],
-                      ['activation_attn_length', ['context']],
+                      ['activation_length_attn', ['context']],
                       ['activation_q_length', ['context']],
-                      ['activation_attn_embed', ['tensor']],
+                      ['activation_embed_attn', ['tensor']],
                       ['activation_norm_length', ['context']],
                       ['activation_norm_length_moe', ['context']],
                       ['activation_embed', ['tensor']],
diff --git a/src/maxtext/configs/custom_mesh_and_rule/pure-fsdp.yml b/src/maxtext/configs/custom_mesh_and_rule/pure-fsdp.yml
@@ -18,6 +18,7 @@ mesh_axes: ['fsdp']
 data_sharding: [['fsdp']]
 logical_axis_rules: [
                       ['activation_batch', ['fsdp']],
+                      ['activation_batch_attn', ['fsdp']],
                       ['activation_batch_moe', ['fsdp']],
                       ['activation_embed_and_logits_batch', ['fsdp']],
                       ['activation_embed_and_logits_batch_sequence', ['fsdp']],
diff --git a/src/maxtext/configs/inference/vllm.yml b/src/maxtext/configs/inference/vllm.yml
@@ -31,15 +31,16 @@ mesh_axes: ['data', 'attn_dp', 'model', 'expert', 'attn_dp_expert']
 logical_axis_rules: [
                       ['activation_batch', ['data']],
                       ['activation_batch_moe', ['data']],
+                      ['activation_batch_attn', ['data']],
                       ['activation_embed_and_logits_batch', ['data', 'expert']],
                       ['activation_embed_and_logits_batch_sequence', ['data', 'expert']],
                       ['activation_heads', ['model', 'expert']],
                       ['activation_kv_heads', ['model', 'expert']],
-                      ['activation_attn_length', []],
+                      ['activation_length_attn', []],
                       ['activation_length', []],
                       ['activation_length_moe', []],
                       ['activation_q_length', ['expert', 'attn_dp_expert']],
-                      ['activation_attn_embed', 'model'],
+                      ['activation_embed_attn', 'model'],
                       # Expert is missing explicitly from activation_embed despite using TP.
                       # We are going for a replicate-AR style of TP as opposed to our typical AG-RS style of TP
                       # due to the output sharding of the fused_moe_gmm kernel in tpu-inference.
diff --git a/src/maxtext/configs/models/deepseek3-671b-2dfsdp.yml b/src/maxtext/configs/models/deepseek3-671b-2dfsdp.yml
@@ -60,6 +60,7 @@ mesh_axes: ['diloco', 'data', 'stage', 'fsdp', 'fsdp_transpose', 'expert', 'cont
 data_sharding: [['data', 'stage', 'fsdp', 'fsdp_transpose', 'expert', 'context']]
 logical_axis_rules: [
     ['activation_batch', ['data', 'fsdp', 'fsdp_transpose', 'expert', 'context']],
+    ['activation_batch_attn', ['data', 'fsdp', 'fsdp_transpose', 'expert', 'context']],
     ['activation_batch_moe', ['data', 'fsdp', 'fsdp_transpose', 'expert', 'context']],
     ['activation_embed_and_logits_batch', ['data', 'stage', 'fsdp', 'fsdp_transpose', 'expert', 'context']],
     ['activation_kv_batch', ['data', 'fsdp', 'fsdp_transpose', 'expert', 'context']],
diff --git a/src/maxtext/configs/models/deepseek3-671b-batchsplit.yml b/src/maxtext/configs/models/deepseek3-671b-batchsplit.yml
@@ -63,6 +63,7 @@ mesh_axes: ['data', 'fsdp', 'expert', 'context']
 data_sharding: [['data', 'fsdp', 'expert', 'context']]
 logical_axis_rules: [
     ['activation_batch', ['data', 'fsdp', 'expert', 'context']],
+    ['activation_batch_attn', ['data', 'fsdp', 'expert', 'context']],
     ['activation_batch_moe', ['data', 'fsdp', 'expert', 'context']],
     ['activation_embed_and_logits_batch', ['data', 'fsdp', 'expert', 'context']],
     ['activation_kv_batch', ['data', 'fsdp', 'expert', 'context']],
diff --git a/src/maxtext/layers/attention_mla.py b/src/maxtext/layers/attention_mla.py
@@ -36,7 +36,7 @@
     Array,
     AxisIdxes,
     AxisNames,
-    BATCH,
+    BATCH_ATTN,
     CACHE_BATCH,
     CACHE_BATCH_PREFILL,
     CACHE_SEQUENCE,
@@ -424,8 +424,8 @@ def mla_as_linen(
     query_axis_names: AxisNames = (KV_BATCH, LENGTH, KV_HEAD, KV_HEAD_DIM),
     key_axis_names: AxisNames = (KV_BATCH, LENGTH, KV_HEAD, KV_HEAD_DIM),
     value_axis_names: AxisNames = (KV_BATCH, LENGTH, KV_HEAD, KV_HEAD_DIM),
-    input_axis_names: AxisNames = (BATCH, LENGTH, EMBED),
-    out_axis_names: AxisNames = (BATCH, LENGTH, HEAD, D_KV),
+    input_axis_names: AxisNames = (BATCH_ATTN, LENGTH, EMBED),
+    out_axis_names: AxisNames = (BATCH_ATTN, LENGTH, HEAD, D_KV),
     prefill_input_axis_names: AxisNames = (PREFILL_KV_BATCH, PREFILL_LENGTH, EMBED),
     decode_input_axis_names: AxisNames = (DECODE_BATCH, DECODE_LENGTH, EMBED),
     prefill_out_axis_names: AxisNames = (PREFILL_KV_BATCH, PREFILL_LENGTH, HEAD, D_KV),
@@ -562,8 +562,8 @@ def __init__(
       query_axis_names: AxisNames = (KV_BATCH, LENGTH, KV_HEAD, KV_HEAD_DIM),
       key_axis_names: AxisNames = (KV_BATCH, LENGTH, KV_HEAD, KV_HEAD_DIM),
       value_axis_names: AxisNames = (KV_BATCH, LENGTH, KV_HEAD, KV_HEAD_DIM),
-      input_axis_names: AxisNames = (BATCH, LENGTH, EMBED),
-      out_axis_names: AxisNames = (BATCH, LENGTH, HEAD, D_KV),
+      input_axis_names: AxisNames = (BATCH_ATTN, LENGTH, EMBED),
+      out_axis_names: AxisNames = (BATCH_ATTN, LENGTH, HEAD, D_KV),
       prefill_input_axis_names: AxisNames = (PREFILL_KV_BATCH, PREFILL_LENGTH, EMBED),
       decode_input_axis_names: AxisNames = (DECODE_BATCH, DECODE_LENGTH, EMBED),
       prefill_out_axis_names: AxisNames = (PREFILL_KV_BATCH, PREFILL_LENGTH, HEAD, D_KV),
@@ -1153,7 +1153,7 @@ def __call__(
     else:
       inputs_q = self._maybe_shard_with_logical(inputs_q, self.input_axis_names)
       inputs_kv = self._maybe_shard_with_logical(inputs_kv, self.input_axis_names)
-      out_logical_name = (BATCH, LENGTH, HEAD, D_KV)
+      out_logical_name = (BATCH_ATTN, LENGTH, HEAD, D_KV)
 
     if model_mode != MODEL_MODE_TRAIN and decoder_segment_ids is None:
       decoder_segment_ids = jnp.ones(inputs_q.shape[:2], dtype=jnp.int32)
diff --git a/src/maxtext/layers/attention_op.py b/src/maxtext/layers/attention_op.py
@@ -38,7 +38,7 @@
     AttentionType,
     AxisIdxes,
     AxisNames,
-    BATCH,
+    BATCH_ATTN,
     CACHE_BATCH,
     CACHE_BATCH_PREFILL,
     CACHE_HEADS,
@@ -297,8 +297,8 @@ def attention_op_as_linen(
     float32_qk_product: bool = False,
     max_prefill_predict_length: int = -1,
     float32_logits: bool = False,
-    flash_axis_names_q: AxisNames = (BATCH, HEAD, LENGTH, D_KV),
-    flash_axis_names_kv: AxisNames = (BATCH, HEAD, KV_LENGTH, D_KV),
+    flash_axis_names_q: AxisNames = (BATCH_ATTN, HEAD, LENGTH, D_KV),
+    flash_axis_names_kv: AxisNames = (BATCH_ATTN, HEAD, KV_LENGTH, D_KV),
     flash_axis_names_splash_kernel: AxisNames = (HEAD, LENGTH),
     prefill_cache_logical_axis_names: AxisNames = (
         CACHE_BATCH_PREFILL,
@@ -394,8 +394,8 @@ def __init__(
       float32_qk_product: bool = False,
       max_prefill_predict_length: int = -1,
       float32_logits: bool = False,
-      flash_axis_names_q: AxisNames = (BATCH, HEAD, LENGTH, D_KV),
-      flash_axis_names_kv: AxisNames = (BATCH, HEAD, KV_LENGTH, D_KV),
+      flash_axis_names_q: AxisNames = (BATCH_ATTN, HEAD, LENGTH, D_KV),
+      flash_axis_names_kv: AxisNames = (BATCH_ATTN, HEAD, KV_LENGTH, D_KV),
       flash_axis_names_splash_kernel: AxisNames = (HEAD, LENGTH),
       prefill_cache_logical_axis_names: AxisNames = (
           CACHE_BATCH_PREFILL,
@@ -1144,13 +1144,13 @@ def tpu_flash_attention(
     segment_axis_names_kv = None
     sink_axis_names = self._logical_to_mesh_axes((HEAD,))
     if decoder_segment_ids is not None:
-      segment_axis_names_q = self._logical_to_mesh_axes((BATCH, Q_LENGTH))
-      segment_axis_names_kv = self._logical_to_mesh_axes((BATCH, KV_LENGTH))
+      segment_axis_names_q = self._logical_to_mesh_axes((BATCH_ATTN, Q_LENGTH))
+      segment_axis_names_kv = self._logical_to_mesh_axes((BATCH_ATTN, KV_LENGTH))
 
     axis_names_splash_kernel = self._logical_to_mesh_axes(self.flash_axis_names_splash_kernel)
     axis_names_q = self._logical_to_mesh_axes(self.flash_axis_names_q)
     axis_names_kv = self._logical_to_mesh_axes(self.flash_axis_names_kv)
-    indexer_mask_axis_names = self._logical_to_mesh_axes((BATCH, Q_LENGTH, KV_LENGTH))
+    indexer_mask_axis_names = self._logical_to_mesh_axes((BATCH_ATTN, Q_LENGTH, KV_LENGTH))
 
     global global_block_q, global_block_kv, global_block_kv_compute, global_block_q_dkv, global_block_kv_dkv
     global global_block_kv_dkv_compute, global_block_q_dq, global_block_kv_dq, global_use_fused_bwd_kernel
@@ -1730,7 +1730,7 @@ def compute_local_attention(
     if model_mode == MODEL_MODE_AUTOREGRESSIVE and self.is_partition_in_decode(q_seq_len):
       local_out = partitioning.with_sharding_constraint(local_out, (DECODE_BATCH, DECODE_LENGTH, HEAD, D_KV))
     elif model_mode == MODEL_MODE_PREFILL:
-      local_out = partitioning.with_sharding_constraint(local_out, (BATCH, KV_LENGTH, HEAD, D_KV))
+      local_out = partitioning.with_sharding_constraint(local_out, (BATCH_ATTN, KV_LENGTH, HEAD, D_KV))
 
     if self.reshape_q and q_seq_len == 1:
       local_max = local_max[:, 0:1, :, :]
@@ -1774,7 +1774,7 @@ def apply_attention_dot(
 
     # special sharding for decode
     q_seq_len = query.shape[1]
-    prefill_qkv_sharding = (BATCH, PREFILL_LENGTH, HEAD, D_KV)
+    prefill_qkv_sharding = (BATCH_ATTN, PREFILL_LENGTH, HEAD, D_KV)
     decode_qkv_sharding = (DECODE_BATCH, DECODE_LENGTH, HEAD, D_KV)
     if self.is_partition_in_decode(q_seq_len):
       query = partitioning.with_sharding_constraint(query, decode_qkv_sharding)
@@ -1799,7 +1799,9 @@ def apply_attention_dot(
     if self.is_partition_in_decode(q_seq_len):
       attn_weights = partitioning.with_sharding_constraint(attn_weights, (KV_LENGTH, HEAD, None, None, None))
     elif model_mode == MODEL_MODE_PREFILL:
-      attn_weights = partitioning.with_sharding_constraint(attn_weights, (BATCH, HEAD, None, PREFILL_LENGTH, KV_LENGTH))
+      attn_weights = partitioning.with_sharding_constraint(
+          attn_weights, (BATCH_ATTN, HEAD, None, PREFILL_LENGTH, KV_LENGTH)
+      )
 
     if self.attn_logits_soft_cap:
       attn_weights = jnp.tanh(attn_weights / self.attn_logits_soft_cap)
@@ -1846,7 +1848,7 @@ def apply_attention_dot(
     if self.is_partition_in_decode(q_seq_len):
       attn_mask = partitioning.with_sharding_constraint(attn_mask, (KV_LENGTH, HEAD, None, None, None))
     elif model_mode == MODEL_MODE_PREFILL:
-      attn_mask = partitioning.with_sharding_constraint(attn_mask, (BATCH, HEAD, None, PREFILL_LENGTH, KV_LENGTH))
+      attn_mask = partitioning.with_sharding_constraint(attn_mask, (BATCH_ATTN, HEAD, None, PREFILL_LENGTH, KV_LENGTH))
     if attn_mask is not None:
       attn_weights = apply_mask_to_logits(attn_weights, attn_mask)
 
diff --git a/src/maxtext/layers/attentions.py b/src/maxtext/layers/attentions.py
@@ -27,7 +27,7 @@
 
 from maxtext.common.common_types import (
     DecoderBlockType,
-    BATCH,
+    BATCH_ATTN,
     HEAD,
     PREFILL_LENGTH,
     D_KV,
@@ -141,8 +141,8 @@ def attention_as_linen(
     query_axis_names: AxisNames = (KV_BATCH, ATTN_LENGTH, KV_HEAD, KV_HEAD_DIM),
     key_axis_names: AxisNames = (KV_BATCH, ATTN_LENGTH, KV_HEAD, KV_HEAD_DIM),
     value_axis_names: AxisNames = (KV_BATCH, ATTN_LENGTH, KV_HEAD, KV_HEAD_DIM),
-    input_axis_names: AxisNames = (BATCH, ATTN_LENGTH, ATTN_EMBED),
-    out_axis_names: AxisNames = (BATCH, ATTN_LENGTH, HEAD, D_KV),
+    input_axis_names: AxisNames = (BATCH_ATTN, ATTN_LENGTH, ATTN_EMBED),
+    out_axis_names: AxisNames = (BATCH_ATTN, ATTN_LENGTH, HEAD, D_KV),
     prefill_input_axis_names: AxisNames = (PREFILL_KV_BATCH, PREFILL_LENGTH, ATTN_EMBED),
     decode_input_axis_names: AxisNames = (DECODE_BATCH, DECODE_LENGTH, ATTN_EMBED),
     prefill_out_axis_names: AxisNames = (PREFILL_KV_BATCH, PREFILL_LENGTH, HEAD, D_KV),
@@ -298,8 +298,8 @@ def __init__(
       query_axis_names: AxisNames = (KV_BATCH, ATTN_LENGTH, KV_HEAD, KV_HEAD_DIM),
       key_axis_names: AxisNames = (KV_BATCH, ATTN_LENGTH, KV_HEAD, KV_HEAD_DIM),
       value_axis_names: AxisNames = (KV_BATCH, ATTN_LENGTH, KV_HEAD, KV_HEAD_DIM),
-      input_axis_names: AxisNames = (BATCH, ATTN_LENGTH, ATTN_EMBED),
-      out_axis_names: AxisNames = (BATCH, ATTN_LENGTH, HEAD, D_KV),
+      input_axis_names: AxisNames = (BATCH_ATTN, ATTN_LENGTH, ATTN_EMBED),
+      out_axis_names: AxisNames = (BATCH_ATTN, ATTN_LENGTH, HEAD, D_KV),
       prefill_input_axis_names: AxisNames = (PREFILL_KV_BATCH, PREFILL_LENGTH, ATTN_EMBED),
       decode_input_axis_names: AxisNames = (DECODE_BATCH, DECODE_LENGTH, ATTN_EMBED),
       prefill_out_axis_names: AxisNames = (PREFILL_KV_BATCH, PREFILL_LENGTH, HEAD, D_KV),
diff --git a/tests/utils/sharding_info/deepseek2-16b/tpu7x-16/slice_1/rule_default/input_shardings.json b/tests/utils/sharding_info/deepseek2-16b/tpu7x-16/slice_1/rule_default/input_shardings.json
@@ -14,13 +14,13 @@
     },
     {
       "attention_mla/inputs_q: bfloat16[192,2048,2048]": {
-        "logic_axes": "('activation_batch', 'activation_length', 'activation_embed')",
+        "logic_axes": "('activation_batch_attn', 'activation_length', 'activation_embed')",
         "PartitionSpec": "P('fsdp', None, None)"
       }
     },
     {
       "attention_mla/inputs_kv: bfloat16[192,2048,2048]": {
-        "logic_axes": "('activation_batch', 'activation_length', 'activation_embed')",
+        "logic_axes": "('activation_batch_attn', 'activation_length', 'activation_embed')",
         "PartitionSpec": "P('fsdp', None, None)"
       }
     },
@@ -98,7 +98,7 @@
     },
     {
       "attention_mla/out: bfloat16[192,2048,16,128]": {
-        "logic_axes": "('activation_batch', 'activation_length', 'activation_heads', 'activation_kv')",
+        "logic_axes": "('activation_batch_attn', 'activation_length', 'activation_heads', 'activation_kv')",
         "PartitionSpec": "P('fsdp', None, None, None)"
       }
     },
diff --git a/tests/utils/sharding_info/deepseek2-16b/tpu7x-16/slice_1/rule_pure-fsdp/input_shardings.json b/tests/utils/sharding_info/deepseek2-16b/tpu7x-16/slice_1/rule_pure-fsdp/input_shardings.json
@@ -14,13 +14,13 @@
     },
     {
       "attention_mla/inputs_q: bfloat16[192,2048,2048]": {
-        "logic_axes": "('activation_batch', 'activation_length', 'activation_embed')",
+        "logic_axes": "('activation_batch_attn', 'activation_length', 'activation_embed')",
         "PartitionSpec": "P('fsdp', None, None)"
       }
     },
     {
       "attention_mla/inputs_kv: bfloat16[192,2048,2048]": {
-        "logic_axes": "('activation_batch', 'activation_length', 'activation_embed')",
+        "logic_axes": "('activation_batch_attn', 'activation_length', 'activation_embed')",
         "PartitionSpec": "P('fsdp', None, None)"
       }
     },
@@ -98,7 +98,7 @@
     },
     {
       "attention_mla/out: bfloat16[192,2048,16,128]": {
-        "logic_axes": "('activation_batch', 'activation_length', 'activation_heads', 'activation_kv')",
+        "logic_axes": "('activation_batch_attn', 'activation_length', 'activation_heads', 'activation_kv')",
         "PartitionSpec": "P('fsdp', None, None, None)"
       }
     },
diff --git a/tests/utils/sharding_info/deepseek2-16b/tpu7x-8/slice_1/rule_ep-as-cp_ici_fsdp_parallelism=-1_ici_expert_parallelism=2/input_shardings.json b/tests/utils/sharding_info/deepseek2-16b/tpu7x-8/slice_1/rule_ep-as-cp_ici_fsdp_parallelism=-1_ici_expert_parallelism=2/input_shardings.json
@@ -14,13 +14,13 @@
     },
     {
       "attention_mla/inputs_q: bfloat16[96,2048,2048]": {
-        "logic_axes": "('activation_batch', 'activation_length', 'activation_embed')",
+        "logic_axes": "('activation_batch_attn', 'activation_length', 'activation_embed')",
         "PartitionSpec": "P('fsdp', 'expert', None)"
       }
     },
     {
       "attention_mla/inputs_kv: bfloat16[96,2048,2048]": {
-        "logic_axes": "('activation_batch', 'activation_length', 'activation_embed')",
+        "logic_axes": "('activation_batch_attn', 'activation_length', 'activation_embed')",
         "PartitionSpec": "P('fsdp', 'expert', None)"
       }
     },
@@ -98,7 +98,7 @@
     },
     {
       "attention_mla/out: bfloat16[96,2048,16,128]": {
-        "logic_axes": "('activation_batch', 'activation_length', 'activation_heads', 'activation_kv')",
+        "logic_axes": "('activation_batch_attn', 'activation_length', 'activation_heads', 'activation_kv')",
         "PartitionSpec": "P('fsdp', 'expert', None, None)"
       }
     },
diff --git a/tests/utils/sharding_info/deepseek2-16b/v6e-16/slice_1/rule_default_ici_fsdp_parallelism=-1_ici_expert_parallelism=4/input_shardings.json b/tests/utils/sharding_info/deepseek2-16b/v6e-16/slice_1/rule_default_ici_fsdp_parallelism=-1_ici_expert_parallelism=4/input_shardings.json
diff --git a/tests/utils/sharding_info/deepseek2-16b/v6e-16/slice_1/rule_pipeline-large-moe_ici_fsdp_parallelism=-1_ici_expert_parallelism=4_use_ring_of_experts=true/input_shardings.json b/tests/utils/sharding_info/deepseek2-16b/v6e-16/slice_1/rule_pipeline-large-moe_ici_fsdp_parallelism=-1_ici_expert_parallelism=4_use_ring_of_experts=true/input_shardings.json
diff --git a/tests/utils/sharding_info/gpt-oss-20b/tpu7x-16/slice_1/rule_default/input_shardings.json b/tests/utils/sharding_info/gpt-oss-20b/tpu7x-16/slice_1/rule_default/input_shardings.json
diff --git a/tests/utils/sharding_info/gpt-oss-20b/tpu7x-16/slice_1/rule_default_ici_fsdp_parallelism=-1_ici_expert_parallelism=2/input_shardings.json b/tests/utils/sharding_info/gpt-oss-20b/tpu7x-16/slice_1/rule_default_ici_fsdp_parallelism=-1_ici_expert_parallelism=2/input_shardings.json
diff --git a/tests/utils/sharding_info/qwen3-0.6b/tpu7x-16/slice_1/rule_default/input_shardings.json b/tests/utils/sharding_info/qwen3-0.6b/tpu7x-16/slice_1/rule_default/input_shardings.json