AI-Hypercomputer
diff --git a/‎src/maxtext/common/common_types.py‎
Lines changed: 0 additions & 3 deletions b/‎src/maxtext/common/common_types.py‎
Lines changed: 0 additions & 3 deletions
diff --git a/‎src/maxtext/configs/base.yml‎
Lines changed: 3 additions & 5 deletions b/‎src/maxtext/configs/base.yml‎
Lines changed: 3 additions & 5 deletions
diff --git a/‎src/maxtext/configs/custom_mesh_and_rule/pipeline-large-moe.yml‎
Lines changed: 4 additions & 5 deletions b/‎src/maxtext/configs/custom_mesh_and_rule/pipeline-large-moe.yml‎
Lines changed: 4 additions & 5 deletions
diff --git a/‎src/maxtext/configs/custom_mesh_and_rule/pure-fsdp.yml‎
Lines changed: 0 additions & 1 deletion b/‎src/maxtext/configs/custom_mesh_and_rule/pure-fsdp.yml‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎src/maxtext/configs/inference/vllm.yml‎
Lines changed: 2 additions & 4 deletions b/‎src/maxtext/configs/inference/vllm.yml‎
Lines changed: 2 additions & 4 deletions
diff --git a/‎src/maxtext/layers/attention_op.py‎
Lines changed: 5 additions & 5 deletions b/‎src/maxtext/layers/attention_op.py‎
Lines changed: 5 additions & 5 deletions
diff --git a/‎src/maxtext/layers/attentions.py‎
Lines changed: 10 additions & 29 deletions b/‎src/maxtext/layers/attentions.py‎
Lines changed: 10 additions & 29 deletions
diff --git a/‎tests/utils/sharding_info/gpt-oss-20b/tpu7x-16/slice_1/input_shardings.json‎
Lines changed: 6 additions & 6 deletions b/‎tests/utils/sharding_info/gpt-oss-20b/tpu7x-16/slice_1/input_shardings.json‎
Lines changed: 6 additions & 6 deletions
diff --git a/‎tests/utils/sharding_info/gpt-oss-20b/tpu7x-16/slice_4/input_shardings.json‎
Lines changed: 6 additions & 6 deletions b/‎tests/utils/sharding_info/gpt-oss-20b/tpu7x-16/slice_4/input_shardings.json‎
Lines changed: 6 additions & 6 deletions
@@ -34,12 +34,10 @@
 BATCH = "activation_batch"
 
 ATTN_LENGTH = "activation_attn_length"
-ATTN_LENGTH_NO_EXP = "activation_attn_length_no_exp"
 
 LENGTH = "activation_length"
 PREFILL_LENGTH = "prefill_activation_length"
 Q_LENGTH = "activation_q_length"
-Q_LENGTH_NO_EXP = "activation_q_length_no_exp"
 Q_LORA_UP_PROJ = "q_lora_up_proj"
 KV_LENGTH = "activation_kv_length"
 KV_LORA_UP_PROJ = "kv_lora_up_proj"
@@ -48,7 +46,6 @@
 HEAD = "activation_heads"
 PREFILL_KV_BATCH = "activation_prefill_kv_batch"
 KV_BATCH = "activation_kv_batch"
-KV_BATCH_NO_EXP = "activation_kv_batch_no_exp"
 KV_HEAD = "activation_kv_heads"
 KV_HEAD_DIM = "activation_kv_head_dim"
 D_KV = "activation_kv"
 
@@ -469,8 +469,7 @@ logical_axis_rules: [
                       ['activation_length_moe', ['context']],
                       ['activation_norm_length', ['tensor_sequence', 'context', 'sequence']],
                       ['activation_norm_length_moe', ['tensor_sequence', 'context', 'sequence']],
-                      ['activation_q_length', ['context', 'expert']],
-                      ['activation_q_length_no_exp', ['context']],
+                      ['activation_q_length', ['context']],
                       ['prefill_activation_length', ['sequence', 'context']],
                       ['prefill_activation_norm_length', ['tensor_sequence', 'context', 'sequence']],
                       ['activation_kv_length', []],
@@ -480,8 +479,7 @@ logical_axis_rules: [
                       ['activation_mlp', ['tensor', 'tensor_transpose', 'tensor_sequence']],
                       ['activation_kv', ['tensor', 'tensor_transpose', 'tensor_sequence']],
                       ['activation_prefill_kv_batch', ['data', 'fsdp', 'fsdp_transpose', 'expert']],
-                      ['activation_kv_batch', ['data', 'fsdp', 'fsdp_transpose', 'expert']],
-                      ['activation_kv_batch_no_exp', ['data', 'fsdp', 'fsdp_transpose']],
+                      ['activation_kv_batch', ['data', 'fsdp', 'fsdp_transpose']],
                       ['activation_kv_head_dim', ['tensor', 'tensor_transpose', 'tensor_sequence']],
                       ['activation_vocab', ['tensor', 'tensor_transpose', 'tensor_sequence']],
                       ['activation_vocab', ['tensor', 'tensor_transpose']],
@@ -978,7 +976,7 @@ xprof_e2e_enable_fw_power_level_event: False
 xprof_e2e_enable_fw_thermal_event: False
 profile_power_events: False # Set to True to enable TPU-specific power/thermal profiling events. Defaults to False to avoid breaking GPU xplane tracing.
 
-log_config: True # Prints the config (after defaults have been set by pyconfig logic)
+log_config: False # Prints the config (after defaults have been set by pyconfig logic)
 debug_sharding: False # Prints model weights sharding info
 
 # Checkpoint Structured logging
 
@@ -36,18 +36,17 @@ logical_axis_rules: [
                       ['activation_embed_and_logits_batch_sequence', ['data', 'stage', 'fsdp', 'context', 'expert']],
                       ['activation_heads', ['tensor']],
                       ['activation_kv_heads', ['tensor']],
-                      ['activation_length', ['context', 'expert']],
-                      ['activation_attn_length', ['context', 'expert']],
-                      ['activation_q_length', ['context', 'expert']],
+                      ['activation_length', ['context']],
+                      ['activation_attn_length', ['context']],
+                      ['activation_q_length', ['context']],
                       ['activation_attn_embed', ['tensor']],
                       ['activation_norm_length', ['context']],
                       ['activation_norm_length_moe', ['context']],
                       ['activation_embed', ['tensor']],
                       ['activation_embed_moe', ['tensor']],
                       ['activation_mlp', ['tensor']],
                       ['activation_kv', ['tensor']],
-                      ['activation_kv_batch', ['data', 'fsdp', 'expert']],
-                      ['activation_kv_batch_no_exp', ['data', 'fsdp']],
+                      ['activation_kv_batch', ['data', 'fsdp']],
                       ['activation_kv_head_dim', ['tensor']],
                       ['activation_vocab', ['tensor']],
                       ['activation_stage', 'stage'],
 
@@ -24,7 +24,6 @@ logical_axis_rules: [
                       ['activation_embed_and_logits_batch_sequence', ['fsdp']],
                       ['activation_prefill_kv_batch', ['fsdp']],
                       ['activation_kv_batch', ['fsdp']],
-                      ['activation_kv_batch_no_exp', ['fsdp']],
                       ['decode_batch', ['fsdp']],
                       ['embed', ['fsdp']],
                       ['embed_no_exp', ['fsdp']],
 
@@ -36,8 +36,7 @@ logical_axis_rules: [
                       ['activation_embed_and_logits_batch_sequence', ['data', 'expert']],
                       ['activation_heads', ['model', 'expert']],
                       ['activation_kv_heads', ['model', 'expert']],
-                      ['activation_attn_length', ['expert']],
-                      ['activation_attn_length_no_exp', []],
+                      ['activation_attn_length', []],
                       ['activation_length', ['data']],
                       ['activation_length_moe', ['data', 'expert']],
                       ['activation_length_moe', 'data'],
@@ -48,8 +47,7 @@ logical_axis_rules: [
                       ['activation_mlp', ['model', 'attn_dp']],
                       ['activation_kv', ['model']],
                       ['activation_prefill_kv_batch', ['expert', 'attn_dp_expert']],
-                      ['activation_kv_batch', ['data', 'expert', 'attn_dp_expert']],
-                      ['activation_kv_batch_no_exp', ['data']],
+                      ['activation_kv_batch', ['data']],
                       ['activation_kv_head_dim', ['model']],
                       ['activation_vocab', ['model', 'attn_dp']],
                       ['activation_norm_length', []],
 
@@ -63,7 +63,7 @@
     MODEL_MODE_PREFILL,
     MODEL_MODE_TRAIN,
     PREFILL_LENGTH,
-    Q_LENGTH_NO_EXP,
+    Q_LENGTH,
 )
 from maxtext.inference import page_manager
 from maxtext.inference.kvcache import KVQuant, KVTensor
@@ -1134,13 +1134,13 @@ def tpu_flash_attention(
     segment_axis_names_kv = None
     sink_axis_names = self._logical_to_mesh_axes((HEAD,))
     if decoder_segment_ids is not None:
-      segment_axis_names_q = self._logical_to_mesh_axes((BATCH, Q_LENGTH_NO_EXP))
+      segment_axis_names_q = self._logical_to_mesh_axes((BATCH, Q_LENGTH))
       segment_axis_names_kv = self._logical_to_mesh_axes((BATCH, KV_LENGTH))
 
     axis_names_splash_kernel = self._logical_to_mesh_axes(self.flash_axis_names_splash_kernel)
     axis_names_q = self._logical_to_mesh_axes(self.flash_axis_names_q)
     axis_names_kv = self._logical_to_mesh_axes(self.flash_axis_names_kv)
-    indexer_mask_axis_names = self._logical_to_mesh_axes((BATCH, Q_LENGTH_NO_EXP, KV_LENGTH))
+    indexer_mask_axis_names = self._logical_to_mesh_axes((BATCH, Q_LENGTH, KV_LENGTH))
 
     global global_block_q, global_block_kv, global_block_kv_compute, global_block_q_dkv, global_block_kv_dkv
     global global_block_kv_dkv_compute, global_block_q_dq, global_block_kv_dq, global_use_fused_bwd_kernel
@@ -1269,11 +1269,11 @@ def wrap_splash_kernel(single_head_mask):
         return splash_kernel
 
       splash_kernel = wrap_splash_kernel(single_head_mask)
-      segment_axis_names_splash_kernel = self._logical_to_mesh_axes((Q_LENGTH_NO_EXP,))
+      segment_axis_names_splash_kernel = self._logical_to_mesh_axes((Q_LENGTH,))
     elif self.config.use_jax_splash and self.config.expert_shard_attention_option == EP_AS_FSDP:
       if self.config.use_max_logit_estimate > 0:
         sa_config = dataclasses.replace(sa_config, max_logit_const=self.config.use_max_logit_estimate)
-      segment_axis_names_splash_kernel = nn.logical_to_mesh_axes((Q_LENGTH_NO_EXP,))
+      segment_axis_names_splash_kernel = nn.logical_to_mesh_axes((Q_LENGTH,))
     else:
       # Create multi-head mask
       multi_head_mask = splash_attention_mask.MultiHeadMask(masks=(mask,) * query.shape[1])
 
@@ -34,7 +34,6 @@
     AxisNames,
     AxisIdxes,
     ATTN_LENGTH,
-    ATTN_LENGTH_NO_EXP,
     DType,
     Config,
     Array,
@@ -44,12 +43,10 @@
     KV_HEAD,
     KV_HEAD_DIM,
     KV_BATCH,
-    KV_BATCH_NO_EXP,
     ATTN_EMBED,
     MODEL_MODE_AUTOREGRESSIVE,
     MODEL_MODE_TRAIN,
     MODEL_MODE_PREFILL,
-    EP_AS_CONTEXT,
     AttentionType,
 )
 from maxtext.layers import nnx_wrappers
@@ -141,14 +138,11 @@ def attention_as_linen(
     prefill_query_axis_names: AxisNames = (PREFILL_KV_BATCH, PREFILL_LENGTH, KV_HEAD, KV_HEAD_DIM),
     prefill_key_axis_names: AxisNames = (PREFILL_KV_BATCH, PREFILL_LENGTH, KV_HEAD, KV_HEAD_DIM),
     prefill_value_axis_names: AxisNames = (PREFILL_KV_BATCH, PREFILL_LENGTH, KV_HEAD, KV_HEAD_DIM),
-    query_axis_names: AxisNames = (KV_BATCH, ATTN_LENGTH_NO_EXP, KV_HEAD, KV_HEAD_DIM),
-    key_axis_names: AxisNames = (KV_BATCH, ATTN_LENGTH_NO_EXP, KV_HEAD, KV_HEAD_DIM),
-    value_axis_names: AxisNames = (KV_BATCH, ATTN_LENGTH_NO_EXP, KV_HEAD, KV_HEAD_DIM),
-    ep_query_axis_names: AxisNames = (KV_BATCH_NO_EXP, ATTN_LENGTH, KV_HEAD, KV_HEAD_DIM),
-    ep_key_axis_names: AxisNames = (KV_BATCH_NO_EXP, ATTN_LENGTH, KV_HEAD, KV_HEAD_DIM),
-    ep_value_axis_names: AxisNames = (KV_BATCH_NO_EXP, ATTN_LENGTH, KV_HEAD, KV_HEAD_DIM),
-    input_axis_names: AxisNames = (BATCH, ATTN_LENGTH_NO_EXP, ATTN_EMBED),
-    out_axis_names: AxisNames = (BATCH, ATTN_LENGTH_NO_EXP, HEAD, D_KV),
+    query_axis_names: AxisNames = (KV_BATCH, ATTN_LENGTH, KV_HEAD, KV_HEAD_DIM),
+    key_axis_names: AxisNames = (KV_BATCH, ATTN_LENGTH, KV_HEAD, KV_HEAD_DIM),
+    value_axis_names: AxisNames = (KV_BATCH, ATTN_LENGTH, KV_HEAD, KV_HEAD_DIM),
+    input_axis_names: AxisNames = (BATCH, ATTN_LENGTH, ATTN_EMBED),
+    out_axis_names: AxisNames = (BATCH, ATTN_LENGTH, HEAD, D_KV),
     prefill_input_axis_names: AxisNames = (PREFILL_KV_BATCH, PREFILL_LENGTH, ATTN_EMBED),
     decode_input_axis_names: AxisNames = (DECODE_BATCH, DECODE_LENGTH, ATTN_EMBED),
     prefill_out_axis_names: AxisNames = (PREFILL_KV_BATCH, PREFILL_LENGTH, HEAD, D_KV),
@@ -208,9 +202,6 @@ def attention_as_linen(
       query_axis_names=query_axis_names,
       key_axis_names=key_axis_names,
       value_axis_names=value_axis_names,
-      ep_query_axis_names=ep_query_axis_names,
-      ep_key_axis_names=ep_key_axis_names,
-      ep_value_axis_names=ep_value_axis_names,
       input_axis_names=input_axis_names,
       out_axis_names=out_axis_names,
       prefill_input_axis_names=prefill_input_axis_names,
@@ -304,14 +295,11 @@ def __init__(
       prefill_query_axis_names: AxisNames = (PREFILL_KV_BATCH, PREFILL_LENGTH, KV_HEAD, KV_HEAD_DIM),
       prefill_key_axis_names: AxisNames = (PREFILL_KV_BATCH, PREFILL_LENGTH, KV_HEAD, KV_HEAD_DIM),
       prefill_value_axis_names: AxisNames = (PREFILL_KV_BATCH, PREFILL_LENGTH, KV_HEAD, KV_HEAD_DIM),
-      query_axis_names: AxisNames = (KV_BATCH, ATTN_LENGTH_NO_EXP, KV_HEAD, KV_HEAD_DIM),
-      key_axis_names: AxisNames = (KV_BATCH, ATTN_LENGTH_NO_EXP, KV_HEAD, KV_HEAD_DIM),
-      value_axis_names: AxisNames = (KV_BATCH, ATTN_LENGTH_NO_EXP, KV_HEAD, KV_HEAD_DIM),
-      ep_query_axis_names: AxisNames = (KV_BATCH_NO_EXP, ATTN_LENGTH, KV_HEAD, KV_HEAD_DIM),
-      ep_key_axis_names: AxisNames = (KV_BATCH_NO_EXP, ATTN_LENGTH, KV_HEAD, KV_HEAD_DIM),
-      ep_value_axis_names: AxisNames = (KV_BATCH_NO_EXP, ATTN_LENGTH, KV_HEAD, KV_HEAD_DIM),
-      input_axis_names: AxisNames = (BATCH, ATTN_LENGTH_NO_EXP, ATTN_EMBED),
-      out_axis_names: AxisNames = (BATCH, ATTN_LENGTH_NO_EXP, HEAD, D_KV),
+      query_axis_names: AxisNames = (KV_BATCH, ATTN_LENGTH, KV_HEAD, KV_HEAD_DIM),
+      key_axis_names: AxisNames = (KV_BATCH, ATTN_LENGTH, KV_HEAD, KV_HEAD_DIM),
+      value_axis_names: AxisNames = (KV_BATCH, ATTN_LENGTH, KV_HEAD, KV_HEAD_DIM),
+      input_axis_names: AxisNames = (BATCH, ATTN_LENGTH, ATTN_EMBED),
+      out_axis_names: AxisNames = (BATCH, ATTN_LENGTH, HEAD, D_KV),
       prefill_input_axis_names: AxisNames = (PREFILL_KV_BATCH, PREFILL_LENGTH, ATTN_EMBED),
       decode_input_axis_names: AxisNames = (DECODE_BATCH, DECODE_LENGTH, ATTN_EMBED),
       prefill_out_axis_names: AxisNames = (PREFILL_KV_BATCH, PREFILL_LENGTH, HEAD, D_KV),
@@ -413,9 +401,6 @@ def __init__(
     self.query_axis_names = query_axis_names
     self.key_axis_names = key_axis_names
     self.value_axis_names = value_axis_names
-    self.ep_query_axis_names = ep_query_axis_names
-    self.ep_key_axis_names = ep_key_axis_names
-    self.ep_value_axis_names = ep_value_axis_names
     self.input_axis_names = input_axis_names
     self.out_axis_names = out_axis_names
     self.prefill_input_axis_names = prefill_input_axis_names
@@ -1161,10 +1146,6 @@ def __call__(
       query = self._maybe_shard_with_logical(query, (DECODE_BATCH, DECODE_LENGTH, HEAD, D_KV))
       key = self._maybe_shard_with_logical(key, (DECODE_BATCH, DECODE_LENGTH, KV_HEAD, D_KV))
       value = self._maybe_shard_with_logical(value, (DECODE_BATCH, DECODE_LENGTH, KV_HEAD, D_KV))
-    elif model_mode == MODEL_MODE_TRAIN and self.config.expert_shard_attention_option == EP_AS_CONTEXT:
-      query = self._maybe_shard_with_logical(query, self.ep_query_axis_names)
-      key = self._maybe_shard_with_logical(key, self.ep_key_axis_names)
-      value = self._maybe_shard_with_logical(value, self.ep_value_axis_names)
     else:
       query = self._maybe_shard_with_logical(query, self.query_axis_names)
       key = self._maybe_shard_with_logical(key, self.key_axis_names)
 
@@ -2,31 +2,31 @@
   "Activation Sharding Dump": [
     {
       "attentions/inputs_q: bfloat16[192,2048,2880]": {
-        "logic_axes": "('activation_batch', 'activation_attn_length_no_exp', 'activation_attn_embed')",
+        "logic_axes": "('activation_batch', 'activation_attn_length', 'activation_attn_embed')",
         "PartitionSpec": "P('fsdp', None, None)"
       }
     },
     {
       "attentions/inputs_kv: bfloat16[192,2048,2880]": {
-        "logic_axes": "('activation_batch', 'activation_attn_length_no_exp', 'activation_attn_embed')",
+        "logic_axes": "('activation_batch', 'activation_attn_length', 'activation_attn_embed')",
         "PartitionSpec": "P('fsdp', None, None)"
       }
     },
     {
       "attentions/query: bfloat16[192,2048,64,64]": {
-        "logic_axes": "('activation_kv_batch', 'activation_attn_length_no_exp', 'activation_kv_heads', 'activation_kv_head_dim')",
+        "logic_axes": "('activation_kv_batch', 'activation_attn_length', 'activation_kv_heads', 'activation_kv_head_dim')",
         "PartitionSpec": "P('fsdp', None, None, None)"
       }
     },
     {
       "attentions/key: bfloat16[192,2048,8,64]": {
-        "logic_axes": "('activation_kv_batch', 'activation_attn_length_no_exp', 'activation_kv_heads', 'activation_kv_head_dim')",
+        "logic_axes": "('activation_kv_batch', 'activation_attn_length', 'activation_kv_heads', 'activation_kv_head_dim')",
         "PartitionSpec": "P('fsdp', None, None, None)"
       }
     },
     {
       "attentions/value: bfloat16[192,2048,8,64]": {
-        "logic_axes": "('activation_kv_batch', 'activation_attn_length_no_exp', 'activation_kv_heads', 'activation_kv_head_dim')",
+        "logic_axes": "('activation_kv_batch', 'activation_attn_length', 'activation_kv_heads', 'activation_kv_head_dim')",
         "PartitionSpec": "P('fsdp', None, None, None)"
       }
     },
@@ -50,7 +50,7 @@
     },
     {
       "attentions/out: bfloat16[192,2048,64,64]": {
-        "logic_axes": "('activation_batch', 'activation_attn_length_no_exp', 'activation_heads', 'activation_kv')",
+        "logic_axes": "('activation_batch', 'activation_attn_length', 'activation_heads', 'activation_kv')",
         "PartitionSpec": "P('fsdp', None, None, None)"
       }
     },
 
@@ -2,31 +2,31 @@
   "Activation Sharding Dump": [
     {
       "attentions/inputs_q: bfloat16[768,2048,2880]": {
-        "logic_axes": "('activation_batch', 'activation_attn_length_no_exp', 'activation_attn_embed')",
+        "logic_axes": "('activation_batch', 'activation_attn_length', 'activation_attn_embed')",
         "PartitionSpec": "P(('data', 'fsdp'), None, None)"
       }
     },
     {
       "attentions/inputs_kv: bfloat16[768,2048,2880]": {
-        "logic_axes": "('activation_batch', 'activation_attn_length_no_exp', 'activation_attn_embed')",
+        "logic_axes": "('activation_batch', 'activation_attn_length', 'activation_attn_embed')",
         "PartitionSpec": "P(('data', 'fsdp'), None, None)"
       }
     },
     {
       "attentions/query: bfloat16[768,2048,64,64]": {
-        "logic_axes": "('activation_kv_batch', 'activation_attn_length_no_exp', 'activation_kv_heads', 'activation_kv_head_dim')",
+        "logic_axes": "('activation_kv_batch', 'activation_attn_length', 'activation_kv_heads', 'activation_kv_head_dim')",
         "PartitionSpec": "P(('data', 'fsdp'), None, None, None)"
       }
     },
     {
       "attentions/key: bfloat16[768,2048,8,64]": {
-        "logic_axes": "('activation_kv_batch', 'activation_attn_length_no_exp', 'activation_kv_heads', 'activation_kv_head_dim')",
+        "logic_axes": "('activation_kv_batch', 'activation_attn_length', 'activation_kv_heads', 'activation_kv_head_dim')",
         "PartitionSpec": "P(('data', 'fsdp'), None, None, None)"
       }
     },
     {
       "attentions/value: bfloat16[768,2048,8,64]": {
-        "logic_axes": "('activation_kv_batch', 'activation_attn_length_no_exp', 'activation_kv_heads', 'activation_kv_head_dim')",
+        "logic_axes": "('activation_kv_batch', 'activation_attn_length', 'activation_kv_heads', 'activation_kv_head_dim')",
         "PartitionSpec": "P(('data', 'fsdp'), None, None, None)"
       }
     },
@@ -50,7 +50,7 @@
     },
     {
       "attentions/out: bfloat16[768,2048,64,64]": {
-        "logic_axes": "('activation_batch', 'activation_attn_length_no_exp', 'activation_heads', 'activation_kv')",
+        "logic_axes": "('activation_batch', 'activation_attn_length', 'activation_heads', 'activation_kv')",
         "PartitionSpec": "P(('data', 'fsdp'), None, None, None)"
       }
     },
Original file line number	Diff line number	Diff line change
`@@ -2,31 +2,31 @@`
`2`	`2`	`"Activation Sharding Dump": [`
`3`	`3`	`{`
`4`	`4`	`"attentions/inputs_q: bfloat16[192,2048,2880]": {`
`5`		`- "logic_axes": "('activation_batch', 'activation_attn_length_no_exp', 'activation_attn_embed')",`
	`5`	`+ "logic_axes": "('activation_batch', 'activation_attn_length', 'activation_attn_embed')",`
`6`	`6`	`"PartitionSpec": "P('fsdp', None, None)"`
`7`	`7`	`}`
`8`	`8`	`},`
`9`	`9`	`{`
`10`	`10`	`"attentions/inputs_kv: bfloat16[192,2048,2880]": {`
`11`		`- "logic_axes": "('activation_batch', 'activation_attn_length_no_exp', 'activation_attn_embed')",`
	`11`	`+ "logic_axes": "('activation_batch', 'activation_attn_length', 'activation_attn_embed')",`
`12`	`12`	`"PartitionSpec": "P('fsdp', None, None)"`
`13`	`13`	`}`
`14`	`14`	`},`
`15`	`15`	`{`
`16`	`16`	`"attentions/query: bfloat16[192,2048,64,64]": {`
`17`		`- "logic_axes": "('activation_kv_batch', 'activation_attn_length_no_exp', 'activation_kv_heads', 'activation_kv_head_dim')",`
	`17`	`+ "logic_axes": "('activation_kv_batch', 'activation_attn_length', 'activation_kv_heads', 'activation_kv_head_dim')",`
`18`	`18`	`"PartitionSpec": "P('fsdp', None, None, None)"`
`19`	`19`	`}`
`20`	`20`	`},`
`21`	`21`	`{`
`22`	`22`	`"attentions/key: bfloat16[192,2048,8,64]": {`
`23`		`- "logic_axes": "('activation_kv_batch', 'activation_attn_length_no_exp', 'activation_kv_heads', 'activation_kv_head_dim')",`
	`23`	`+ "logic_axes": "('activation_kv_batch', 'activation_attn_length', 'activation_kv_heads', 'activation_kv_head_dim')",`
`24`	`24`	`"PartitionSpec": "P('fsdp', None, None, None)"`
`25`	`25`	`}`
`26`	`26`	`},`
`27`	`27`	`{`
`28`	`28`	`"attentions/value: bfloat16[192,2048,8,64]": {`
`29`		`- "logic_axes": "('activation_kv_batch', 'activation_attn_length_no_exp', 'activation_kv_heads', 'activation_kv_head_dim')",`
	`29`	`+ "logic_axes": "('activation_kv_batch', 'activation_attn_length', 'activation_kv_heads', 'activation_kv_head_dim')",`
`30`	`30`	`"PartitionSpec": "P('fsdp', None, None, None)"`
`31`	`31`	`}`
`32`	`32`	`},`
`@@ -50,7 +50,7 @@`
`50`	`50`	`},`
`51`	`51`	`{`
`52`	`52`	`"attentions/out: bfloat16[192,2048,64,64]": {`
`53`		`- "logic_axes": "('activation_batch', 'activation_attn_length_no_exp', 'activation_heads', 'activation_kv')",`
	`53`	`+ "logic_axes": "('activation_batch', 'activation_attn_length', 'activation_heads', 'activation_kv')",`
`54`	`54`	`"PartitionSpec": "P('fsdp', None, None, None)"`
`55`	`55`	`}`
`56`	`56`	`},`
Original file line number	Diff line number	Diff line change
`@@ -2,31 +2,31 @@`
`2`	`2`	`"Activation Sharding Dump": [`
`3`	`3`	`{`
`4`	`4`	`"attentions/inputs_q: bfloat16[768,2048,2880]": {`
`5`		`- "logic_axes": "('activation_batch', 'activation_attn_length_no_exp', 'activation_attn_embed')",`
	`5`	`+ "logic_axes": "('activation_batch', 'activation_attn_length', 'activation_attn_embed')",`
`6`	`6`	`"PartitionSpec": "P(('data', 'fsdp'), None, None)"`
`7`	`7`	`}`
`8`	`8`	`},`
`9`	`9`	`{`
`10`	`10`	`"attentions/inputs_kv: bfloat16[768,2048,2880]": {`
`11`		`- "logic_axes": "('activation_batch', 'activation_attn_length_no_exp', 'activation_attn_embed')",`
	`11`	`+ "logic_axes": "('activation_batch', 'activation_attn_length', 'activation_attn_embed')",`
`12`	`12`	`"PartitionSpec": "P(('data', 'fsdp'), None, None)"`
`13`	`13`	`}`
`14`	`14`	`},`
`15`	`15`	`{`
`16`	`16`	`"attentions/query: bfloat16[768,2048,64,64]": {`
`17`		`- "logic_axes": "('activation_kv_batch', 'activation_attn_length_no_exp', 'activation_kv_heads', 'activation_kv_head_dim')",`
	`17`	`+ "logic_axes": "('activation_kv_batch', 'activation_attn_length', 'activation_kv_heads', 'activation_kv_head_dim')",`
`18`	`18`	`"PartitionSpec": "P(('data', 'fsdp'), None, None, None)"`
`19`	`19`	`}`
`20`	`20`	`},`
`21`	`21`	`{`
`22`	`22`	`"attentions/key: bfloat16[768,2048,8,64]": {`
`23`		`- "logic_axes": "('activation_kv_batch', 'activation_attn_length_no_exp', 'activation_kv_heads', 'activation_kv_head_dim')",`
	`23`	`+ "logic_axes": "('activation_kv_batch', 'activation_attn_length', 'activation_kv_heads', 'activation_kv_head_dim')",`
`24`	`24`	`"PartitionSpec": "P(('data', 'fsdp'), None, None, None)"`
`25`	`25`	`}`
`26`	`26`	`},`
`27`	`27`	`{`
`28`	`28`	`"attentions/value: bfloat16[768,2048,8,64]": {`
`29`		`- "logic_axes": "('activation_kv_batch', 'activation_attn_length_no_exp', 'activation_kv_heads', 'activation_kv_head_dim')",`
	`29`	`+ "logic_axes": "('activation_kv_batch', 'activation_attn_length', 'activation_kv_heads', 'activation_kv_head_dim')",`
`30`	`30`	`"PartitionSpec": "P(('data', 'fsdp'), None, None, None)"`
`31`	`31`	`}`
`32`	`32`	`},`
`@@ -50,7 +50,7 @@`
`50`	`50`	`},`
`51`	`51`	`{`
`52`	`52`	`"attentions/out: bfloat16[768,2048,64,64]": {`
`53`		`- "logic_axes": "('activation_batch', 'activation_attn_length_no_exp', 'activation_heads', 'activation_kv')",`
	`53`	`+ "logic_axes": "('activation_batch', 'activation_attn_length', 'activation_heads', 'activation_kv')",`
`54`	`54`	`"PartitionSpec": "P(('data', 'fsdp'), None, None, None)"`
`55`	`55`	`}`
`56`	`56`	`},`