AI-Hypercomputer
diff --git a/‎src/MaxText/layers/attention_op.py‎
Lines changed: 2 additions & 1 deletion b/‎src/MaxText/layers/attention_op.py‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎src/MaxText/layers/deepseek_batchsplit.py‎
Lines changed: 1 addition & 1 deletion b/‎src/MaxText/layers/deepseek_batchsplit.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/MaxText/layers/moe.py‎
Lines changed: 2 additions & 1 deletion b/‎src/MaxText/layers/moe.py‎
Lines changed: 2 additions & 1 deletion
@@ -524,7 +524,8 @@ def maybe_create_nnx(einsum, *args):
       self.AqtEinsum_3 = jnp.einsum
 
   def _logical_to_mesh_axes(self, logical_name):
-    return logical_to_mesh_axes(logical_name, mesh=self.mesh, rules=self.config.logical_axis_rules)
+    logical_rules = None if self.config.using_pipeline_parallelism else self.config.logical_axis_rules
+    return logical_to_mesh_axes(logical_name, mesh=self.mesh, rules=logical_rules)
 
   def check_attention_inputs(self, query: Array, key: Array | KVTensor, value: Array | KVTensor) -> None:
     """Check attention inputs."""
 
@@ -755,7 +755,7 @@ def gmm(
       input_buffer_count,
       combine_scopes,
   ):
-    if config.use_qwix_quantization:
+    if config.use_qwix_quantization or config.using_pipeline_parallelism:
       output = megablox.gmm(
           lhs=inputs,
           rhs=kernel,
 
@@ -462,7 +462,8 @@ def _maybe_shard_with_logical(self, inputs, logical_name):
     )
 
   def _logical_to_mesh_axes(self, logical_name):
-    return logical_to_mesh_axes(logical_name, mesh=self.mesh, rules=self.config.logical_axis_rules)
+    logical_rules = None if self.config.using_pipeline_parallelism else self.config.logical_axis_rules
+    return logical_to_mesh_axes(logical_name, mesh=self.mesh, rules=logical_rules)
 
   def get_expert_parallelism_size(self):
     return self.mesh.shape.get("expert", 1)
Original file line number	Diff line number	Diff line change
`@@ -462,7 +462,8 @@ def _maybe_shard_with_logical(self, inputs, logical_name):`
`462`	`462`	`)`
`463`	`463`
`464`	`464`	`def _logical_to_mesh_axes(self, logical_name):`
`465`		`- return logical_to_mesh_axes(logical_name, mesh=self.mesh, rules=self.config.logical_axis_rules)`
	`465`	`+ logical_rules = None if self.config.using_pipeline_parallelism else self.config.logical_axis_rules`
	`466`	`+ return logical_to_mesh_axes(logical_name, mesh=self.mesh, rules=logical_rules)`
`466`	`467`
`467`	`468`	`def get_expert_parallelism_size(self):`
`468`	`469`	`return self.mesh.shape.get("expert", 1)`