Add MoE to Gemma4 TP plan (#45219)

sywangyi · Cyrilvallez · web-flow · commit 7f6cc4b3c540 · 2026-04-08T16:09:39.000+02:00
reduce memory for gemma4 moe model in tp

Signed-off-by: Wang, Yi &lt;yi.a.wang@intel.com&gt;
Co-authored-by: Cyril Vallez &lt;cyril.vallez@huggingface.co&gt;
diff --git a/src/transformers/models/gemma4/configuration_gemma4.py b/src/transformers/models/gemma4/configuration_gemma4.py
@@ -132,6 +132,9 @@ class Gemma4TextConfig(PreTrainedConfig):
         "layers.*.mlp.gate_proj": "colwise",
         "layers.*.mlp.up_proj": "colwise",
         "layers.*.mlp.down_proj": "rowwise",
+        "layers.*.experts.gate_up_proj": "packed_colwise",
+        "layers.*.experts.down_proj": "rowwise",
+        "layers.*.experts": "moe_tp_experts",
     }
     base_model_pp_plan = {
         "embed_tokens": (["input_ids"], ["inputs_embeds"]),