edjson
diff --git a/‎nemo_automodel/components/models/deepseek_v3/model.py‎
Lines changed: 15 additions & 3 deletions b/‎nemo_automodel/components/models/deepseek_v3/model.py‎
Lines changed: 15 additions & 3 deletions
diff --git a/‎nemo_automodel/components/models/deepseek_v32/model.py‎
Lines changed: 15 additions & 3 deletions b/‎nemo_automodel/components/models/deepseek_v32/model.py‎
Lines changed: 15 additions & 3 deletions
diff --git a/‎nemo_automodel/components/models/gemma4_moe/model.py‎
Lines changed: 9 additions & 1 deletion b/‎nemo_automodel/components/models/gemma4_moe/model.py‎
Lines changed: 9 additions & 1 deletion
diff --git a/‎nemo_automodel/components/models/glm4_moe/model.py‎
Lines changed: 22 additions & 4 deletions b/‎nemo_automodel/components/models/glm4_moe/model.py‎
Lines changed: 22 additions & 4 deletions
diff --git a/‎nemo_automodel/components/models/glm4_moe_lite/model.py‎
Lines changed: 22 additions & 4 deletions b/‎nemo_automodel/components/models/glm4_moe_lite/model.py‎
Lines changed: 22 additions & 4 deletions
diff --git a/‎nemo_automodel/components/models/glm_moe_dsa/model.py‎
Lines changed: 22 additions & 4 deletions b/‎nemo_automodel/components/models/glm_moe_dsa/model.py‎
Lines changed: 22 additions & 4 deletions
diff --git a/‎nemo_automodel/components/models/gpt_oss/model.py‎
Lines changed: 16 additions & 3 deletions b/‎nemo_automodel/components/models/gpt_oss/model.py‎
Lines changed: 16 additions & 3 deletions
@@ -120,11 +120,14 @@ def __init__(
         backend: BackendConfig,
         *,
         moe_config: MoEConfig | None = None,
+        moe_overrides: dict | None = None,
     ):
         super().__init__()
         self.backend = backend
         self.config = config
-        self.moe_config = moe_config or MoEConfig(
+        if moe_config is not None and moe_overrides is not None:
+            raise ValueError("Cannot pass both moe_config and moe_overrides; use one or the other.")
+        moe_defaults = dict(
             dim=config.hidden_size,
             inter_dim=config.intermediate_size,
             moe_inter_dim=config.moe_intermediate_size,
@@ -134,12 +137,15 @@ def __init__(
             n_expert_groups=config.n_group,
             n_limited_groups=config.topk_group,
             train_gate=True,
-            gate_bias_update_factor=0.001,
+            gate_bias_update_factor=1e-3,
             score_func="sigmoid",
             route_scale=config.routed_scaling_factor,
             aux_loss_coeff=0,
             norm_topk_prob=config.norm_topk_prob,
         )
+        if moe_overrides:
+            moe_defaults.update(moe_overrides)
+        self.moe_config = moe_config or MoEConfig(**moe_defaults)
         self.embed_tokens = nn.Embedding(
             config.vocab_size, config.hidden_size, dtype=get_dtype(config.torch_dtype, torch.bfloat16)
         )
@@ -269,7 +275,13 @@ def __init__(
         super().__init__()
         self.config = config
         self.backend = backend or BackendConfig()
-        self.model = DeepseekV3Model(config, backend=self.backend, moe_config=moe_config)
+        moe_overrides = kwargs.pop("moe_overrides", None)
+        self.model = DeepseekV3Model(
+            config,
+            backend=self.backend,
+            moe_config=moe_config,
+            moe_overrides=moe_overrides,
+        )
         self.lm_head = initialize_linear_module(self.backend.linear, config.hidden_size, config.vocab_size, bias=False)
         if self.backend.enable_hf_state_dict_adapter:
             self.state_dict_adapter = DeepSeekV3StateDictAdapter(
 
@@ -83,13 +83,16 @@ def __init__(
         backend: BackendConfig,
         *,
         moe_config: MoEConfig | None = None,
+        moe_overrides: dict | None = None,
     ):
         # Call grandparent __init__ to skip DeepseekV3Model's __init__
         nn.Module.__init__(self)
 
         self.backend = backend
         self.config = config
-        self.moe_config = moe_config or MoEConfig(
+        if moe_config is not None and moe_overrides is not None:
+            raise ValueError("Cannot pass both moe_config and moe_overrides; use one or the other.")
+        moe_defaults = dict(
             dim=config.hidden_size,
             inter_dim=config.intermediate_size,
             moe_inter_dim=config.moe_intermediate_size,
@@ -99,12 +102,15 @@ def __init__(
             n_expert_groups=config.n_group,
             n_limited_groups=config.topk_group,
             train_gate=True,
-            gate_bias_update_factor=0.001,
+            gate_bias_update_factor=1e-3,
             score_func="sigmoid",
             route_scale=config.routed_scaling_factor,
             aux_loss_coeff=0,
             norm_topk_prob=config.norm_topk_prob,
         )
+        if moe_overrides:
+            moe_defaults.update(moe_overrides)
+        self.moe_config = moe_config or MoEConfig(**moe_defaults)
 
         self.embed_tokens = nn.Embedding(
             config.vocab_size, config.hidden_size, dtype=get_dtype(config.torch_dtype, torch.bfloat16)
@@ -170,7 +176,13 @@ def __init__(
         self.config = config
         self.backend = backend or BackendConfig()
         # Use V3.2 Model instead of V3 Model
-        self.model = DeepseekV32Model(config, backend=self.backend, moe_config=moe_config)
+        moe_overrides = kwargs.pop("moe_overrides", None)
+        self.model = DeepseekV32Model(
+            config,
+            backend=self.backend,
+            moe_config=moe_config,
+            moe_overrides=moe_overrides,
+        )
         self.lm_head = initialize_linear_module(self.backend.linear, config.hidden_size, config.vocab_size, bias=False)
         if self.backend.enable_hf_state_dict_adapter:
             # Use V3.2 adapter instead of V3 adapter
 
@@ -248,15 +248,18 @@ def __init__(
         backend: BackendConfig,
         *,
         moe_config: MoEConfig | None = None,
+        moe_overrides: dict | None = None,
     ):
         super().__init__()
         self.backend = backend
         self.config = config
+        if moe_config is not None and moe_overrides is not None:
+            raise ValueError("Cannot pass both moe_config and moe_overrides; use one or the other.")
 
         self.padding_idx = getattr(config, "pad_token_id", None)
         self.vocab_size = config.vocab_size
 
-        self.moe_config = moe_config or MoEConfig(
+        moe_defaults = dict(
             dim=config.hidden_size,
             inter_dim=config.intermediate_size,
             moe_inter_dim=config.expert_intermediate_size or getattr(config, "moe_intermediate_size", None),
@@ -274,6 +277,9 @@ def __init__(
             expert_activation="geglu",
             softmax_before_topk=False,
         )
+        if moe_overrides:
+            moe_defaults.update(moe_overrides)
+        self.moe_config = moe_config or MoEConfig(**moe_defaults)
 
         get_dtype(getattr(config, "torch_dtype", None), torch.bfloat16)
         self.embed_tokens = Gemma4TextScaledWordEmbedding(
@@ -452,11 +458,13 @@ def __init__(
             return
 
         # --- MoE path: replace the text model ---
+        moe_overrides = kwargs.pop("moe_overrides", None)
         self.model.__class__ = Gemma4MoEModel
         self.model.language_model = Gemma4MoETextModelBackend(
             text_config,
             backend=self.backend,
             moe_config=moe_config,
+            moe_overrides=moe_overrides,
         )
 
         # Expose moe_config for the MoE parallelizer assertion
 
@@ -93,17 +93,26 @@ def init_weights(self, buffer_device: torch.device):
 
 
 class Glm4MoeModel(nn.Module):
-    def __init__(self, config: Glm4MoeConfig, backend: BackendConfig, *, moe_config: MoEConfig | None = None):
+    def __init__(
+        self,
+        config: Glm4MoeConfig,
+        backend: BackendConfig,
+        *,
+        moe_config: MoEConfig | None = None,
+        moe_overrides: dict | None = None,
+    ):
         super().__init__()
         self.backend = backend
         self.config = config
+        if moe_config is not None and moe_overrides is not None:
+            raise ValueError("Cannot pass both moe_config and moe_overrides; use one or the other.")
 
         # Map HF GLM4 MoE config -> our MoE wrapper
         # GLM4 MoE config fields:
         # - hidden_size, intermediate_size, moe_intermediate_size
         # - n_routed_experts, n_shared_experts, num_experts_per_tok
         # - n_group, topk_group, routed_scaling_factor, norm_topk_prob
-        self.moe_config = moe_config or MoEConfig(
+        moe_defaults = dict(
             dim=config.hidden_size,
             inter_dim=config.intermediate_size,
             moe_inter_dim=config.moe_intermediate_size,
@@ -113,7 +122,7 @@ def __init__(self, config: Glm4MoeConfig, backend: BackendConfig, *, moe_config:
             n_expert_groups=config.n_group,
             n_limited_groups=config.topk_group,
             train_gate=True,
-            gate_bias_update_factor=0.001,
+            gate_bias_update_factor=1e-3,
             score_func="sigmoid",  # GLM4 MoE uses sigmoid scoring with groups
             route_scale=config.routed_scaling_factor,
             aux_loss_coeff=0.0,  # GLM4 MoE doesn't use aux loss in the HF implementation
@@ -123,6 +132,9 @@ def __init__(self, config: Glm4MoeConfig, backend: BackendConfig, *, moe_config:
             expert_activation="swiglu",
             softmax_before_topk=False,  # GLM4 uses sigmoid, not softmax
         )
+        if moe_overrides:
+            moe_defaults.update(moe_overrides)
+        self.moe_config = moe_config or MoEConfig(**moe_defaults)
 
         self.embed_tokens = nn.Embedding(
             config.vocab_size, config.hidden_size, dtype=get_dtype(config.torch_dtype, torch.bfloat16)
@@ -238,7 +250,13 @@ def __init__(
         super().__init__()
         self.config = config
         self.backend = backend or BackendConfig()
-        self.model = Glm4MoeModel(config, backend=self.backend, moe_config=moe_config)
+        moe_overrides = kwargs.pop("moe_overrides", None)
+        self.model = Glm4MoeModel(
+            config,
+            backend=self.backend,
+            moe_config=moe_config,
+            moe_overrides=moe_overrides,
+        )
         self.lm_head = initialize_linear_module(self.backend.linear, config.hidden_size, config.vocab_size, bias=False)
         if self.backend.enable_hf_state_dict_adapter:
             self.state_dict_adapter = Glm4MoeStateDictAdapter(
 
@@ -101,13 +101,22 @@ def init_weights(self, buffer_device: torch.device):
 
 
 class Glm4MoeLiteModel(nn.Module):
-    def __init__(self, config: Any, backend: BackendConfig, *, moe_config: MoEConfig | None = None):
+    def __init__(
+        self,
+        config: Any,
+        backend: BackendConfig,
+        *,
+        moe_config: MoEConfig | None = None,
+        moe_overrides: dict | None = None,
+    ):
         super().__init__()
         self.backend = backend
         self.config = config
+        if moe_config is not None and moe_overrides is not None:
+            raise ValueError("Cannot pass both moe_config and moe_overrides; use one or the other.")
 
         # Map config -> MoE wrapper (same as GLM4 MoE)
-        self.moe_config = moe_config or MoEConfig(
+        moe_defaults = dict(
             dim=config.hidden_size,
             inter_dim=config.intermediate_size,
             moe_inter_dim=config.moe_intermediate_size,
@@ -117,7 +126,7 @@ def __init__(self, config: Any, backend: BackendConfig, *, moe_config: MoEConfig
             n_expert_groups=config.n_group,
             n_limited_groups=config.topk_group,
             train_gate=True,
-            gate_bias_update_factor=0.001,
+            gate_bias_update_factor=1e-3,
             score_func="sigmoid",  # GLM4 MoE uses sigmoid scoring with groups
             route_scale=config.routed_scaling_factor,
             aux_loss_coeff=0.0,  # GLM4 MoE doesn't use aux loss in the HF implementation
@@ -127,6 +136,9 @@ def __init__(self, config: Any, backend: BackendConfig, *, moe_config: MoEConfig
             expert_activation="swiglu",
             softmax_before_topk=False,  # GLM4 uses sigmoid, not softmax
         )
+        if moe_overrides:
+            moe_defaults.update(moe_overrides)
+        self.moe_config = moe_config or MoEConfig(**moe_defaults)
 
         self.embed_tokens = nn.Embedding(
             config.vocab_size, config.hidden_size, dtype=get_dtype(config.torch_dtype, torch.bfloat16)
@@ -239,7 +251,13 @@ def __init__(
         super().__init__()
         self.config = config
         self.backend = backend or BackendConfig()
-        self.model = Glm4MoeLiteModel(config, backend=self.backend, moe_config=moe_config)
+        moe_overrides = kwargs.pop("moe_overrides", None)
+        self.model = Glm4MoeLiteModel(
+            config,
+            backend=self.backend,
+            moe_config=moe_config,
+            moe_overrides=moe_overrides,
+        )
         self.lm_head = initialize_linear_module(self.backend.linear, config.hidden_size, config.vocab_size, bias=False)
         if self.backend.enable_hf_state_dict_adapter:
             self.state_dict_adapter = Glm4MoeStateDictAdapter(
 
@@ -94,12 +94,21 @@ def init_weights(self, buffer_device: torch.device):
 
 
 class GlmMoeDsaModel(nn.Module):
-    def __init__(self, config: GlmMoeDsaConfig, backend: BackendConfig, *, moe_config: MoEConfig | None = None):
+    def __init__(
+        self,
+        config: GlmMoeDsaConfig,
+        backend: BackendConfig,
+        *,
+        moe_config: MoEConfig | None = None,
+        moe_overrides: dict | None = None,
+    ):
         super().__init__()
         self.backend = backend
         self.config = config
+        if moe_config is not None and moe_overrides is not None:
+            raise ValueError("Cannot pass both moe_config and moe_overrides; use one or the other.")
 
-        self.moe_config = moe_config or MoEConfig(
+        moe_defaults = dict(
             dim=config.hidden_size,
             inter_dim=config.intermediate_size,
             moe_inter_dim=config.moe_intermediate_size,
@@ -109,7 +118,7 @@ def __init__(self, config: GlmMoeDsaConfig, backend: BackendConfig, *, moe_confi
             n_expert_groups=config.n_group,
             n_limited_groups=config.topk_group,
             train_gate=True,
-            gate_bias_update_factor=0.001,
+            gate_bias_update_factor=1e-3,
             score_func="sigmoid",
             route_scale=config.routed_scaling_factor,
             aux_loss_coeff=0.0,
@@ -119,6 +128,9 @@ def __init__(self, config: GlmMoeDsaConfig, backend: BackendConfig, *, moe_confi
             expert_activation="swiglu",
             softmax_before_topk=False,
         )
+        if moe_overrides:
+            moe_defaults.update(moe_overrides)
+        self.moe_config = moe_config or MoEConfig(**moe_defaults)
 
         self.embed_tokens = nn.Embedding(
             config.vocab_size, config.hidden_size, dtype=get_dtype(config.torch_dtype, torch.bfloat16)
@@ -227,7 +239,13 @@ def __init__(
         super().__init__()
         self.config = config
         self.backend = backend or BackendConfig()
-        self.model = GlmMoeDsaModel(config, backend=self.backend, moe_config=moe_config)
+        moe_overrides = kwargs.pop("moe_overrides", None)
+        self.model = GlmMoeDsaModel(
+            config,
+            backend=self.backend,
+            moe_config=moe_config,
+            moe_overrides=moe_overrides,
+        )
         self.lm_head = initialize_linear_module(self.backend.linear, config.hidden_size, config.vocab_size, bias=False)
         if self.backend.enable_hf_state_dict_adapter:
             self.state_dict_adapter = GlmMoeDsaStateDictAdapter(
 
@@ -88,12 +88,21 @@ def init_weights(self, buffer_device: torch.device):
 
 
 class GptOssModel(nn.Module):
-    def __init__(self, config: GptOssConfig, backend: BackendConfig, *, moe_config: MoEConfig | None = None):
+    def __init__(
+        self,
+        config: GptOssConfig,
+        backend: BackendConfig,
+        *,
+        moe_config: MoEConfig | None = None,
+        moe_overrides: dict | None = None,
+    ):
         super().__init__()
         self.backend = backend
         self.config = config
+        if moe_config is not None and moe_overrides is not None:
+            raise ValueError("Cannot pass both moe_config and moe_overrides; use one or the other.")
         # GPT-OSS is MoE everywhere; set shared experts to 0 to disable shared path in our MoE wrapper.
-        self.moe_config = moe_config or MoEConfig(
+        moe_defaults = dict(
             dim=config.hidden_size,
             inter_dim=config.intermediate_size,
             moe_inter_dim=config.intermediate_size,
@@ -114,6 +123,9 @@ def __init__(self, config: GptOssConfig, backend: BackendConfig, *, moe_config:
             activation_alpha=1.702,
             activation_limit=getattr(config, "swiglu_limit", 7.0),
         )
+        if moe_overrides:
+            moe_defaults.update(moe_overrides)
+        self.moe_config = moe_config or MoEConfig(**moe_defaults)
 
         self.embed_tokens = nn.Embedding(
             config.vocab_size, config.hidden_size, dtype=get_dtype(config.torch_dtype, torch.bfloat16)
@@ -223,7 +235,8 @@ def __init__(
         super().__init__()
         self.config = config
         self.backend = backend or BackendConfig(attn="flex")
-        self.model = GptOssModel(config, backend=self.backend, moe_config=moe_config)
+        moe_overrides = kwargs.pop("moe_overrides", None)
+        self.model = GptOssModel(config, backend=self.backend, moe_config=moe_config, moe_overrides=moe_overrides)
         self.lm_head = initialize_linear_module(self.backend.linear, config.hidden_size, config.vocab_size, bias=False)
         if self.backend.enable_hf_state_dict_adapter:
             self.state_dict_adapter = GPTOSSStateDictAdapter(