NVIDIA-NeMo
diff --git a/‎…ps/models/ernie_vl/ernie45_vl_fwd_bwd.py‎ ‎…odels/vlm/ernie_vl/ernie45_vl_fwd_bwd.py‎tests/functional_tests/test_groups/models/ernie_vl/ernie45_vl_fwd_bwd.py renamed to examples/models/vlm/ernie_vl/ernie45_vl_fwd_bwd.py b/‎…ps/models/ernie_vl/ernie45_vl_fwd_bwd.py‎ ‎…odels/vlm/ernie_vl/ernie45_vl_fwd_bwd.py‎tests/functional_tests/test_groups/models/ernie_vl/ernie45_vl_fwd_bwd.py renamed to examples/models/vlm/ernie_vl/ernie45_vl_fwd_bwd.py
diff --git a/‎…els/ernie_vl/ernie45_vl_logit_compare.py‎ ‎…vlm/ernie_vl/ernie45_vl_logit_compare.py‎tests/functional_tests/test_groups/models/ernie_vl/ernie45_vl_logit_compare.py renamed to examples/models/vlm/ernie_vl/ernie45_vl_logit_compare.py b/‎…els/ernie_vl/ernie45_vl_logit_compare.py‎ ‎…vlm/ernie_vl/ernie45_vl_logit_compare.py‎tests/functional_tests/test_groups/models/ernie_vl/ernie45_vl_logit_compare.py renamed to examples/models/vlm/ernie_vl/ernie45_vl_logit_compare.py
diff --git a/‎…odels/ernie_vl/ernie45_vl_vit_compare.py‎ ‎…s/vlm/ernie_vl/ernie45_vl_vit_compare.py‎tests/functional_tests/test_groups/models/ernie_vl/ernie45_vl_vit_compare.py renamed to examples/models/vlm/ernie_vl/ernie45_vl_vit_compare.py b/‎…odels/ernie_vl/ernie45_vl_vit_compare.py‎ ‎…s/vlm/ernie_vl/ernie45_vl_vit_compare.py‎tests/functional_tests/test_groups/models/ernie_vl/ernie45_vl_vit_compare.py renamed to examples/models/vlm/ernie_vl/ernie45_vl_vit_compare.py
diff --git a/‎…/models/ernie_vl/ernie45_vl_vit_debug.py‎ ‎…els/vlm/ernie_vl/ernie45_vl_vit_debug.py‎tests/functional_tests/test_groups/models/ernie_vl/ernie45_vl_vit_debug.py renamed to examples/models/vlm/ernie_vl/ernie45_vl_vit_debug.py
Lines changed: 0 additions & 8 deletions b/‎…/models/ernie_vl/ernie45_vl_vit_debug.py‎ ‎…els/vlm/ernie_vl/ernie45_vl_vit_debug.py‎tests/functional_tests/test_groups/models/ernie_vl/ernie45_vl_vit_debug.py renamed to examples/models/vlm/ernie_vl/ernie45_vl_vit_debug.py
Lines changed: 0 additions & 8 deletions
diff --git a/‎…_groups/models/ernie_vl/hf_loss_check.py‎ ‎…les/models/vlm/ernie_vl/hf_loss_check.py‎tests/functional_tests/test_groups/models/ernie_vl/hf_loss_check.py renamed to examples/models/vlm/ernie_vl/hf_loss_check.py b/‎…_groups/models/ernie_vl/hf_loss_check.py‎ ‎…les/models/vlm/ernie_vl/hf_loss_check.py‎tests/functional_tests/test_groups/models/ernie_vl/hf_loss_check.py renamed to examples/models/vlm/ernie_vl/hf_loss_check.py
diff --git a/‎src/megatron/bridge/models/__init__.py‎
Lines changed: 0 additions & 2 deletions b/‎src/megatron/bridge/models/__init__.py‎
Lines changed: 0 additions & 2 deletions
diff --git a/‎src/megatron/bridge/models/conversion/model_bridge.py‎
Lines changed: 7 additions & 1 deletion b/‎src/megatron/bridge/models/conversion/model_bridge.py‎
Lines changed: 7 additions & 1 deletion
diff --git a/‎src/megatron/bridge/models/conversion/param_mapping.py‎
Lines changed: 3 additions & 17 deletions b/‎src/megatron/bridge/models/conversion/param_mapping.py‎
Lines changed: 3 additions & 17 deletions
diff --git a/‎src/megatron/bridge/models/ernie/__init__.py‎
Lines changed: 0 additions & 2 deletions b/‎src/megatron/bridge/models/ernie/__init__.py‎
Lines changed: 0 additions & 2 deletions
diff --git a/‎src/megatron/bridge/models/ernie/ernie_45_bridge.py‎
Lines changed: 52 additions & 11 deletions b/‎src/megatron/bridge/models/ernie/ernie_45_bridge.py‎
Lines changed: 52 additions & 11 deletions
@@ -184,7 +184,6 @@ def main():
         mg_emb = torch.cat((mg_rotary.reshape(total_patches, 1, 1, -1),
                            mg_rotary.reshape(total_patches, 1, 1, -1)), dim=-1)
         mg_cos = mg_emb.cos().flatten()
-        mg_sin = mg_emb.sin().flatten()
 
     cos_sim_rope = F.cosine_similarity(
         hf_rotary.float().flatten().unsqueeze(0),
@@ -308,13 +307,6 @@ def main():
         mg_qkv_out, _ = mg_linear_qkv(mg_patch_out[:, None])  # [N, 1, 3*hidden]
         mg_qkv_flat = mg_qkv_out.squeeze(1)
 
-    cos_sim_ln = F.cosine_similarity(
-        hf_normed.float().flatten().unsqueeze(0),
-        # We can't easily extract just the LN output from the fused module
-        # so just compare QKV output
-        torch.zeros(1).unsqueeze(0),  # placeholder
-    ).item()
-
     cos_sim_qkv = F.cosine_similarity(
         hf_qkv.float().flatten().unsqueeze(0),
         mg_qkv_flat.float().flatten().unsqueeze(0)
 
@@ -34,7 +34,6 @@
 )
 from megatron.bridge.models.ernie import (
     Ernie45Bridge,
-    Ernie45ModelProvider,
 )
 from megatron.bridge.models.ernie_vl import (
     Ernie45VLBridge,
@@ -175,7 +174,6 @@
     "DeepSeekV3Bridge",
     # ERNIE Text-Only Models
     "Ernie45Bridge",
-    "Ernie45ModelProvider",
     # ERNIE VL Models
     "Ernie45VLBridge",
     "Ernie45VLModel",
 
@@ -925,7 +925,13 @@ def load_weights_hf_to_megatron(
 
         _hf_import_cache: Dict[str, torch.Tensor] = {}
         for task in self._with_progress_tracking(hf_to_megatron_tasks, description):
-            # None task means no mapping exists for this param (e.g. MTP layers without bridge mappings)
+            # A None task means the Megatron model has a parameter for which no
+            # HF↔Megatron mapping was registered.  This is expected when the HF
+            # config declares optional layers (e.g. num_nextn_predict_layers for
+            # MTP) but the HF checkpoint ships no weights for them; the bridge
+            # intentionally omits mappings so these layers keep their default
+            # (random-init) weights.  Skipping here is safe — it is NOT a
+            # missing-mapping bug.
             if task is None:
                 continue
             # None means megatron module not on current rank, skip if this task is not going to happen
 
@@ -173,8 +173,8 @@ def is_expert(self) -> bool:
 
         Matches both TEGroupedMLP (.experts.linear_fc) and
         SequentialMLP (.experts.local_experts.*.linear_fc) patterns.
-        Also matches dual-pool MoE patterns where an intermediate module name
-        appears between .mlp. and .experts. (e.g. .mlp.text_moe_layer.experts.).
+        Uses ``.experts.`` rather than ``.mlp.experts.`` so models with an
+        intermediate sub-module (e.g. ``.mlp.<pool>.experts.``) are matched too.
         """
         return ".experts.linear_fc" in self.megatron_param or ".experts.local_experts." in self.megatron_param
 
@@ -664,9 +664,6 @@ def gather_from_ep_ranks(
           Rank 0: [0, 1, 2, 3], Rank 1: [4, 5, 6, 7].
           If the local index L = 0 (derived from the param name), this returns:
           {"...experts.0.weight": tensor_from_rank0, "...experts.4.weight": tensor_from_rank1}
-        - Dual-pool MoE with pool offset P (e.g., P=64 for vision pool):
-          Vision expert L=0 has HF index P+0=64. With S=2, E/S=32:
-          {"...experts.64.weight": tensor_from_rank0, "...experts.96.weight": tensor_from_rank1}
 
         Args:
             megatron_weights (Optional[torch.Tensor]): The local expert weight tensor
@@ -697,22 +694,11 @@ def gather_from_ep_ranks(
         global_expert_number = extract_expert_number_from_param(self.megatron_param)
         local_expert_number = global_expert_number % num_experts_per_rank
 
-        # Compute pool offset from HF param name. For dual-pool MoE (e.g., ERNIE VL),
-        # vision expert 3 maps to HF expert 67 (offset=64). The HF param name already
-        # contains the correct offset-shifted index from _OffsetMapping.resolve().
-        # For standard single-pool MoE, pool_offset is always 0.
-        hf_expert_match = re.search(r"experts\.(\d+)", str(hf_param_name))
-        if hf_expert_match:
-            hf_expert_number = int(hf_expert_match.group(1))
-            pool_offset = hf_expert_number - local_expert_number
-        else:
-            pool_offset = 0
-
         # Compute global expert numbers for all EP ranks
         # use regex to replace the local expert number with the global expert number
         gathered_expert_param_names = [
             re.sub(
-                r"experts\.(\d+)", f"experts.{pool_offset + int(local_expert_number) + num_experts_per_rank * i}", str(hf_param_name)
+                r"experts\.(\d+)", f"experts.{int(local_expert_number) + num_experts_per_rank * i}", str(hf_param_name)
             )
             for i in range(self.ep_size)
         ]
 
@@ -13,10 +13,8 @@
 # limitations under the License.
 
 from megatron.bridge.models.ernie.ernie_45_bridge import Ernie45Bridge
-from megatron.bridge.models.ernie.ernie_45_provider import Ernie45ModelProvider
 
 
 __all__ = [
     "Ernie45Bridge",
-    "Ernie45ModelProvider",
 ]
@@ -20,6 +20,7 @@
 shared experts, expert bias for aux-free load balancing).
 """
 
+import torch.nn.functional as F
 from megatron.core.models.gpt.gpt_model import GPTModel
 
 from megatron.bridge.models.conversion.mapping_registry import MegatronMappingRegistry
@@ -30,7 +31,30 @@
     QKVMapping,
     ReplicatedMapping,
 )
-from megatron.bridge.models.ernie.ernie_45_provider import Ernie45ModelProvider
+from megatron.bridge.models.gpt_provider import GPTModelProvider
+
+
+def _ernie45_decoder_block_spec(config: "GPTModelProvider", vp_stage: int | None = None):
+    """Create a decoder block spec that respects ``moe_layer_freq``.
+
+    The default ``GPTModelProvider.transformer_layer_spec`` calls
+    ``get_gpt_layer_with_transformer_engine_spec`` which returns a single
+    MoE layer spec applied uniformly to ALL layers, ignoring
+    ``moe_layer_freq``.
+
+    ERNIE 4.5 has mixed dense/MoE layers (layer 0 is dense, layers 1-N
+    are MoE).  This function uses ``get_gpt_decoder_block_spec`` which
+    calls ``get_gpt_decoder_layer_specs`` — the code path that parses
+    ``config.moe_layer_freq`` and creates per-layer specs (dense for
+    pattern=0, MoE for pattern=1).
+    """
+    from megatron.core.models.gpt.gpt_layer_specs import get_gpt_decoder_block_spec
+
+    return get_gpt_decoder_block_spec(
+        config=config,
+        use_transformer_engine=True,
+        vp_stage=vp_stage,
+    )
 
 
 # HF class name string; avoids requiring the HF modeling module at import time.
@@ -109,7 +133,7 @@ def megatron_to_hf(self, megatron_weights, megatron_module):
 @MegatronModelBridge.register_bridge(
     source=_ERNIE45_MOE_HF_CLASS_NAME,
     target=GPTModel,
-    provider=Ernie45ModelProvider,
+    provider=GPTModelProvider,
     model_type="ernie4_5_moe",
 )
 class Ernie45Bridge(MegatronModelBridge):
@@ -146,16 +170,31 @@ def _get_num_experts(hf_config) -> int:
         return int(raw)
 
     def provider_bridge(self, hf_pretrained):
-        """Convert HuggingFace ERNIE 4.5 MoE config to Ernie45ModelProvider.
+        """Convert HuggingFace ERNIE 4.5 MoE config to GPTModelProvider.
 
         Uses super().provider_bridge() for standard CONFIG_MAPPING fields
         (hidden_size, num_layers, rope_theta, tie_word_embeddings, etc.)
-        and then overrides ERNIE-specific MoE settings that use non-standard
-        HF config field names (moe_num_experts, moe_k, moe_intermediate_size).
+        and then overrides ERNIE-specific settings.
         """
         provider = super().provider_bridge(hf_pretrained)
         hf_config = hf_pretrained.config
 
+        # --- Architecture overrides ---
+        provider.normalization = "RMSNorm"
+        provider.activation_func = F.silu
+        provider.gated_linear_unit = True
+        provider.add_bias_linear = False
+        provider.add_qkv_bias = False
+        provider.hidden_dropout = 0.0
+        provider.position_embedding_type = "rope"
+        provider.rotary_base = 500000.0
+        provider.rotary_interleaved = True
+        provider.moe_router_load_balancing_type = "aux_loss"
+        # Mixed dense/MoE layers (layer 0 dense, rest MoE): use decoder
+        # block spec that parses moe_layer_freq per-layer instead of the
+        # default spec which applies MoE uniformly to all layers.
+        provider.transformer_layer_spec = _ernie45_decoder_block_spec
+
         # --- MoE settings (ERNIE uses non-standard HF config field names) ---
         num_experts = self._get_num_experts(hf_config)
         provider.num_moe_experts = num_experts
@@ -179,17 +218,19 @@ def provider_bridge(self, hf_pretrained):
         # Router settings
         provider.moe_aux_loss_coeff = getattr(hf_config, "router_aux_loss_coef", 0.001)
 
-        # MoE runtime settings
-        # NOTE: moe_grouped_gemm=False uses SequentialMLP (per-expert forward);
-        # True uses TEGroupedMLP which can produce NaN with certain TE versions.
-        provider.moe_grouped_gemm = False
+        # MoE runtime settings — same as DeepSeek V3 (sigmoid routing + expert bias)
+        provider.moe_grouped_gemm = True
         provider.moe_router_pre_softmax = False
         provider.moe_router_score_function = "sigmoid"
         provider.moe_router_enable_expert_bias = True
         provider.moe_router_dtype = "fp32"
         provider.moe_token_dispatcher_type = "alltoall"
-        provider.moe_permute_fusion = False
-        provider.gradient_accumulation_fusion = False
+        provider.moe_permute_fusion = True
+        # gradient_accumulation_fusion: use the auto-detected default from
+        # GPTModelProvider (checks for APEX or TE availability) rather than
+        # overriding it here.  For conversion jobs (no backward pass) the
+        # flag is irrelevant; for training it will be enabled whenever
+        # the required extensions are present.
 
         # Disable MTP (Multi-Token Prediction) for inference -- the ERNIE HF
         # model stores num_nextn_predict_layers in config but does not ship
Original file line number	Diff line number	Diff line change
`@@ -13,10 +13,8 @@`
`13`	`13`	`# limitations under the License.`
`14`	`14`
`15`	`15`	`from megatron.bridge.models.ernie.ernie_45_bridge import Ernie45Bridge`
`16`		`-from megatron.bridge.models.ernie.ernie_45_provider import Ernie45ModelProvider`
`17`	`16`
`18`	`17`
`19`	`18`	`__all__ = [`
`20`	`19`	`"Ernie45Bridge",`
`21`		`- "Ernie45ModelProvider",`
`22`	`20`	`]`