NVIDIA-BioNeMo
diff --git a/‎bionemo-recipes/recipes/evo2_megatron/pyproject.toml‎
Lines changed: 2 additions & 2 deletions b/‎bionemo-recipes/recipes/evo2_megatron/pyproject.toml‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎bionemo-recipes/recipes/evo2_megatron/src/bionemo/evo2/data/dataset_tokenizer.py‎
Lines changed: 13 additions & 8 deletions b/‎bionemo-recipes/recipes/evo2_megatron/src/bionemo/evo2/data/dataset_tokenizer.py‎
Lines changed: 13 additions & 8 deletions
diff --git a/‎bionemo-recipes/recipes/evo2_megatron/src/bionemo/evo2/data/fasta_dataset.py‎
Lines changed: 6 additions & 1 deletion b/‎bionemo-recipes/recipes/evo2_megatron/src/bionemo/evo2/data/fasta_dataset.py‎
Lines changed: 6 additions & 1 deletion
diff --git a/‎bionemo-recipes/recipes/evo2_megatron/src/bionemo/evo2/data/sharded_eden_dataset_provider.py‎
Lines changed: 23 additions & 4 deletions b/‎bionemo-recipes/recipes/evo2_megatron/src/bionemo/evo2/data/sharded_eden_dataset_provider.py‎
Lines changed: 23 additions & 4 deletions
diff --git a/‎bionemo-recipes/recipes/evo2_megatron/src/bionemo/evo2/models/evo2_provider.py‎
Lines changed: 51 additions & 108 deletions b/‎bionemo-recipes/recipes/evo2_megatron/src/bionemo/evo2/models/evo2_provider.py‎
Lines changed: 51 additions & 108 deletions
@@ -95,8 +95,8 @@ bionemo-core = { git = "https://github.com/NVIDIA/bionemo-framework.git", branch
 nvidia-resiliency-ext = { git = "https://github.com/NVIDIA/nvidia-resiliency-ext.git", rev = "54f85fe422d296cf04ea524130014bd3a2c3add1" }  # pragma: allowlist secret
 
 # Megatron Bundle. This points to a version that still supports the deprecated no_weight_decay_cond field until the API for an alternative has been finalized.
-megatron-bridge = { git = "https://github.com/NVIDIA-NeMo/Megatron-Bridge.git", rev = "18ef1b61309dd45bc0535fb7c60064b9d8829a35" }  # pragma: allowlist secret
-megatron-core = { git = "https://github.com/NVIDIA-NeMo/Megatron-Bridge.git", rev = "18ef1b61309dd45bc0535fb7c60064b9d8829a35", subdirectory = "3rdparty/Megatron-LM" }  # pragma: allowlist secret
+megatron-bridge = { git = "https://github.com/NVIDIA-NeMo/Megatron-Bridge.git", rev = "549e3cb970c170b1d7a86d021261efe05e8a5d9f" }  # pragma: allowlist secret
+megatron-core = { git = "https://github.com/NVIDIA-NeMo/Megatron-Bridge.git", rev = "549e3cb970c170b1d7a86d021261efe05e8a5d9f", subdirectory = "3rdparty/Megatron-LM" }  # pragma: allowlist secret
 
 [tool.uv.extra-build-dependencies]
 warp-lang = ["wheel_stub"]
@@ -27,8 +27,8 @@
 
 
 REPO_BASE_DIR = Path(__file__).parent.parent.parent.parent.parent
-DEFAULT_HF_TOKENIZER_MODEL_PATH = REPO_BASE_DIR / "tokenizers" / "nucleotide_fast_tokenizer_256"
-DEFAULT_HF_TOKENIZER_MODEL_PATH_512 = REPO_BASE_DIR / "tokenizers" / "nucleotide_fast_tokenizer_512"
+DEFAULT_HF_TOKENIZER_MODEL_PATH = str(REPO_BASE_DIR / "tokenizers" / "nucleotide_fast_tokenizer_256")
+DEFAULT_HF_TOKENIZER_MODEL_PATH_512 = str(REPO_BASE_DIR / "tokenizers" / "nucleotide_fast_tokenizer_512")
 
 
 class Evo2DatasetTokenizer:
@@ -39,18 +39,18 @@ def __init__(self, params: Evo2PreprocessingConfig | None = None):
         # Pass all NeMo2/Megatron-compliant parameters associated with config.Evo2PreprocessingConfig.
         self.params: Evo2PreprocessingConfig = params if params is not None else Evo2PreprocessingConfig()
         if self.params.hf_tokenizer_model_path is not None:
-            hf_tokenizer_model_or_path = Path(self.params.hf_tokenizer_model_path)
-            hf_tokenizer_desc: str = hf_tokenizer_model_or_path.name
-            assert hf_tokenizer_model_or_path.exists(), (
+            hf_tokenizer_model_or_path = str(self.params.hf_tokenizer_model_path)
+            hf_tokenizer_desc: str = Path(hf_tokenizer_model_or_path).name
+            assert Path(hf_tokenizer_model_or_path).exists(), (
                 f"Hugging Face tokenizer model path {hf_tokenizer_model_or_path} does not exist."
             )
         elif self.params.hf_tokenizer_model_name is not None:
             hf_tokenizer_model_or_path = str(self.params.hf_tokenizer_model_name)
             hf_tokenizer_desc = hf_tokenizer_model_or_path.replace("/", "--").replace(":", "--")
         else:
             hf_tokenizer_model_or_path = DEFAULT_HF_TOKENIZER_MODEL_PATH
-            hf_tokenizer_desc = hf_tokenizer_model_or_path.name
-            assert hf_tokenizer_model_or_path.exists(), (
+            hf_tokenizer_desc = Path(hf_tokenizer_model_or_path).name
+            assert Path(hf_tokenizer_model_or_path).exists(), (
                 f"Default Hugging Face tokenizer model path {hf_tokenizer_model_or_path} does not exist."
             )
         self.hf_tokenizer_desc = hf_tokenizer_desc
@@ -81,7 +81,12 @@ def tokenize(
             else:
                 t_fixed = t
             # Tokenize the string.
-            text_ids: list = self.tokenizer.text_to_ids(t_fixed)
+            if hasattr(self.tokenizer, "text_to_ids"):
+                # Handle the legacy NeMo2 style tokenizer.
+                text_ids: list = self.tokenizer.text_to_ids(t_fixed)
+            else:
+                # Handle the new Megatron-Bridge style tokenizer.
+                text_ids: list = self.tokenizer.tokenize(t_fixed)
             if drop_empty_sequences and len(text_ids) == 0:
                 continue
             # Append EOD token (EOD ID: 0) if appropriate.
 
@@ -56,7 +56,12 @@ def __len__(self):
     def __getitem__(self, idx: int) -> dict[str, torch.Tensor]:
         """Get an item from the dataset."""
         sequence = self.fasta[self.seqids[idx]].sequence().upper()
-        tokenized_seq = self.tokenizer.text_to_ids(sequence)
+        if hasattr(self.tokenizer, "tokenize"):
+            # Handle the new Megatron-Bridge style tokenizer.
+            tokenized_seq = self.tokenizer.tokenize(sequence)
+        else:
+            # Handle the legacy NeMo2 style tokenizer.
+            tokenized_seq = self.tokenizer.text_to_ids(sequence)
         if self.prepend_bos:  # in pretraining we use EOS to start new sequences.
             tokens: list[int] = [self.tokenizer.eod, *tokenized_seq]
         else:
 
@@ -332,7 +332,13 @@ def _prepare_control_tags(self):
         for seq_id in unique_sequence_ids:
             # Extract meaningful part from sequence ID for control tag
             ctrl_name = seq_id.split("__")[0] if "__" in seq_id else seq_id
-            self.ctrl_ids_map[seq_id] = self.tokenizer.text_to_ids(f"<ctrl_{ctrl_name.lower()}>")
+            if hasattr(self.tokenizer, "tokenize"):
+                # Handle the new Megatron-Bridge style tokenizer.
+                ctrl_ids = self.tokenizer.tokenize(f"<ctrl_{ctrl_name.lower()}>")
+            else:
+                # Handle the legacy NeMo2 style tokenizer.
+                ctrl_ids = self.tokenizer.text_to_ids(f"<ctrl_{ctrl_name.lower()}>")
+            self.ctrl_ids_map[seq_id] = ctrl_ids
 
     def __len__(self) -> int:
         """Return the length of the dataset."""
@@ -455,7 +461,12 @@ def __getitem__(self, idx: np.int64) -> Dict[str, torch.Tensor]:
             seq = self.reverse_complement(seq)
 
         # Tokenize
-        token_ids = header + self.tokenizer.text_to_ids(seq) + footer
+        if hasattr(self.tokenizer, "tokenize"):
+            # Handle the new Megatron-Bridge style tokenizer.
+            token_ids = header + self.tokenizer.tokenize(seq) + footer
+        else:
+            # Handle the legacy NeMo2 style tokenizer.
+            token_ids = header + self.tokenizer.text_to_ids(seq) + footer
 
         # Pad/trim
         if len(token_ids) < self.seq_length:
@@ -516,7 +527,10 @@ def sep_id(self) -> int:
         """Get the separator token ID."""
         sep_id = getattr(self.tokenizer, "_sep_id", None)
         if sep_id is None:
-            sep_id = self.tokenizer.text_to_ids("<SEP>")
+            if hasattr(self.tokenizer, "tokenize"):
+                sep_id = self.tokenizer.tokenize("<SEP>")
+            else:
+                sep_id = self.tokenizer.text_to_ids("<SEP>")
             if len(sep_id) == 1:
                 sep_id = sep_id[0]
             else:
@@ -530,7 +544,12 @@ def pad_id(self) -> int:
         """Get the padding token ID."""
         pad_id = getattr(self.tokenizer, "pad_id", None)
         if pad_id is None:
-            pad_id = self.tokenizer.text_to_ids("<PAD>")
+            if hasattr(self.tokenizer, "tokenize"):
+                # Handle the new Megatron-Bridge style tokenizer.
+                pad_id = self.tokenizer.tokenize("<PAD>")
+            else:
+                # Handle the legacy NeMo2 style tokenizer.
+                pad_id = self.tokenizer.text_to_ids("<PAD>")
             if len(pad_id) == 1:
                 pad_id = pad_id[0]
             else:
 
@@ -25,7 +25,11 @@
 import torch
 from megatron.bridge.models.model_provider import ModelProviderMixin
 from megatron.bridge.models.transformer_config import TransformerConfig
-from megatron.bridge.training.config import ConfigContainer
+from megatron.bridge.training.config import (
+    ConfigContainer,
+    OptimizerConfigOverrideProvider,
+    OptimizerConfigOverrideProviderContext,
+)
 from megatron.bridge.training.gpt_step import get_batch_from_iterator
 from megatron.bridge.training.losses import masked_next_token_loss
 from megatron.bridge.training.state import GlobalState
@@ -34,24 +38,21 @@
 from megatron.bridge.utils.vocab_utils import calculate_padded_vocab_size
 from megatron.core import parallel_state
 from megatron.core.inference.contexts import StaticInferenceContext
+from megatron.core.optimizer import (
+    ParamGroupOverride,
+    ParamKey,
+    ParamPredicate,
+)
 from megatron.core.pipeline_parallel.utils import is_pp_first_stage, is_pp_last_stage
 from megatron.core.transformer.enums import AttnBackend
 from megatron.core.utils import get_batch_on_this_cp_rank, get_model_config
 
 from bionemo.evo2.models.megatron.hyena.hyena_config import HyenaConfig as _HyenaConfigForFlops
-
-# from nemo.collections.llm.gpt.model.base import GPTModel, gpt_data_step  # FIXME do megatron bridge thing instead of this
 from bionemo.evo2.models.megatron.hyena.hyena_layer_specs import get_hyena_stack_spec
 from bionemo.evo2.models.megatron.hyena.hyena_model import HyenaModel as MCoreHyenaModel
 from bionemo.evo2.models.megatron.hyena.hyena_utils import hyena_no_weight_decay_cond
 
 
-# from nemo.lightning import get_vocab_size, io, teardown
-# from nemo.lightning.base import NEMO_MODELS_CACHE
-# from nemo.lightning.io.state import TransformFns
-# from nemo.utils import logging
-
-
 def get_vocab_size(*args, **kwargs):
     raise NotImplementedError("FIXME get_vocab_size is not implemented Find it in megatron bridge")
 
@@ -60,7 +61,47 @@ def gpt_data_step(*args, **kwargs):
     raise NotImplementedError("FIXME gpt_data_step is not implemented Find it in megatron bridge")
 
 
-# FIXME convert the nemo style configs to megatron bridge style configs
+@dataclass
+class HyenaOptimizerConfigOverrideProvider(OptimizerConfigOverrideProvider):
+    """Hyena-specific optimizer config override provider."""
+
+    no_weight_decay_embeddings: bool = False
+
+    def build_config_overrides(
+        self, context: OptimizerConfigOverrideProviderContext
+    ) -> dict[ParamKey, ParamGroupOverride] | None:
+        """Build config overrides for weight decay based on scheduler configuration.
+
+        This function creates parameter-specific overrides for weight decay behavior.
+        By default, weight decay is skipped for bias parameters and 1D parameters.
+        For Qwen3-Next models, weight decay is applied to q_layernorm and k_layernorm.
+        """
+        optimizer_config = context.optimizer_config
+        config_overrides: dict[ParamKey, ParamGroupOverride] = {}
+        param_length_1_match = ParamPredicate(name="param_len_1", fn=lambda param: len(param.shape) == 1)
+        name_tuple: tuple[str, ...] = (
+            "*.bias",
+            "*.filter.p",
+            "*.filter.R",
+            "*.filter.gamma",
+            "*.short_conv.short_conv_weight",
+        )
+        if self.no_weight_decay_embeddings:
+            name_tuple += ("*embedding*",)
+        param_wd_mult_key = ParamKey(
+            name=name_tuple,  # type: ignore
+            predicate=param_length_1_match,
+        )
+
+        config_overrides[param_wd_mult_key] = ParamGroupOverride(wd_mult=0.0)  # type: ignore
+
+        if optimizer_config.decoupled_lr is not None:
+            decoupled_lr_config: ParamGroupOverride = {"max_lr": optimizer_config.decoupled_lr}
+            decoupled_param_key = ParamKey(attr="is_embedding_or_output_parameter")
+            if optimizer_config.decoupled_min_lr is not None:
+                decoupled_lr_config["min_lr"] = optimizer_config.decoupled_min_lr
+            config_overrides[decoupled_param_key] = decoupled_lr_config
+        return config_overrides
 
 
 class HyenaInferenceContext(StaticInferenceContext):
@@ -75,103 +116,6 @@ def reset(self):
                 delattr(self, key)
 
 
-# FIXME convert this to the megatron bridge style config for inference.
-# class HyenaModel(GPTModel):
-#     """This is a wrapper around the MCoreHyenaModel to allow for inference.
-
-#     Our model follows the same API as the GPTModel, but the megatron model class is different so we need to handle the inference wrapper slightly differently.
-#     """
-
-#     def get_inference_wrapper(
-#         self, params_dtype, inference_batch_times_seqlen_threshold, inference_max_seq_length=None
-#     ) -> torch.Tensor:
-#         """Gets the inference wrapper for the Hyena model.
-
-#         Args:
-#             params_dtype: The data type for model parameters
-#             inference_batch_times_seqlen_threshold: Threshold for batch size * sequence length during inference
-#             inference_max_seq_length: Maximum sequence length for inference
-
-#         Returns:
-#             GPTInferenceWrapper: The inference wrapper for the model
-
-#         Raises:
-#             ValueError: If MCoreHyenaModel instance not found or vocab size cannot be determined
-#         """
-#         # This is to get the MCore model required in GPTInferenceWrapper.
-#         mcore_model = self.module
-#         while mcore_model:
-#             if type(mcore_model) is MCoreHyenaModel:
-#                 break
-#             mcore_model = getattr(mcore_model, "module", None)
-#         if mcore_model is None or type(mcore_model) is not MCoreHyenaModel:
-#             raise ValueError("Exact MCoreHyenaModel instance not found in the model structure.")
-
-#         vocab_size = None
-#         if self.tokenizer is not None:
-#             vocab_size = self.tokenizer.vocab_size
-#         elif hasattr(self.config, "vocab_size"):
-#             vocab_size = self.config.vocab_size
-#         else:
-#             raise ValueError(
-#                 "Unable to find vocab size."
-#                 " Either pass in a tokenizer with vocab size, or set vocab size in the model config"
-#             )
-
-#         inference_wrapper_config = InferenceWrapperConfig(
-#             hidden_size=mcore_model.config.hidden_size,
-#             params_dtype=params_dtype,
-#             inference_batch_times_seqlen_threshold=inference_batch_times_seqlen_threshold,
-#             padded_vocab_size=vocab_size,
-#             inference_max_seq_length=inference_max_seq_length,
-#             inference_max_requests=1,
-#         )
-
-#         inference_context = HyenaInferenceContext.from_config(inference_wrapper_config)
-#         model_inference_wrapper = GPTInferenceWrapper(mcore_model, inference_wrapper_config, inference_context)
-#         return model_inference_wrapper
-
-#     def forward(
-#         self,
-#         input_ids: torch.Tensor,
-#         position_ids: torch.Tensor,
-#         attention_mask: Optional[torch.Tensor] = None,
-#         labels: Optional[torch.Tensor] = None,
-#         decoder_input: Optional[torch.Tensor] = None,
-#         loss_mask: Optional[torch.Tensor] = None,
-#         inference_context=None,
-#         packed_seq_params=None,
-#     ) -> torch.Tensor:
-#         """Forward pass of the Hyena model.
-
-#         Args:
-#             input_ids: Input token IDs
-#             position_ids: Position IDs for input tokens
-#             attention_mask: Optional attention mask
-#             labels: Optional labels for loss computation
-#             decoder_input: Optional decoder input
-#             loss_mask: Optional loss mask
-#             inference_context: Optional inference parameters
-#             packed_seq_params: Optional parameters for packed sequences
-
-
-#         Returns:
-#             torch.Tensor: Output tensor from the model
-#         """
-#         extra_kwargs = {"packed_seq_params": packed_seq_params} if packed_seq_params is not None else {}
-#         output_tensor = self.module(
-#             input_ids,
-#             position_ids,
-#             attention_mask,
-#             decoder_input=decoder_input,
-#             labels=labels,
-#             inference_context=inference_context,
-#             loss_mask=loss_mask,
-#             **extra_kwargs,
-#         )
-#         return output_tensor
-
-
 def get_batch(
     data_iterator: Iterable, cfg: ConfigContainer, use_mtp: bool = False, *, pg_collection
 ) -> tuple[
@@ -329,7 +273,6 @@ def _create_loss_function(loss_mask: torch.Tensor, check_for_nan_in_loss: bool,
     )
 
 
-# FIXME make sure these conform to megatron/megatron bridge style.
 @dataclass
 class HyenaModelProvider(TransformerConfig, ModelProviderMixin[MCoreHyenaModel]):
     """Configuration dataclass for Hyena.