NVIDIA-BioNeMo
diff --git a/‎.devcontainer/recipes/requirements.txt‎
Lines changed: 1 addition & 1 deletion b/‎.devcontainer/recipes/requirements.txt‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎recipes/README.md‎
Lines changed: 2 additions & 4 deletions b/‎recipes/README.md‎
Lines changed: 2 additions & 4 deletions
diff --git a/‎recipes/amplify_accelerate_te_fp8/test_train.py‎
Lines changed: 1 addition & 1 deletion b/‎recipes/amplify_accelerate_te_fp8/test_train.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎recipes/amplify_accelerate_te_fp8/train.py‎
Lines changed: 1 addition & 1 deletion b/‎recipes/amplify_accelerate_te_fp8/train.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎…ipes/esm2_native_te_nvfsdp/.dockerignore‎ ‎…cipes/esm2_native_te_mfsdp/.dockerignore‎recipes/esm2_native_te_nvfsdp/.dockerignore renamed to recipes/esm2_native_te_mfsdp/.dockerignore b/‎…ipes/esm2_native_te_nvfsdp/.dockerignore‎ ‎…cipes/esm2_native_te_mfsdp/.dockerignore‎recipes/esm2_native_te_nvfsdp/.dockerignore renamed to recipes/esm2_native_te_mfsdp/.dockerignore
diff --git a/‎recipes/esm2_native_te_nvfsdp/.ruff.toml‎ ‎recipes/esm2_native_te_mfsdp/.ruff.toml‎recipes/esm2_native_te_nvfsdp/.ruff.toml renamed to recipes/esm2_native_te_mfsdp/.ruff.toml b/‎recipes/esm2_native_te_nvfsdp/.ruff.toml‎ ‎recipes/esm2_native_te_mfsdp/.ruff.toml‎recipes/esm2_native_te_nvfsdp/.ruff.toml renamed to recipes/esm2_native_te_mfsdp/.ruff.toml
diff --git a/‎recipes/esm2_native_te_nvfsdp/Dockerfile‎ ‎recipes/esm2_native_te_mfsdp/Dockerfile‎recipes/esm2_native_te_nvfsdp/Dockerfile renamed to recipes/esm2_native_te_mfsdp/Dockerfile
Lines changed: 2 additions & 1 deletion b/‎recipes/esm2_native_te_nvfsdp/Dockerfile‎ ‎recipes/esm2_native_te_mfsdp/Dockerfile‎recipes/esm2_native_te_nvfsdp/Dockerfile renamed to recipes/esm2_native_te_mfsdp/Dockerfile
Lines changed: 2 additions & 1 deletion
diff --git a/‎recipes/esm2_native_te_mfsdp/README.md‎
Lines changed: 15 additions & 0 deletions b/‎recipes/esm2_native_te_mfsdp/README.md‎
Lines changed: 15 additions & 0 deletions
diff --git a/‎recipes/esm2_native_te_nvfsdp/dataset.py‎ ‎recipes/esm2_native_te_mfsdp/dataset.py‎recipes/esm2_native_te_nvfsdp/dataset.py renamed to recipes/esm2_native_te_mfsdp/dataset.py b/‎recipes/esm2_native_te_nvfsdp/dataset.py‎ ‎recipes/esm2_native_te_mfsdp/dataset.py‎recipes/esm2_native_te_nvfsdp/dataset.py renamed to recipes/esm2_native_te_mfsdp/dataset.py
diff --git a/‎…ve_te_nvfsdp/hydra_config/L0_sanity.yaml‎ ‎…ive_te_mfsdp/hydra_config/L0_sanity.yaml‎recipes/esm2_native_te_nvfsdp/hydra_config/L0_sanity.yaml renamed to recipes/esm2_native_te_mfsdp/hydra_config/L0_sanity.yaml
Lines changed: 6 additions & 4 deletions b/‎…ve_te_nvfsdp/hydra_config/L0_sanity.yaml‎ ‎…ive_te_mfsdp/hydra_config/L0_sanity.yaml‎recipes/esm2_native_te_nvfsdp/hydra_config/L0_sanity.yaml renamed to recipes/esm2_native_te_mfsdp/hydra_config/L0_sanity.yaml
Lines changed: 6 additions & 4 deletions
@@ -7,6 +7,6 @@ megatron-fsdp==0.1.0rc0
 torchmetrics
 tqdm
 transformer_engine
-transformers
+transformers @ git+https://github.com/huggingface/transformers.git
 typer
 wandb
@@ -135,9 +135,7 @@ import torch
 from torch.distributed import init_process_group, destroy_process_group
 
 
-@hydra.main(
-    config_path="hydra_config", config_name="L0_sanity.yaml", version_base="1.2"
-)
+@hydra.main(config_path="hydra_config", config_name="L0_sanity", version_base="1.2")
 def main(args: DictConfig):
     """Main training entrypoint."""
 
@@ -306,7 +304,7 @@ def test_accelerate_launch(accelerate_config, tmp_path):
             str(accelerate_config_path),
             "train.py",
             "--config-name",
-            "L0_sanity.yaml",
+            "L0_sanity",
             f"trainer.output_dir={tmp_path}",
         ],
         cwd=recipe_dir,
 
@@ -187,7 +187,7 @@ def test_accelerate_launch(accelerate_config, tmp_path):
             str(accelerate_config_path),
             str(train_py),
             "--config-name",
-            "L0_sanity.yaml",
+            "L0_sanity",
             f"trainer.output_dir={tmp_path}",
         ],
         cwd=recipe_dir,
 
@@ -32,7 +32,7 @@
 logger = logging.getLogger(__name__)
 
 
-@hydra.main(config_path="hydra_config", config_name="L0_sanity.yaml", version_base="1.2")
+@hydra.main(config_path="hydra_config", config_name="L0_sanity", version_base="1.2")
 def main(args: DictConfig):
     """Entrypoint."""
     config = AutoConfig.from_pretrained(args.model_tag, trust_remote_code=True)
 
@@ -1,7 +1,8 @@
 # syntax=docker/dockerfile:1.4
 FROM nvcr.io/nvidia/pytorch:25.06-py3
 
-RUN --mount=type=cache,target=/root/.cache/pip \
+RUN --mount=type=secret,id=netrc,target=/root/.netrc \
+    --mount=type=cache,target=/root/.cache/pip \
     --mount=type=bind,source=requirements.txt,target=/requirements.txt \
     PIP_CONSTRAINT= pip install -r /requirements.txt
 
 
@@ -0,0 +1,15 @@
+# ESM-2 training with megatron-fsdp and custom pytorch training loop
+
+Build the docker image with the following command:
+
+```bash
+docker build -t my_image .
+```
+
+## Running training
+
+Run training with
+
+```bash
+docker run --rm -it --gpus all my_image torchrun train_mfsdp.py --config-name L0_sanity
+```
@@ -2,9 +2,9 @@ defaults:
   - defaults
 
 # Training config
-model_name: esm2_t6_8M_UR50D
+model_name: nvidia/esm2_t6_8M_UR50D
 micro_batch_size: 2
-num_train_steps: 5
+num_train_steps: 250
 
 # WandB config
 wandb_init_args:
@@ -13,5 +13,7 @@ wandb_init_args:
 
 # Learning rate scheduler config
 lr_scheduler_kwargs:
-  num_warmup_steps: 2
-  num_training_steps: 8
+  num_warmup_steps: 0
+
+adamw_kwargs:
+  lr: 1e-2