Update Megatron dependencies for transformers v5 change.

FurtherAI · FurtherAI · commit 04fe905ba46f · 2026-03-25T19:19:27.000Z
diff --git a/pyproject.toml b/pyproject.toml
@@ -47,8 +47,9 @@ megatron = [
     "transformer-engine==2.11.0",
     "transformer-engine-cu12==2.11.0",
     "transformer-engine-torch==2.11.0",
-    "megatron-core==0.15.2",
-    "megatron-bridge==0.2.0rc6",
+    "megatron-core==0.16.0rc0",
+    "pybind11>=2.13.6",
+    "megatron-bridge",
     "nvidia-ml-py==13.580.82",
     "ml-dtypes>=0.5.0 ; python_full_version < '3.13'",
 ]
@@ -130,13 +131,18 @@ required-version = ">=0.6.15"
 override-dependencies = [
     "transformer-engine==2.11.0",
     "numpy<2",
+    "nvidia-resiliency-ext<0.5",
+    "flashinfer-python==0.6.1",
+    "transformers==5.2.0",
     "torch==2.10.0",
     "quack-kernels==0.2.5",
 ]
-no-build-isolation-package = ["transformer-engine-torch", "megatron-core", "megatron-bridge", "nv-grouped-gemm", "mamba-ssm", "causal-conv1d"]
+exclude-dependencies = ["pynvml", "emerging-optimizers"]
+no-build-isolation-package = ["apex", "transformer-engine", "transformer-engine-cu12", "transformer-engine-torch", "megatron-core", "megatron-bridge", "nv-grouped-gemm", "mamba-ssm", "causal-conv1d"]
 
 [tool.uv.extra-build-dependencies]
 apex = ["torch>=2.8.0"]
+megatron-core = ["pybind11"]
 transformer-engine-torch = ["torch>=2.8.0"]
 
 [tool.uv.extra-build-variables]
@@ -233,4 +239,5 @@ dev = [
 [tool.uv.sources]
 panza = { git = "https://github.com/corbt/panza.git" }
 apex = { git = "https://github.com/NVIDIA/apex.git", branch = "25.09" }
+megatron-bridge = { git = "https://github.com/NVIDIA-NeMo/Megatron-Bridge.git", rev = "75f2c5ad4afb702b57b4781a00f5291a66bcf183" }
 transformer-engine-torch = { git = "https://github.com/NVIDIA/TransformerEngine.git", tag = "v2.11", subdirectory = "transformer_engine/pytorch" }
diff --git a/src/art/megatron/provider.py b/src/art/megatron/provider.py
@@ -111,4 +111,5 @@ def _flex_attention_layer_spec(
     provider.calculate_per_token_loss = True
     if provider.tensor_model_parallel_size > 1:
         provider.sequence_parallel = True
+    provider.finalize()
     return provider
diff --git a/uv.lock b/uv.lock