NVIDIA
diff --git a/‎.pre-commit-config.yaml‎
Lines changed: 32 additions & 0 deletions b/‎.pre-commit-config.yaml‎
Lines changed: 32 additions & 0 deletions
diff --git a/‎legacy-files.txt‎
Lines changed: 16 additions & 0 deletions b/‎legacy-files.txt‎
Lines changed: 16 additions & 0 deletions
diff --git a/‎pyproject.toml‎
Lines changed: 16 additions & 0 deletions b/‎pyproject.toml‎
Lines changed: 16 additions & 0 deletions
diff --git a/‎ruff-legacy.toml‎
Lines changed: 16 additions & 0 deletions b/‎ruff-legacy.toml‎
Lines changed: 16 additions & 0 deletions
diff --git a/‎tensorrt_llm/_torch/autotuner.py‎
Lines changed: 9 additions & 2 deletions b/‎tensorrt_llm/_torch/autotuner.py‎
Lines changed: 9 additions & 2 deletions
diff --git a/‎tensorrt_llm/_torch/custom_ops/__init__.py‎
Lines changed: 12 additions & 0 deletions b/‎tensorrt_llm/_torch/custom_ops/__init__.py‎
Lines changed: 12 additions & 0 deletions
@@ -302,6 +302,22 @@ common-files: &common_files |
         tensorrt_llm/_torch/cute_dsl_kernels/blackwell/custom_pipeline.py |
         tensorrt_llm/_torch/cute_dsl_kernels/blackwell/dense_blockscaled_gemm_persistent.py |
         tensorrt_llm/_torch/cute_dsl_kernels/blackwell/utils.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/config.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/contract.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/custom_ext.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/dispatch_kernel.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/epilogue.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/fc1_fc2_fuse_sched.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/grid_sync.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/iket_compat.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/kernel_fc12.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/megamoe_constants.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/megamoe_kernel.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/moe_persistent_scheduler.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/moe_utils.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/ptx_helpers.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/sf_swizzle.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/sym_buffer.py |
         tensorrt_llm/_torch/cute_dsl_utils.py |
         tensorrt_llm/_torch/debug/__init__.py |
         tensorrt_llm/_torch/debug/debug_hook.py |
@@ -1658,6 +1674,22 @@ legacy-files: &legacy_files |
         tensorrt_llm/_torch/cute_dsl_kernels/blackwell/custom_pipeline.py |
         tensorrt_llm/_torch/cute_dsl_kernels/blackwell/dense_blockscaled_gemm_persistent.py |
         tensorrt_llm/_torch/cute_dsl_kernels/blackwell/utils.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/config.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/contract.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/custom_ext.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/dispatch_kernel.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/epilogue.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/fc1_fc2_fuse_sched.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/grid_sync.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/iket_compat.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/kernel_fc12.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/megamoe_constants.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/megamoe_kernel.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/moe_persistent_scheduler.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/moe_utils.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/ptx_helpers.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/sf_swizzle.py |
+        tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/sym_buffer.py |
         tensorrt_llm/_torch/cute_dsl_utils.py |
         tensorrt_llm/_torch/debug/__init__.py |
         tensorrt_llm/_torch/debug/debug_hook.py |
 
@@ -294,6 +294,22 @@ tensorrt_llm/_torch/cute_dsl_kernels/blackwell/__init__.py
 tensorrt_llm/_torch/cute_dsl_kernels/blackwell/custom_pipeline.py
 tensorrt_llm/_torch/cute_dsl_kernels/blackwell/dense_blockscaled_gemm_persistent.py
 tensorrt_llm/_torch/cute_dsl_kernels/blackwell/utils.py
+tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/config.py
+tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/contract.py
+tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/custom_ext.py
+tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/dispatch_kernel.py
+tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/epilogue.py
+tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/fc1_fc2_fuse_sched.py
+tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/grid_sync.py
+tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/iket_compat.py
+tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/kernel_fc12.py
+tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/megamoe_constants.py
+tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/megamoe_kernel.py
+tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/moe_persistent_scheduler.py
+tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/moe_utils.py
+tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/ptx_helpers.py
+tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/sf_swizzle.py
+tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/sym_buffer.py
 tensorrt_llm/_torch/cute_dsl_utils.py
 tensorrt_llm/_torch/debug/__init__.py
 tensorrt_llm/_torch/debug/debug_hook.py
 
@@ -352,6 +352,22 @@ exclude = [
     "tensorrt_llm/_torch/cute_dsl_kernels/blackwell/custom_pipeline.py",
     "tensorrt_llm/_torch/cute_dsl_kernels/blackwell/dense_blockscaled_gemm_persistent.py",
     "tensorrt_llm/_torch/cute_dsl_kernels/blackwell/utils.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/config.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/contract.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/custom_ext.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/dispatch_kernel.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/epilogue.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/fc1_fc2_fuse_sched.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/grid_sync.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/iket_compat.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/kernel_fc12.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/megamoe_constants.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/megamoe_kernel.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/moe_persistent_scheduler.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/moe_utils.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/ptx_helpers.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/sf_swizzle.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/sym_buffer.py",
     "tensorrt_llm/_torch/cute_dsl_utils.py",
     "tensorrt_llm/_torch/debug/__init__.py",
     "tensorrt_llm/_torch/debug/debug_hook.py",
 
@@ -311,6 +311,22 @@ include = [
     "tensorrt_llm/_torch/cute_dsl_kernels/blackwell/custom_pipeline.py",
     "tensorrt_llm/_torch/cute_dsl_kernels/blackwell/dense_blockscaled_gemm_persistent.py",
     "tensorrt_llm/_torch/cute_dsl_kernels/blackwell/utils.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/config.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/contract.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/custom_ext.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/dispatch_kernel.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/epilogue.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/fc1_fc2_fuse_sched.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/grid_sync.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/iket_compat.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/kernel_fc12.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/megamoe_constants.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/megamoe_kernel.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/moe_persistent_scheduler.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/moe_utils.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/ptx_helpers.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/sf_swizzle.py",
+    "tensorrt_llm/_torch/cute_dsl_kernels/mega_moe_nvfp4/sym_buffer.py",
     "tensorrt_llm/_torch/cute_dsl_utils.py",
     "tensorrt_llm/_torch/debug/__init__.py",
     "tensorrt_llm/_torch/debug/debug_hook.py",
 
@@ -1468,8 +1468,15 @@ def _create_tensor_like(self, origin_tensor: torch.Tensor,
         if dtype == torch.float4_e2m1fn_x2:
             return (torch.rand(shapes, device=device) * 10 - 5).to(
                 torch.uint8).view(dtype)
-        else:
-            return (torch.rand(shapes, device=device) * 10 - 5).to(dtype)
+        if dtype in (torch.float8_e4m3fn, torch.float8_e5m2):
+            # PyTorch's direct ``.to(float8_*)`` cast can trip on certain
+            # GPU/driver combinations (illegal memory access during the
+            # cast kernel). Bridge through ``uint8`` like the FP4 branch
+            # above. Backends that need real FP8 numerics during
+            # autotuning should set up their own warmup data.
+            return (torch.rand(shapes, device=device) * 10 - 5).to(
+                torch.uint8).view(dtype)
+        return (torch.rand(shapes, device=device) * 10 - 5).to(dtype)
 
     def _prepare_input_tensors(
             self, profile: OptimizationProfile,
 
@@ -49,6 +49,18 @@
         'cute_dsl_nvfp4_dense_gemm_swiglu_fp4out_blackwell',
     ]
 
+    # MegaMoE NVFP4 op probes a strict superset of IS_CUTLASS_DSL_AVAILABLE
+    # (cutlass.torch + cutlass._mlir + cute_nvgpu MMA atoms + the ported
+    # CuteDSL kernel package). The cute_dsl_megamoe_custom_op module
+    # sets ``IS_MEGAMOE_OP_AVAILABLE`` based on its own try/except probe;
+    # importing the module is safe regardless of the result -- it just
+    # logs and leaves ``IS_MEGAMOE_OP_AVAILABLE = False`` on partial
+    # cutlass-dsl installs so callers can fall back via the factory.
+    from .cute_dsl_megamoe_custom_op import IS_MEGAMOE_OP_AVAILABLE
+    if IS_MEGAMOE_OP_AVAILABLE:
+        from .cute_dsl_megamoe_custom_op import cute_dsl_megamoe_nvfp4_blackwell
+        __all__ += ['cute_dsl_megamoe_nvfp4_blackwell']
+
 if IS_CUDA_TILE_AVAILABLE:
     from .cuda_tile_custom_ops import (cuda_tile_rms_norm,
                                        cuda_tile_rms_norm_fuse_residual_)