Support MoE per-expert finalize input scales

oazizi000 · oazizi000 · commit c5f2ee131381 · 2026-05-08T12:09:19.000-07:00
diff --git a/cpp/tensorrt_llm/kernels/trtllmGenKernels/blockScaleMoe/DevKernel.cu b/cpp/tensorrt_llm/kernels/trtllmGenKernels/blockScaleMoe/DevKernel.cu
@@ -1,5 +1,5 @@
 /*
- * Copyright (c) 2022-2024, NVIDIA CORPORATION.  All rights reserved.
+ * Copyright (c) 2022-2026, NVIDIA CORPORATION.  All rights reserved.
  *
  * Licensed under the Apache License, Version 2.0 (the "License");
  * you may not use this file except in compliance with the License.
@@ -700,6 +700,19 @@ namespace tg = batchedGemm::trtllm::gen;
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
+template <typename KernelParams>
+__device__ __forceinline__ int32_t getExpertIdx(KernelParams const& params, int32_t expandedIdx)
+{
+    if (params.topKIds != nullptr)
+    {
+        return params.topKIds[expandedIdx];
+    }
+
+    return static_cast<int32_t>(params.packedExpertIndexes[expandedIdx].idx);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
 template <typename KernelParams>
 __global__ void finalizeKernel(KernelParams params)
 {
@@ -735,15 +748,22 @@ __global__ void finalizeKernel(KernelParams params)
                     continue;
                 }
 
+                float data_k = float{params.inPtr[permutedIdx * params.hiddenDimPadded + hiddenIdx]};
+
                 if (params.expertWeightsPtr != nullptr)
                 {
                     TypeExpW const scale = params.expertWeightsPtr[expandedIdx];
-                    data += float{scale} * float{params.inPtr[permutedIdx * params.hiddenDimPadded + hiddenIdx]};
+                    data_k *= float{scale};
                 }
-                else
+
+                if (params.inScalePtr != nullptr)
                 {
-                    data += float{params.inPtr[permutedIdx * params.hiddenDimPadded + hiddenIdx]};
+                    int const expertIdx = getExpertIdx(params, expandedIdx);
+                    int const inScaleIdx = expertIdx * params.hiddenDimPadded + hiddenIdx;
+                    data_k *= params.inScalePtr[inScaleIdx];
                 }
+
+                data += data_k;
             }
 
             params.outPtr[tokenIdx * params.hiddenDim + hiddenIdx] = static_cast<Type>(data);
@@ -823,6 +843,17 @@ __global__ void finalizeKernelVecLoad(KernelParams params)
             float4 input = vectorizedLoadPtx(reinterpret_cast<float4 const*>(&inputPermutedPtr[elemIndex]));
             InputElem inputPermutedElem = *reinterpret_cast<InputElem const*>(&input);
             ComputeElem expertResult = arrayConvert<InputElem, ComputeElem>(inputPermutedElem);
+            if (params.inScalePtr != nullptr)
+            {
+                int const expertIdx = getExpertIdx(params, expandedIdx);
+#pragma unroll
+                for (int idx = 0; idx < FINALIZE_ELEM_PER_THREAD; ++idx)
+                {
+                    int const hiddenIdx = elemIndex * FINALIZE_ELEM_PER_THREAD + idx;
+                    int const inScaleIdx = expertIdx * params.hiddenDimPadded + hiddenIdx;
+                    expertResult[idx] *= params.inScalePtr[inScaleIdx];
+                }
+            }
 
             threadOutput = threadOutput + scale * expertResult;
         }
@@ -873,9 +904,17 @@ __global__ void finalizeDeepSeekKernel(KernelParams params)
                 int const scaleIdx = permutedIdx + totalNumPaddedTokens * (hiddenIdx / 128);
                 float const blockScale = params.inDqSfsPtr ? params.inDqSfsPtr[scaleIdx] : 1;
 
+                float inputScale = 1.0f;
+                if (params.inScalePtr != nullptr)
+                {
+                    int const expertIdx = getExpertIdx(params, expandedIdx);
+                    int const inScaleIdx = expertIdx * params.hiddenDimPadded + hiddenIdx;
+                    inputScale = params.inScalePtr[inScaleIdx];
+                }
+
                 float const expertProb = (float) params.expertWeightsPtr[tokenIdx * params.topK + k];
 
-                float const scale = expertProb * blockScale;
+                float const scale = inputScale * expertProb * blockScale;
                 acc += scale * static_cast<float>(params.inPtr[permutedIdx * params.hiddenDimPadded + hiddenIdx]);
             }
 
@@ -909,6 +948,12 @@ __global__ void finalizeDeepSeekKernel(KernelParams params)
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 void run(Data const& data, void* stream)
 {
+    if (data.inScalePtr != nullptr)
+    {
+        TLLM_CHECK_WITH_INFO(data.topKIds != nullptr || data.packedExpertIndexes != nullptr,
+            "Finalize input scales require expert indexes.");
+    }
+
     if (data.mUseDeepSeekFp8)
     {
         int const numThreads = 128;
diff --git a/cpp/tensorrt_llm/kernels/trtllmGenKernels/blockScaleMoe/DevKernel.h b/cpp/tensorrt_llm/kernels/trtllmGenKernels/blockScaleMoe/DevKernel.h
@@ -1,5 +1,5 @@
 /*
- * Copyright (c) 2022-2024, NVIDIA CORPORATION.  All rights reserved.
+ * Copyright (c) 2022-2026, NVIDIA CORPORATION.  All rights reserved.
  *
  * Licensed under the Apache License, Version 2.0 (the "License");
  * you may not use this file except in compliance with the License.
@@ -16,6 +16,7 @@
 
 #pragma once
 
+#include "RoutingKernel.h"
 #include "tensorrt_llm/kernels/trtllmGenKernels/batchedGemm/trtllmGen_bmm_export/trtllm/gen/DtypeDecl.h"
 #include "tensorrt_llm/kernels/trtllmGenKernels/batchedGemm/trtllmGen_bmm_export/trtllm/gen/SfLayoutDecl.h"
 #include <cuda.h>
@@ -547,9 +548,12 @@ struct Data
     void* outPtr;
     float* inDqSfsPtr = nullptr;
     float* outDqSfsPtr = nullptr;
+    float const* inScalePtr = nullptr;
 
     void* expertWeightsPtr;
     int32_t* expandedIdxToPermutedIdx;
+    int32_t const* topKIds = nullptr;
+    void const* packedExpertIndexes = nullptr;
 
     int32_t numTokens;
     int32_t numExperts;
@@ -574,8 +578,11 @@ struct KernelParams
 
     float* inDqSfsPtr = nullptr;
     float* outDqSfsPtr = nullptr;
+    float const* inScalePtr = nullptr;
 
     int32_t* expandedIdxToPermutedIdx;
+    int32_t const* topKIds = nullptr;
+    routing::PackedScoreIdx<TypeExpW> const* packedExpertIndexes = nullptr;
 
     int32_t hiddenDim;
     int32_t hiddenDimPadded;
@@ -594,8 +601,11 @@ struct KernelParams
         params.outPtr = (Type*) data.outPtr;
         params.inDqSfsPtr = data.inDqSfsPtr;
         params.outDqSfsPtr = data.outDqSfsPtr;
+        params.inScalePtr = data.inScalePtr;
 
         params.expandedIdxToPermutedIdx = data.expandedIdxToPermutedIdx;
+        params.topKIds = data.topKIds;
+        params.packedExpertIndexes = static_cast<routing::PackedScoreIdx<TypeExpW> const*>(data.packedExpertIndexes);
 
         params.hiddenDim = data.hiddenDim;
         params.hiddenDimPadded = data.hiddenDimPadded;
diff --git a/cpp/tensorrt_llm/kernels/trtllmGenKernels/blockScaleMoe/runner.cu b/cpp/tensorrt_llm/kernels/trtllmGenKernels/blockScaleMoe/runner.cu
@@ -1,5 +1,5 @@
 /*
- * Copyright (c) 2022-2025, NVIDIA CORPORATION.  All rights reserved.
+ * Copyright (c) 2022-2026, NVIDIA CORPORATION.  All rights reserved.
  *
  * Licensed under the Apache License, Version 2.0 (the "License");
  * you may not use this file except in compliance with the License.
@@ -510,6 +510,7 @@ void Runner::setOpsData(MoERunnerArgs const& args, MoEWorkspace const& workspace
         finalizeData.outPtr = args.output;
         finalizeData.inDqSfsPtr = workspace.gemm2_output_scale;
         finalizeData.outDqSfsPtr = args.output_scale;
+        finalizeData.inScalePtr = args.finalize_input_scale;
         if (args.mUseRoutingScalesOnInput)
         {
             finalizeData.expertWeightsPtr = nullptr;
@@ -519,6 +520,8 @@ void Runner::setOpsData(MoERunnerArgs const& args, MoEWorkspace const& workspace
             finalizeData.expertWeightsPtr = workspace.expert_weights;
         }
         finalizeData.expandedIdxToPermutedIdx = workspace.expanded_idx_to_permuted_idx;
+        finalizeData.topKIds = args.topk_ids;
+        finalizeData.packedExpertIndexes = workspace.routing_expert_indexes;
         finalizeData.numTokens = args.num_tokens;
         finalizeData.numExperts = args.num_experts;
         finalizeData.topK = args.top_k;
@@ -633,6 +636,9 @@ void Runner::run(
     if (args.do_finalize)
     {
         // Run finalize
+        TLLM_CHECK_WITH_INFO(args.finalize_input_scale == nullptr || args.topk_ids != nullptr
+                || workspace.routing_expert_indexes != nullptr,
+            "Finalize input scale factors require expert indexes.");
         moe::dev::finalize::run(finalizeData, stream);
         sync_check_cuda_error(stream);
     }
diff --git a/cpp/tensorrt_llm/kernels/trtllmGenKernels/blockScaleMoe/runner.h b/cpp/tensorrt_llm/kernels/trtllmGenKernels/blockScaleMoe/runner.h
@@ -311,6 +311,10 @@ struct MoERunnerArgs
     float* output1_scales_gate_scalar = nullptr;
     float* output2_scales_scalar = nullptr;
 
+    // Optional per-expert factors applied inside the finalize kernel.
+    // input: [num_experts, hidden_size].
+    float* finalize_input_scale = nullptr;
+
     // Output:
     void* output = nullptr;
     float* output_scale = nullptr;
diff --git a/cpp/tensorrt_llm/thop/mxFp4BlockScaleMoe.cpp b/cpp/tensorrt_llm/thop/mxFp4BlockScaleMoe.cpp
@@ -50,7 +50,7 @@ torch::Tensor dtype_mxe2m1_block_scale_moe_runner(torch::optional<torch::Tensor>
     std::optional<double> const routed_scaling_factor, int64_t const tile_tokens_dim, int64_t const routing_method_type,
     btg::Dtype const dtype, MoeRunnerType& moe_runner, int64_t moeConfigIndex,
     torch::optional<torch::Tensor> const& topk_weights, torch::optional<torch::Tensor> const& topk_ids,
-    torch::optional<torch::Tensor> const& out_tensor)
+    torch::optional<torch::Tensor> const& out_tensor, torch::optional<torch::Tensor> const& finalize_input_scale)
 {
     TORCH_CHECK(tensorrt_llm::common::isSM100Family(), "Only SM100f is supported by MXFP4 block scale MOE");
     TORCH_CHECK(tile_tokens_dim == 8 || tile_tokens_dim == 16 || tile_tokens_dim == 32 || tile_tokens_dim == 64
@@ -173,6 +173,8 @@ torch::Tensor dtype_mxe2m1_block_scale_moe_runner(torch::optional<torch::Tensor>
         = output1_scale_gate_scalar.has_value() ? output1_scale_gate_scalar.value().data_ptr<float>() : nullptr;
     args.output2_scales_scalar
         = output2_scale_scalar.has_value() ? output2_scale_scalar.value().data_ptr<float>() : nullptr;
+    args.finalize_input_scale
+        = finalize_input_scale.has_value() ? finalize_input_scale.value().data_ptr<float>() : nullptr;
     args.num_tokens = hidden_states.sizes()[0];
     args.num_experts = num_experts;
     // Hidden dimension input of MoE block. It might be padded.
@@ -421,6 +423,19 @@ torch::Tensor dtype_mxe2m1_block_scale_moe_runner(torch::optional<torch::Tensor>
             output2_scale_scalar->sizes()[0] == local_num_experts, "output2_scales_scalar has incorrect dim 0.");
     }
 
+    if (finalize_input_scale.has_value())
+    {
+        TORCH_CHECK(finalize_input_scale->scalar_type() == at::ScalarType::Float,
+            "finalize_input_scale must be float, got %s.", c10::toString(finalize_input_scale->scalar_type()));
+        TORCH_CHECK(finalize_input_scale->dim() == 2, "finalize_input_scale must be 2D.");
+        TORCH_CHECK(finalize_input_scale->sizes()[0] == num_experts, "finalize_input_scale has incorrect dim 0.");
+        TORCH_CHECK(finalize_input_scale->sizes()[1] == args.output_hidden_size.value_or(args.hidden_size),
+            "finalize_input_scale has incorrect dim 1.");
+        TORCH_CHECK(finalize_input_scale->device() == hidden_states.device(),
+            "finalize_input_scale must be on the input device.");
+        TORCH_CHECK(finalize_input_scale->is_contiguous(), "finalize_input_scale must be contiguous.");
+    }
+
     // allocate or use provided output
     at::Tensor output;
     if (out_tensor.has_value())
@@ -531,7 +546,8 @@ class Bf16MxE2m1BlockScaleMoeRunner : public torch::CustomClassHolder
         int64_t local_expert_offset, int64_t local_num_experts, std::optional<double> routed_scaling_factor,
         int64_t routing_method_type, std::vector<int64_t> moeConfigIndex,
         torch::optional<torch::Tensor> const& topk_weights, torch::optional<torch::Tensor> const& topk_ids,
-        torch::optional<torch::Tensor> const& output = torch::nullopt)
+        torch::optional<torch::Tensor> const& output = torch::nullopt,
+        torch::optional<torch::Tensor> const& finalize_input_scale = torch::nullopt)
 
     {
         // moeConfigIndex corresponds to pair (tileN, config)
@@ -556,7 +572,7 @@ class Bf16MxE2m1BlockScaleMoeRunner : public torch::CustomClassHolder
             gemm2_weights_scale, gemm2_bias, std::nullopt, std::nullopt, std::nullopt, num_experts, top_k, n_group,
             topk_group, intermediate_size, valid_hidden_size, valid_intermediate_size, local_expert_offset,
             local_num_experts, routed_scaling_factor, tileN, routing_method_type, mDtypeAct, *mRunners[tileN], config,
-            topk_weights, topk_ids, output);
+            topk_weights, topk_ids, output, finalize_input_scale);
     }
 
 private:
@@ -626,7 +642,8 @@ class MxE4m3MxE2m1BlockScaleMoeRunner : public torch::CustomClassHolder
         int64_t local_expert_offset, int64_t local_num_experts, std::optional<double> routed_scaling_factor,
         int64_t routing_method_type, std::vector<int64_t> tile_config_pair,
         torch::optional<torch::Tensor> const& topk_weights, torch::optional<torch::Tensor> const& topk_ids,
-        torch::optional<torch::Tensor> const& output)
+        torch::optional<torch::Tensor> const& output,
+        torch::optional<torch::Tensor> const& finalize_input_scale = torch::nullopt)
     {
         // tile_config_pair corresponds to pair (tileN, config)
         auto [tileN, config] = std::tie(tile_config_pair[0], tile_config_pair[1]);
@@ -650,7 +667,7 @@ class MxE4m3MxE2m1BlockScaleMoeRunner : public torch::CustomClassHolder
             gemm2_weights_scale, gemm2_bias, output1_scale_scalar, output1_scale_gate_scalar, output2_scale_scalar,
             num_experts, top_k, n_group, topk_group, intermediate_size, valid_hidden_size, valid_intermediate_size,
             local_expert_offset, local_num_experts, routed_scaling_factor, tileN, routing_method_type, mDtypeAct,
-            *mRunners[tileN], config, topk_weights, topk_ids, output);
+            *mRunners[tileN], config, topk_weights, topk_ids, output, finalize_input_scale);
     }
 
     /**