feat: support topk_router

kilinchange · kilinchange · commit 8fc75c3cc4ea · 2026-05-13T03:03:31.000Z
diff --git a/infini_train/include/autograd/topk_mask.h b/infini_train/include/autograd/topk_mask.h
@@ -11,16 +11,19 @@ class Tensor;
 
 namespace infini_train::autograd {
 
-class Top1Mask : public Function {
+class TopKMask : public Function {
 public:
-    static constexpr char kType[] = "Top1MaskFunction";
+    static constexpr char kType[] = "TopKMaskFunction";
 
-    Top1Mask() : Function(kType) {}
+    explicit TopKMask(int64_t topk) : Function(kType), topk_(topk) {}
 
     std::vector<std::shared_ptr<Tensor>> Forward(const std::vector<std::shared_ptr<Tensor>> &input_tensors) override;
     void SetupContext(const std::vector<std::shared_ptr<Tensor>> &input_tensors,
                       const std::vector<std::shared_ptr<Tensor>> &output_tensors) override;
     std::vector<std::shared_ptr<Tensor>> Backward(const std::vector<std::shared_ptr<Tensor>> &grad_outputs) override;
+
+private:
+    int64_t topk_ = 1;
 };
 
 } // namespace infini_train::autograd
diff --git a/infini_train/include/nn/modules/transformer/transformer_config.h b/infini_train/include/nn/modules/transformer/transformer_config.h
@@ -31,7 +31,7 @@ enum class NormType {
 };
 
 enum class MoERouterType {
-    kTopK // Top-k router. The initial implementation supports top-1.
+    kTopK // Top-k router.
 };
 
 enum class MoEDispatcherType {
diff --git a/infini_train/src/autograd/topk_mask.cc b/infini_train/src/autograd/topk_mask.cc
@@ -1,4 +1,4 @@
-#include "infini_train/include/autograd/moe.h"
+#include "infini_train/include/autograd/topk_mask.h"
 
 #include "glog/logging.h"
 
@@ -7,25 +7,26 @@
 
 namespace infini_train::autograd {
 
-std::vector<std::shared_ptr<Tensor>> Top1Mask::Forward(const std::vector<std::shared_ptr<Tensor>> &input_tensors) {
+std::vector<std::shared_ptr<Tensor>> TopKMask::Forward(const std::vector<std::shared_ptr<Tensor>> &input_tensors) {
     CHECK_EQ(input_tensors.size(), 1);
+    CHECK_GT(topk_, 0);
     const auto &input = input_tensors[0];
     auto device = input->GetDevice().type();
-    return {Dispatcher::Instance().Call<std::shared_ptr<Tensor>>({device, "Top1MaskForward"}, input)};
+    return {Dispatcher::Instance().Call<std::shared_ptr<Tensor>>({device, "TopKMaskForward"}, input, topk_)};
 }
 
-void Top1Mask::SetupContext(const std::vector<std::shared_ptr<Tensor>> &,
+void TopKMask::SetupContext(const std::vector<std::shared_ptr<Tensor>> &,
                             const std::vector<std::shared_ptr<Tensor>> &output_tensors) {
     saved_tensors_ = {output_tensors[0]};
 }
 
-std::vector<std::shared_ptr<Tensor>> Top1Mask::Backward(const std::vector<std::shared_ptr<Tensor>> &grad_outputs) {
+std::vector<std::shared_ptr<Tensor>> TopKMask::Backward(const std::vector<std::shared_ptr<Tensor>> &grad_outputs) {
     CHECK_EQ(grad_outputs.size(), 1);
     const auto &grad_output = grad_outputs[0];
     const auto &mask_values = saved_tensors_[0];
     auto device = grad_output->GetDevice().type();
     return {
-        Dispatcher::Instance().Call<std::shared_ptr<Tensor>>({device, "Top1MaskBackward"}, grad_output, mask_values)};
+        Dispatcher::Instance().Call<std::shared_ptr<Tensor>>({device, "TopKMaskBackward"}, grad_output, mask_values)};
 }
 
 } // namespace infini_train::autograd
diff --git a/infini_train/src/kernels/cpu/topk_mask.cc b/infini_train/src/kernels/cpu/topk_mask.cc
@@ -1,4 +1,6 @@
+#include <limits>
 #include <memory>
+#include <vector>
 
 #include "glog/logging.h"
 
@@ -7,13 +9,15 @@
 
 namespace infini_train::kernels::cpu {
 
-std::shared_ptr<Tensor> Top1MaskForward(const std::shared_ptr<Tensor> &input) {
-    CHECK(input->Dtype() == DataType::kFLOAT32) << "CPU Top1MaskForward currently supports float32 only";
+std::shared_ptr<Tensor> TopKMaskForward(const std::shared_ptr<Tensor> &input, int64_t topk) {
+    CHECK(input->Dtype() == DataType::kFLOAT32) << "CPU TopKMaskForward currently supports float32 only";
     CHECK_GE(input->Dims().size(), 1);
 
     const auto &dims = input->Dims();
     const int64_t num_experts = dims.back();
     CHECK_GT(num_experts, 0);
+    CHECK_GT(topk, 0);
+    CHECK_LE(topk, num_experts);
     const int64_t rows = input->NumElements() / num_experts;
 
     auto output = std::make_shared<Tensor>(dims, input->Dtype(), input->GetDevice());
@@ -22,24 +26,41 @@ std::shared_ptr<Tensor> Top1MaskForward(const std::shared_ptr<Tensor> &input) {
     const float *in = static_cast<const float *>(input->DataPtr());
     float *out = static_cast<float *>(output->DataPtr());
     for (int64_t row = 0; row < rows; ++row) {
-        int64_t best_idx = 0;
-        float best_value = in[row * num_experts];
-        for (int64_t expert_idx = 1; expert_idx < num_experts; ++expert_idx) {
-            const float value = in[row * num_experts + expert_idx];
-            if (value > best_value) {
-                best_value = value;
-                best_idx = expert_idx;
+        const int64_t row_offset = row * num_experts;
+        std::vector<bool> selected_experts(num_experts, false);
+        float selected_sum = 0.0f;
+        for (int64_t selected = 0; selected < topk; ++selected) {
+            int64_t best_idx = -1;
+            float best_value = -std::numeric_limits<float>::infinity();
+            for (int64_t expert_idx = 0; expert_idx < num_experts; ++expert_idx) {
+                if (selected_experts[expert_idx]) {
+                    continue;
+                }
+                const float value = in[row_offset + expert_idx];
+                if (value > best_value) {
+                    best_value = value;
+                    best_idx = expert_idx;
+                }
+            }
+            CHECK_GE(best_idx, 0);
+            selected_experts[best_idx] = true;
+            out[row_offset + best_idx] = best_value;
+            selected_sum += best_value;
+        }
+        if (topk > 1 && selected_sum != 0.0f) {
+            for (int64_t expert_idx = 0; expert_idx < num_experts; ++expert_idx) {
+                out[row_offset + expert_idx]
+                    = out[row_offset + expert_idx] == 0.0f ? 0.0f : out[row_offset + expert_idx] / selected_sum;
             }
         }
-        out[row * num_experts + best_idx] = best_value;
     }
 
     return output;
 }
 
-std::shared_ptr<Tensor> Top1MaskBackward(const std::shared_ptr<Tensor> &grad_output,
+std::shared_ptr<Tensor> TopKMaskBackward(const std::shared_ptr<Tensor> &grad_output,
                                          const std::shared_ptr<Tensor> &mask_values) {
-    CHECK(grad_output->Dtype() == DataType::kFLOAT32) << "CPU Top1MaskBackward currently supports float32 only";
+    CHECK(grad_output->Dtype() == DataType::kFLOAT32) << "CPU TopKMaskBackward currently supports float32 only";
     CHECK(mask_values->Dtype() == DataType::kFLOAT32);
     CHECK(grad_output->Dims() == mask_values->Dims());
 
@@ -58,10 +79,10 @@ std::shared_ptr<Tensor> Top1MaskBackward(const std::shared_ptr<Tensor> &grad_out
 
 } // namespace infini_train::kernels::cpu
 
-#define REGISTER_CPU_TOP1_MASK_KERNEL(kernel_name)                                                                     \
+#define REGISTER_CPU_TOPK_MASK_KERNEL(kernel_name)                                                                     \
     REGISTER_KERNEL(infini_train::Device::DeviceType::kCPU, kernel_name, infini_train::kernels::cpu::kernel_name)
 
-REGISTER_CPU_TOP1_MASK_KERNEL(Top1MaskForward)
-REGISTER_CPU_TOP1_MASK_KERNEL(Top1MaskBackward)
+REGISTER_CPU_TOPK_MASK_KERNEL(TopKMaskForward)
+REGISTER_CPU_TOPK_MASK_KERNEL(TopKMaskBackward)
 
-#undef REGISTER_CPU_TOP1_MASK_KERNEL
+#undef REGISTER_CPU_TOPK_MASK_KERNEL
diff --git a/infini_train/src/kernels/cuda/topk_mask.cu b/infini_train/src/kernels/cuda/topk_mask.cu
@@ -11,33 +11,44 @@
 namespace infini_train::kernels::cuda {
 
 template <typename T>
-__global__ void Top1MaskForwardKernel(const T *__restrict__ input, T *__restrict__ output, int64_t rows,
-                                      int64_t num_experts) {
+__global__ void TopKMaskForwardKernel(const T *__restrict__ input, T *__restrict__ output, int64_t rows,
+                                      int64_t num_experts, int64_t topk) {
     int64_t row = blockIdx.x * blockDim.x + threadIdx.x;
     if (row >= rows) {
         return;
     }
 
     const int64_t offset = row * num_experts;
-    int64_t best_idx = 0;
-    float best_value = static_cast<float>(input[offset]);
-    for (int64_t expert_idx = 1; expert_idx < num_experts; ++expert_idx) {
+    float selected_sum = 0.0f;
+    for (int64_t expert_idx = 0; expert_idx < num_experts; ++expert_idx) {
         const float value = static_cast<float>(input[offset + expert_idx]);
-        if (value > best_value) {
-            best_value = value;
-            best_idx = expert_idx;
+        int64_t rank = 0;
+        for (int64_t other_idx = 0; other_idx < num_experts; ++other_idx) {
+            const float other_value = static_cast<float>(input[offset + other_idx]);
+            if (other_value > value || (other_value == value && other_idx < expert_idx)) {
+                ++rank;
+            }
         }
+        const bool selected = rank < topk;
+        output[offset + expert_idx] = selected ? input[offset + expert_idx] : T(0.0f);
+        selected_sum += selected ? value : 0.0f;
     }
-    for (int64_t expert_idx = 0; expert_idx < num_experts; ++expert_idx) {
-        output[offset + expert_idx] = expert_idx == best_idx ? input[offset + expert_idx] : T(0.0f);
+    if (topk > 1 && selected_sum != 0.0f) {
+        for (int64_t expert_idx = 0; expert_idx < num_experts; ++expert_idx) {
+            if (static_cast<float>(output[offset + expert_idx]) != 0.0f) {
+                output[offset + expert_idx] = T(static_cast<float>(output[offset + expert_idx]) / selected_sum);
+            }
+        }
     }
 }
 
-std::shared_ptr<Tensor> Top1MaskForward(const std::shared_ptr<Tensor> &input) {
+std::shared_ptr<Tensor> TopKMaskForward(const std::shared_ptr<Tensor> &input, int64_t topk) {
     CHECK_GE(input->Dims().size(), 1);
     const auto &dims = input->Dims();
     const int64_t num_experts = dims.back();
     CHECK_GT(num_experts, 0);
+    CHECK_GT(topk, 0);
+    CHECK_LE(topk, num_experts);
     const int64_t rows = input->NumElements() / num_experts;
 
     auto output = std::make_shared<Tensor>(dims, input->Dtype(), input->GetDevice());
@@ -52,16 +63,16 @@ std::shared_ptr<Tensor> Top1MaskForward(const std::shared_ptr<Tensor> &input) {
     core::cuda::DispatchCudaFunc<INFINI_ALL_FLOATING_TYPES>(
         input->Dtype(),
         [=]<typename T>() {
-            Top1MaskForwardKernel<T><<<blocks, threads, 0, stream>>>(
-                static_cast<const T *>(input->DataPtr()), static_cast<T *>(output->DataPtr()), rows, num_experts);
+            TopKMaskForwardKernel<T><<<blocks, threads, 0, stream>>>(
+                static_cast<const T *>(input->DataPtr()), static_cast<T *>(output->DataPtr()), rows, num_experts, topk);
         },
-        "CUDA Top1MaskForward");
+        "CUDA TopKMaskForward");
 
     return output;
 }
 
 template <typename T>
-__global__ void Top1MaskBackwardKernel(const T *__restrict__ grad_output, const T *__restrict__ mask_values,
+__global__ void TopKMaskBackwardKernel(const T *__restrict__ grad_output, const T *__restrict__ mask_values,
                                        T *__restrict__ grad_input, int64_t total_elements) {
     int64_t idx = blockIdx.x * blockDim.x + threadIdx.x;
     if (idx >= total_elements) {
@@ -70,7 +81,7 @@ __global__ void Top1MaskBackwardKernel(const T *__restrict__ grad_output, const
     grad_input[idx] = static_cast<float>(mask_values[idx]) != 0.0f ? grad_output[idx] : T(0.0f);
 }
 
-std::shared_ptr<Tensor> Top1MaskBackward(const std::shared_ptr<Tensor> &grad_output,
+std::shared_ptr<Tensor> TopKMaskBackward(const std::shared_ptr<Tensor> &grad_output,
                                          const std::shared_ptr<Tensor> &mask_values) {
     CHECK(grad_output->Dims() == mask_values->Dims());
     CHECK(grad_output->Dtype() == mask_values->Dtype());
@@ -87,21 +98,21 @@ std::shared_ptr<Tensor> Top1MaskBackward(const std::shared_ptr<Tensor> &grad_out
     core::cuda::DispatchCudaFunc<INFINI_ALL_FLOATING_TYPES>(
         grad_output->Dtype(),
         [=]<typename T>() {
-            Top1MaskBackwardKernel<T><<<blocks, threads, 0, stream>>>(
+            TopKMaskBackwardKernel<T><<<blocks, threads, 0, stream>>>(
                 static_cast<const T *>(grad_output->DataPtr()), static_cast<const T *>(mask_values->DataPtr()),
                 static_cast<T *>(grad_input->DataPtr()), total_elements);
         },
-        "CUDA Top1MaskBackward");
+        "CUDA TopKMaskBackward");
 
     return grad_input;
 }
 
 } // namespace infini_train::kernels::cuda
 
-#define REGISTER_CUDA_TOP1_MASK_KERNEL(kernel_name)                                                                    \
+#define REGISTER_CUDA_TOPK_MASK_KERNEL(kernel_name)                                                                    \
     REGISTER_KERNEL(infini_train::Device::DeviceType::kCUDA, kernel_name, infini_train::kernels::cuda::kernel_name)
 
-REGISTER_CUDA_TOP1_MASK_KERNEL(Top1MaskForward)
-REGISTER_CUDA_TOP1_MASK_KERNEL(Top1MaskBackward)
+REGISTER_CUDA_TOPK_MASK_KERNEL(TopKMaskForward)
+REGISTER_CUDA_TOPK_MASK_KERNEL(TopKMaskBackward)
 
-#undef REGISTER_CUDA_TOP1_MASK_KERNEL
+#undef REGISTER_CUDA_TOPK_MASK_KERNEL
diff --git a/infini_train/src/nn/modules/transformer/moe/router.cc b/infini_train/src/nn/modules/transformer/moe/router.cc
@@ -6,7 +6,7 @@
 #include "glog/logging.h"
 
 #include "infini_train/include/autograd/linear.h"
-#include "infini_train/include/autograd/moe.h"
+#include "infini_train/include/autograd/topk_mask.h"
 #include "infini_train/include/nn/functional.h"
 #include "infini_train/include/nn/init.h"
 #include "infini_train/include/nn/modules/transformer/moe/moe_utils.h"
@@ -17,8 +17,9 @@ namespace infini_train::nn::moe {
 TopKRouter::TopKRouter(const TransformerConfig &config) : CloneableModule(kType), config_(config) {
     const auto &moe_config = RequireMoEConfig(config_);
     CHECK(moe_config.router_type == MoERouterType::kTopK);
-    CHECK_EQ(moe_config.router_topk, 1) << "Current InfiniTrain MoE implementation supports top-1 routing only";
     CHECK_GT(moe_config.num_experts, 0);
+    CHECK_GT(moe_config.router_topk, 0);
+    CHECK_LE(moe_config.router_topk, moe_config.num_experts);
 
     parameters_[kParamWeightName]
         = std::make_shared<Tensor>(std::vector<int64_t>{moe_config.num_experts, config_.n_embd}, DataType::kFLOAT32,
@@ -43,7 +44,8 @@ std::vector<std::shared_ptr<Tensor>> TopKRouter::Forward(const std::vector<std::
 
     auto logits = std::make_shared<autograd::Linear>()->Apply(linear_inputs)[0];
     auto scores = function::Softmax(logits, -1);
-    auto routing_probs = std::make_shared<autograd::Top1Mask>()->Apply({scores})[0];
+    const auto &moe_config = RequireMoEConfig(config_);
+    auto routing_probs = std::make_shared<autograd::TopKMask>(moe_config.router_topk)->Apply({scores})[0];
     return {routing_probs};
 }
 
diff --git a/test/transformer/test_transformer_architecture.cc b/test/transformer/test_transformer_architecture.cc
@@ -527,10 +527,10 @@ void TestStateDict() {
 }
 
 // ============================================================================
-// Test 11: MoE Layer MVP
+// Test 11: MoE Layer
 // ============================================================================
 void TestMoELayer() {
-    std::cout << "\n=== Test 11: MoE Layer MVP ===" << std::endl;
+    std::cout << "\n=== Test 11: MoE Layer ===" << std::endl;
 
     nn::TransformerConfig config;
     config.n_embd = 32;
@@ -543,29 +543,43 @@ void TestMoELayer() {
     config.moe_config->num_experts = 2;
     config.moe_config->router_topk = 1;
 
-    try {
-        auto moe = std::make_shared<nn::moe::MoELayer>(config);
-        auto input = std::make_shared<Tensor>(std::vector<int64_t>{2, 4, config.n_embd}, DataType::kFLOAT32);
-        input->Uniform();
+    auto moe = std::make_shared<nn::moe::MoELayer>(config);
+    auto input = std::make_shared<Tensor>(std::vector<int64_t>{2, 4, config.n_embd}, DataType::kFLOAT32);
+    input->Uniform();
 
-        auto output = (*moe)({input});
-        if (output.size() != 1) {
-            std::cout << "FAIL: MoELayer forward should return 1 tensor" << std::endl;
-            return;
-        }
-        if (output[0]->Dims() != input->Dims()) {
-            std::cout << "FAIL: MoELayer output shape mismatch" << std::endl;
-            return;
-        }
+    auto output = (*moe)({input});
+    CHECK_EQ(output.size(), 1);
+    CHECK(output[0]->Dims() == input->Dims());
 
-        auto params = moe->Parameters();
-        if (params.empty()) {
-            std::cout << "FAIL: MoELayer should own router and expert parameters" << std::endl;
-            return;
-        }
+    auto params = moe->Parameters();
+    CHECK(!params.empty());
 
-        std::cout << "SUCCESS: MoE layer MVP forward works correctly!" << std::endl;
-    } catch (const std::exception &e) { std::cout << "FAIL: Exception: " << e.what() << std::endl; }
+    std::cout << "SUCCESS: MoE layer forward works correctly!" << std::endl;
+}
+
+void TestMoELayerTop2() {
+    std::cout << "\n=== Test 12: MoE Layer Top-2 ===" << std::endl;
+
+    nn::TransformerConfig config;
+    config.n_embd = 32;
+    config.n_head = 2;
+    config.n_kv_head = 2;
+    config.activation_type = nn::MLPType::kGELU;
+    config.add_bias_linear = true;
+    config.ffn_type = nn::FFNType::kMoE;
+    config.moe_config = nn::MoEConfig{};
+    config.moe_config->num_experts = 4;
+    config.moe_config->router_topk = 2;
+
+    auto moe = std::make_shared<nn::moe::MoELayer>(config);
+    auto input = std::make_shared<Tensor>(std::vector<int64_t>{2, 4, config.n_embd}, DataType::kFLOAT32);
+    input->Uniform();
+
+    auto output = (*moe)({input});
+    CHECK_EQ(output.size(), 1);
+    CHECK(output[0]->Dims() == input->Dims());
+
+    std::cout << "SUCCESS: MoE layer top-2 forward works correctly!" << std::endl;
 }
 
 // ============================================================================
@@ -591,6 +605,7 @@ int main(int argc, char *argv[]) {
     TestRopeUtils();
     TestStateDict();
     TestMoELayer();
+    TestMoELayerTop2();
 
     std::cout << "\n========================================" << std::endl;
     std::cout << "    All Tests Completed" << std::endl;