feat: implement MoETokenDispatcher base class and MoEAllGatherTokenDispatcher

kilinchange · kilinchange · commit 69a74fd8e65e · 2026-05-29T09:33:12.000Z
diff --git a/infini_train/include/autograd/scatter_add.h b/infini_train/include/autograd/scatter_add.h
@@ -0,0 +1,31 @@
+#pragma once
+
+#include <memory>
+#include <vector>
+
+#include "infini_train/include/autograd/function.h"
+
+namespace infini_train {
+class Tensor;
+}
+
+namespace infini_train::autograd {
+
+class ScatterAdd : public Function {
+public:
+    static constexpr char kType[] = "ScatterAddFunction";
+
+    ScatterAdd(int64_t dim, const std::vector<int64_t> &output_dims)
+        : Function(kType), dim_(dim), output_dims_(output_dims) {}
+
+    std::vector<std::shared_ptr<Tensor>> Forward(const std::vector<std::shared_ptr<Tensor>> &input_tensors) override;
+    void SetupContext(const std::vector<std::shared_ptr<Tensor>> &input_tensors,
+                      const std::vector<std::shared_ptr<Tensor>> &output_tensors) override;
+    std::vector<std::shared_ptr<Tensor>> Backward(const std::vector<std::shared_ptr<Tensor>> &grad_outputs) override;
+
+private:
+    int64_t dim_ = 0;
+    std::vector<int64_t> output_dims_;
+};
+
+} // namespace infini_train::autograd
diff --git a/infini_train/include/nn/modules/transformer/moe/moe_utils.h b/infini_train/include/nn/modules/transformer/moe/moe_utils.h
@@ -9,11 +9,32 @@
 
 namespace infini_train::nn::moe {
 
+struct PermutationMetadata {
+    std::shared_ptr<Tensor> sorted_indices;
+    std::shared_ptr<Tensor> gather_indices;
+    std::shared_ptr<Tensor> route_indices;
+    std::shared_ptr<Tensor> tokens_per_expert;
+    std::vector<int64_t> tokens_per_expert_host;
+};
+
+struct PermutationResult {
+    std::shared_ptr<Tensor> permuted_hidden_states;
+    std::shared_ptr<Tensor> permuted_probs;
+    PermutationMetadata metadata;
+};
+
 std::vector<std::shared_ptr<Tensor>> TopkRoutingWithScoreFunction(const std::shared_ptr<Tensor> &logits, int64_t topk,
                                                                   bool use_pre_softmax,
                                                                   std::optional<float> scaling_factor,
                                                                   const MoEConfig::RouterScoreFunction &score_function);
 
 const MoEConfig &RequireMoEConfig(const TransformerConfig &config);
+PermutationMetadata BuildPermutationMetadata(const std::shared_ptr<Tensor> &routing_map);
+PermutationResult Permute(const std::shared_ptr<Tensor> &hidden_states_2d,
+                          const std::shared_ptr<Tensor> &routing_probs_2d,
+                          const std::shared_ptr<Tensor> &routing_map_2d);
+std::shared_ptr<Tensor> Unpermute(const std::shared_ptr<Tensor> &permuted_hidden_states,
+                                  const std::shared_ptr<Tensor> &permuted_probs, const PermutationMetadata &metadata,
+                                  const std::vector<int64_t> &restore_shape);
 
 } // namespace infini_train::nn::moe
diff --git a/infini_train/include/nn/modules/transformer/moe/token_dispatcher.h b/infini_train/include/nn/modules/transformer/moe/token_dispatcher.h
@@ -0,0 +1,67 @@
+#pragma once
+
+#include <cstdint>
+#include <memory>
+#include <vector>
+
+#include "infini_train/include/nn/modules/transformer/moe/moe_utils.h"
+#include "infini_train/include/nn/modules/transformer/transformer_config.h"
+#include "infini_train/include/tensor.h"
+
+namespace infini_train::nn::moe {
+
+class MoETokenDispatcher {
+public:
+    virtual ~MoETokenDispatcher() = default;
+
+    const PermutationResult &Dispatch(const std::shared_ptr<Tensor> &tokens, const std::shared_ptr<Tensor> &routing_map,
+                                      const std::shared_ptr<Tensor> &probs);
+    std::shared_ptr<Tensor> Combine(const std::shared_ptr<Tensor> &hidden_states) const;
+
+protected:
+    explicit MoETokenDispatcher(const TransformerConfig &config);
+
+    virtual std::vector<std::shared_ptr<Tensor>> DispatchPreprocess(const std::shared_ptr<Tensor> &tokens,
+                                                                    const std::shared_ptr<Tensor> &routing_map,
+                                                                    const std::shared_ptr<Tensor> &probs)
+        = 0;
+    virtual std::vector<std::shared_ptr<Tensor>> TokenDispatch(const std::shared_ptr<Tensor> &hidden_states,
+                                                               const std::shared_ptr<Tensor> &probs) const
+        = 0;
+    virtual const PermutationResult &DispatchPostprocess(const std::shared_ptr<Tensor> &hidden_states,
+                                                         const std::shared_ptr<Tensor> &probs)
+        = 0;
+    virtual std::shared_ptr<Tensor> CombinePreprocess(const std::shared_ptr<Tensor> &hidden_states) const = 0;
+    virtual std::shared_ptr<Tensor> TokenCombine(const std::shared_ptr<Tensor> &hidden_states) const = 0;
+    virtual std::shared_ptr<Tensor> CombinePostprocess(const std::shared_ptr<Tensor> &hidden_states) const = 0;
+
+    TransformerConfig config_;
+    PermutationResult dispatch_;
+    std::vector<int64_t> hidden_dims_;
+    std::shared_ptr<Tensor> routing_map_;
+    std::shared_ptr<Tensor> local_map_;
+    std::shared_ptr<Tensor> local_probs_;
+    int64_t num_tokens_ = 0;
+    int64_t hidden_size_ = 0;
+};
+
+class MoEAllGatherTokenDispatcher : public MoETokenDispatcher {
+public:
+    MoEAllGatherTokenDispatcher(int64_t num_local_experts, const TransformerConfig &config);
+
+private:
+    std::vector<std::shared_ptr<Tensor>> DispatchPreprocess(const std::shared_ptr<Tensor> &tokens,
+                                                            const std::shared_ptr<Tensor> &routing_map,
+                                                            const std::shared_ptr<Tensor> &probs) override;
+    std::vector<std::shared_ptr<Tensor>> TokenDispatch(const std::shared_ptr<Tensor> &hidden_states,
+                                                       const std::shared_ptr<Tensor> &probs) const override;
+    const PermutationResult &DispatchPostprocess(const std::shared_ptr<Tensor> &hidden_states,
+                                                 const std::shared_ptr<Tensor> &probs) override;
+    std::shared_ptr<Tensor> CombinePreprocess(const std::shared_ptr<Tensor> &hidden_states) const override;
+    std::shared_ptr<Tensor> TokenCombine(const std::shared_ptr<Tensor> &hidden_states) const override;
+    std::shared_ptr<Tensor> CombinePostprocess(const std::shared_ptr<Tensor> &hidden_states) const override;
+
+    int64_t num_local_experts_ = 0;
+};
+
+} // namespace infini_train::nn::moe
diff --git a/infini_train/src/autograd/scatter_add.cc b/infini_train/src/autograd/scatter_add.cc
@@ -0,0 +1,35 @@
+#include "infini_train/include/autograd/scatter_add.h"
+
+#include "glog/logging.h"
+
+#include "infini_train/include/dispatcher.h"
+#include "infini_train/include/tensor.h"
+
+namespace infini_train::autograd {
+
+std::vector<std::shared_ptr<Tensor>> ScatterAdd::Forward(const std::vector<std::shared_ptr<Tensor>> &input_tensors) {
+    CHECK_EQ(input_tensors.size(), 2);
+    const auto &values = input_tensors[0];
+    const auto &indices = input_tensors[1];
+    auto device = values->GetDevice().type();
+    auto output = Dispatcher::Instance().Call<std::shared_ptr<Tensor>>({device, "GatherBackward"}, values, indices,
+                                                                       dim_, output_dims_);
+    return {output};
+}
+
+void ScatterAdd::SetupContext(const std::vector<std::shared_ptr<Tensor>> &input_tensors,
+                              const std::vector<std::shared_ptr<Tensor>> &) {
+    saved_tensors_ = {input_tensors[1]};
+}
+
+std::vector<std::shared_ptr<Tensor>> ScatterAdd::Backward(const std::vector<std::shared_ptr<Tensor>> &grad_outputs) {
+    CHECK_EQ(grad_outputs.size(), 1);
+    const auto &grad_output = grad_outputs[0];
+    const auto &indices = saved_tensors_[0];
+    auto device = grad_output->GetDevice().type();
+    auto grad_values
+        = Dispatcher::Instance().Call<std::shared_ptr<Tensor>>({device, "GatherForward"}, grad_output, indices, dim_);
+    return {grad_values, nullptr};
+}
+
+} // namespace infini_train::autograd
diff --git a/infini_train/src/kernels/cpu/concat.cc b/infini_train/src/kernels/cpu/concat.cc
@@ -1,7 +1,6 @@
-#include <algorithm>
+#include <cstddef>
 #include <memory>
 #include <numeric>
-#include <utility>
 #include <vector>
 
 #include "glog/logging.h"
@@ -42,23 +41,24 @@ std::shared_ptr<Tensor> ConcatForward(const std::vector<std::shared_ptr<Tensor>>
     const int64_t K_total = std::accumulate(Ks.begin(), Ks.end(), int64_t{0});
     output_dims[dim] = K_total;
 
-    auto output = std::make_shared<Tensor>(output_dims, DataType::kFLOAT32);
+    auto output = std::make_shared<Tensor>(output_dims, dtype, device);
 
     const int64_t outer_size
         = std::accumulate(output_dims.begin(), output_dims.begin() + dim, 1LL, std::multiplies<int64_t>());
     const int64_t inner_size
         = std::accumulate(output_dims.begin() + dim + 1, output_dims.end(), 1LL, std::multiplies<int64_t>());
-    const size_t elem_size = sizeof(float);
+    const size_t elem_size = kDataTypeToSize.at(dtype);
 
-    float *dst_ptr_base = static_cast<float *>(output->DataPtr());
+    auto *dst_ptr_base = static_cast<std::byte *>(output->DataPtr());
     for (int64_t n = 0; n < outer_size; ++n) {
         int64_t offset_k = 0;
-        float *dst_block = dst_ptr_base + n * K_total * inner_size;
+        auto *dst_block = dst_ptr_base + n * K_total * inner_size * elem_size;
 
         for (size_t i = 0; i < inputs.size(); ++i) {
             const int64_t Ki = Ks[i];
-            const float *src_ptr = static_cast<const float *>(inputs[i]->DataPtr()) + n * Ki * inner_size;
-            float *dst_ptr = dst_block + offset_k * inner_size;
+            const auto *src_ptr
+                = static_cast<const std::byte *>(inputs[i]->DataPtr()) + n * Ki * inner_size * elem_size;
+            auto *dst_ptr = dst_block + offset_k * inner_size * elem_size;
             std::memcpy(dst_ptr, src_ptr, static_cast<size_t>(Ki) * inner_size * elem_size);
             offset_k += Ki;
         }
diff --git a/infini_train/src/kernels/cpu/transform.cc b/infini_train/src/kernels/cpu/transform.cc
@@ -1,4 +1,6 @@
 #include <cmath>
+#include <cstddef>
+#include <cstring>
 #include <memory>
 
 #include "glog/logging.h"
@@ -167,14 +169,15 @@ std::shared_ptr<Tensor> RepeatInterleaveForward(const std::shared_ptr<Tensor> &i
     output_dims[dim] = dim_size * repeat;
     auto output = std::make_shared<Tensor>(output_dims, input->Dtype(), input->GetDevice());
 
-    const float *input_ptr = static_cast<const float *>(input->DataPtr());
-    float *output_ptr = static_cast<float *>(output->DataPtr());
+    const size_t elem_size = kDataTypeToSize.at(input->Dtype());
+    const auto *input_ptr = static_cast<const std::byte *>(input->DataPtr());
+    auto *output_ptr = static_cast<std::byte *>(output->DataPtr());
 
     for (int64_t o = 0; o < outer; ++o) {
         for (int64_t i = 0; i < dim_size; ++i) {
             for (int r = 0; r < repeat; ++r) {
-                std::memcpy(output_ptr + ((o * dim_size * repeat + i * repeat + r) * inner),
-                            input_ptr + ((o * dim_size + i) * inner), sizeof(float) * inner);
+                std::memcpy(output_ptr + ((o * dim_size * repeat + i * repeat + r) * inner * elem_size),
+                            input_ptr + ((o * dim_size + i) * inner * elem_size), elem_size * inner);
             }
         }
     }
diff --git a/infini_train/src/nn/modules/transformer/moe/experts.cc b/infini_train/src/nn/modules/transformer/moe/experts.cc
@@ -6,19 +6,21 @@
 
 #include "glog/logging.h"
 
+#include "infini_train/include/nn/functional.h"
 #include "infini_train/include/nn/modules/transformer/mlp.h"
 #include "infini_train/include/nn/modules/transformer/moe/moe_utils.h"
+#include "infini_train/include/nn/modules/transformer/moe/token_dispatcher.h"
 #include "infini_train/include/tensor.h"
 
 namespace infini_train::nn::moe {
 
 SequentialMLP::SequentialMLP(const TransformerConfig &config) : CloneableModule(kType), config_(config) {
     const auto &moe_config = RequireMoEConfig(config_);
-    CHECK(moe_config.expert_impl == MoEExpertImpl::kSequential);
+    CHECK(moe_config.expert_impl == MoEConfig::ExpertImpl::kSequential);
     CHECK_EQ(moe_config.expert_parallel_size, 1)
         << "Current InfiniTrain MoE implementation supports expert_parallel_size=1 only";
-    CHECK(moe_config.dispatcher_type == MoEDispatcherType::kLocal)
-        << "Current InfiniTrain MoE implementation supports local dispatch only";
+    CHECK(moe_config.dispatcher_type == MoEConfig::DispatcherType::kAllGather)
+        << "Current InfiniTrain MoE implementation supports AllGather dispatcher only";
 
     num_local_experts_ = moe_config.num_experts;
     CHECK_GT(num_local_experts_, 0);
@@ -29,22 +31,35 @@ SequentialMLP::SequentialMLP(const TransformerConfig &config) : CloneableModule(
 }
 
 std::vector<std::shared_ptr<Tensor>> SequentialMLP::Forward(const std::vector<std::shared_ptr<Tensor>> &input_tensors) {
-    CHECK_EQ(input_tensors.size(), 2);
+    CHECK_EQ(input_tensors.size(), 3);
     auto hidden_states = input_tensors[0];
     auto routing_probs = input_tensors[1];
-    CHECK_EQ(routing_probs->Dims().back(), num_local_experts_);
+    auto routing_map = input_tensors[2];
+    std::unique_ptr<MoETokenDispatcher> dispatcher
+        = std::make_unique<MoEAllGatherTokenDispatcher>(num_local_experts_, config_);
+    const auto &dispatch = dispatcher->Dispatch(hidden_states, routing_map, routing_probs);
 
-    std::shared_ptr<Tensor> output = nullptr;
-    const int64_t expert_dim = static_cast<int64_t>(routing_probs->Dims().size()) - 1;
+    std::vector<std::shared_ptr<Tensor>> expert_outputs;
+    int64_t start = 0;
     for (int64_t expert_idx = 0; expert_idx < num_local_experts_; ++expert_idx) {
+        const int64_t num_tokens_for_expert = dispatch.metadata.tokens_per_expert_host[expert_idx];
+        const int64_t end = start + num_tokens_for_expert;
+        if (num_tokens_for_expert == 0) {
+            start = end;
+            continue;
+        }
+
+        auto expert_input = dispatch.permuted_hidden_states->Slice(0, start, end);
         auto expert_name = std::string(kExpertNamePrefix) + std::to_string(expert_idx);
-        auto expert_output = (*modules_.at(expert_name))({hidden_states})[0];
-        auto expert_prob = routing_probs->Slice(expert_dim, expert_idx, expert_idx + 1);
-        auto weighted_output = expert_output * expert_prob;
-        output = output == nullptr ? weighted_output : output + weighted_output;
+        expert_outputs.push_back((*modules_.at(expert_name))({expert_input})[0]);
+        start = end;
     }
+    CHECK_EQ(start, dispatch.permuted_hidden_states->Dims()[0]);
+    CHECK(!expert_outputs.empty()) << "No tokens were dispatched to any local expert";
 
-    return {output};
+    auto permuted_expert_output
+        = expert_outputs.size() == 1 ? expert_outputs[0] : nn::function::Concat(expert_outputs, 0);
+    return {dispatcher->Combine(permuted_expert_output)};
 }
 
 } // namespace infini_train::nn::moe
diff --git a/infini_train/src/nn/modules/transformer/moe/moe_utils.cc b/infini_train/src/nn/modules/transformer/moe/moe_utils.cc
diff --git a/infini_train/src/nn/modules/transformer/moe/token_dispatcher.cc b/infini_train/src/nn/modules/transformer/moe/token_dispatcher.cc