InfiniTensor
diff --git a/‎infini_train/include/autograd/moe.h‎
Lines changed: 26 additions & 0 deletions b/‎infini_train/include/autograd/moe.h‎
Lines changed: 26 additions & 0 deletions
diff --git a/‎infini_train/include/nn/modules/transformer/moe/experts.h‎
Lines changed: 25 additions & 0 deletions b/‎infini_train/include/nn/modules/transformer/moe/experts.h‎
Lines changed: 25 additions & 0 deletions
diff --git a/‎infini_train/include/nn/modules/transformer/moe/moe_layer.h‎
Lines changed: 25 additions & 0 deletions b/‎infini_train/include/nn/modules/transformer/moe/moe_layer.h‎
Lines changed: 25 additions & 0 deletions
diff --git a/‎infini_train/include/nn/modules/transformer/moe/moe_utils.h‎
Lines changed: 9 additions & 0 deletions b/‎infini_train/include/nn/modules/transformer/moe/moe_utils.h‎
Lines changed: 9 additions & 0 deletions
diff --git a/‎infini_train/include/nn/modules/transformer/moe/router.h‎
Lines changed: 25 additions & 0 deletions b/‎infini_train/include/nn/modules/transformer/moe/router.h‎
Lines changed: 25 additions & 0 deletions
diff --git a/‎infini_train/include/nn/modules/transformer/transformer_config.h‎
Lines changed: 33 additions & 0 deletions b/‎infini_train/include/nn/modules/transformer/transformer_config.h‎
Lines changed: 33 additions & 0 deletions
diff --git a/‎infini_train/src/autograd/moe.cc‎
Lines changed: 31 additions & 0 deletions b/‎infini_train/src/autograd/moe.cc‎
Lines changed: 31 additions & 0 deletions
diff --git a/‎infini_train/src/kernels/cpu/top1_mask.cc‎
Lines changed: 67 additions & 0 deletions b/‎infini_train/src/kernels/cpu/top1_mask.cc‎
Lines changed: 67 additions & 0 deletions
diff --git a/‎infini_train/src/kernels/cuda/top1_mask.cu‎
Lines changed: 107 additions & 0 deletions b/‎infini_train/src/kernels/cuda/top1_mask.cu‎
Lines changed: 107 additions & 0 deletions
@@ -0,0 +1,26 @@
+#pragma once
+
+#include <memory>
+#include <vector>
+
+#include "infini_train/include/autograd/function.h"
+
+namespace infini_train {
+class Tensor;
+}
+
+namespace infini_train::autograd {
+
+class Top1Mask : public Function {
+public:
+    static constexpr char kType[] = "Top1MaskFunction";
+
+    Top1Mask() : Function(kType) {}
+
+    std::vector<std::shared_ptr<Tensor>> Forward(const std::vector<std::shared_ptr<Tensor>> &input_tensors) override;
+    void SetupContext(const std::vector<std::shared_ptr<Tensor>> &input_tensors,
+                      const std::vector<std::shared_ptr<Tensor>> &output_tensors) override;
+    std::vector<std::shared_ptr<Tensor>> Backward(const std::vector<std::shared_ptr<Tensor>> &grad_outputs) override;
+};
+
+} // namespace infini_train::autograd
@@ -0,0 +1,25 @@
+#pragma once
+
+#include <memory>
+#include <vector>
+
+#include "infini_train/include/nn/modules/module.h"
+#include "infini_train/include/nn/modules/transformer/transformer_config.h"
+
+namespace infini_train::nn::moe {
+
+class SequentialMLP : public CloneableModule<SequentialMLP> {
+public:
+    static constexpr char kType[] = "SequentialMLP";
+    static constexpr char kExpertNamePrefix[] = "expert_";
+
+    explicit SequentialMLP(const TransformerConfig &config);
+
+    std::vector<std::shared_ptr<Tensor>> Forward(const std::vector<std::shared_ptr<Tensor>> &input_tensors) override;
+
+private:
+    TransformerConfig config_;
+    int64_t num_local_experts_ = 0;
+};
+
+} // namespace infini_train::nn::moe
@@ -0,0 +1,25 @@
+#pragma once
+
+#include <memory>
+#include <vector>
+
+#include "infini_train/include/nn/modules/module.h"
+#include "infini_train/include/nn/modules/transformer/transformer_config.h"
+
+namespace infini_train::nn::moe {
+
+class MoELayer : public CloneableModule<MoELayer> {
+public:
+    static constexpr char kType[] = "MoELayer";
+    static constexpr char kRouterLayerName[] = "router";
+    static constexpr char kExpertsLayerName[] = "experts";
+
+    explicit MoELayer(const TransformerConfig &config);
+
+    std::vector<std::shared_ptr<Tensor>> Forward(const std::vector<std::shared_ptr<Tensor>> &input_tensors) override;
+
+private:
+    TransformerConfig config_;
+};
+
+} // namespace infini_train::nn::moe
@@ -0,0 +1,9 @@
+#pragma once
+
+#include "infini_train/include/nn/modules/transformer/transformer_config.h"
+
+namespace infini_train::nn::moe {
+
+const MoEConfig &RequireMoEConfig(const TransformerConfig &config);
+
+} // namespace infini_train::nn::moe
@@ -0,0 +1,25 @@
+#pragma once
+
+#include <memory>
+#include <vector>
+
+#include "infini_train/include/nn/modules/module.h"
+#include "infini_train/include/nn/modules/transformer/transformer_config.h"
+
+namespace infini_train::nn::moe {
+
+class TopKRouter : public CloneableModule<TopKRouter> {
+public:
+    static constexpr char kType[] = "TopKRouter";
+    static constexpr char kParamWeightName[] = "weight";
+    static constexpr char kParamBiasName[] = "bias";
+
+    explicit TopKRouter(const TransformerConfig &config);
+
+    std::vector<std::shared_ptr<Tensor>> Forward(const std::vector<std::shared_ptr<Tensor>> &input_tensors) override;
+
+private:
+    TransformerConfig config_;
+};
+
+} // namespace infini_train::nn::moe
@@ -20,11 +20,42 @@ enum class MLPType {
     kSwiGLU // SwiGLU activation
 };
 
+enum class FFNType {
+    kDense, // Standard dense MLP
+    kMoE    // Mixture-of-Experts MLP
+};
+
 enum class NormType {
     kLayerNorm, // LayerNorm
     kRMSNorm    // RMSNorm
 };
 
+enum class MoERouterType {
+    kTopK // Top-k router. The initial implementation supports top-1.
+};
+
+enum class MoEDispatcherType {
+    kLocal,    // No cross-rank token exchange
+    kAllGather // Reserved for expert parallel MoE
+};
+
+enum class MoEExpertImpl {
+    kSequential // Run local experts sequentially
+};
+
+struct MoEConfig {
+    int64_t num_experts = 0;
+    int64_t expert_parallel_size = 1;
+    int64_t router_topk = 1;
+    float aux_loss_coeff = 0.0f;
+    std::optional<float> expert_capacity_factor = std::nullopt;
+    bool pad_expert_input_to_capacity = false;
+    int64_t moe_ffn_hidden_size = 0;
+    MoERouterType router_type = MoERouterType::kTopK;
+    MoEDispatcherType dispatcher_type = MoEDispatcherType::kLocal;
+    MoEExpertImpl expert_impl = MoEExpertImpl::kSequential;
+};
+
 struct TransformerConfig {
     int64_t block_size = 1024;           // Max seq_len
     int64_t vocab_size = 50304;          // Vocab size
@@ -36,6 +67,7 @@ struct TransformerConfig {
 
     AttentionType attention_type = AttentionType::kStandard; // Attention mechanism type
     MLPType activation_type = MLPType::kGELU;                // MLP activation type
+    FFNType ffn_type = FFNType::kDense;                      // Feed-forward module type
     NormType norm_type = NormType::kLayerNorm;               // Normalization type
 
     bool add_bias_linear = true; // Whether to add learnable bias to all Linear layers in the Transformer block,
@@ -48,6 +80,7 @@ struct TransformerConfig {
     float ffn_expansion_ratio = 4.0f;               // MLP output: n_embd * ffn_expansion_ratio
     std::optional<float> ffn_dim_multiplier = 1.5f; // FFN dim multiplier
     int64_t multiple_of = 256;                      // FFN dims must be multiple of this number
+    std::optional<MoEConfig> moe_config = std::nullopt;
 
     // RoPE config
     float rope_theta = 500000.0f; // theta in RoPE
 
@@ -0,0 +1,31 @@
+#include "infini_train/include/autograd/moe.h"
+
+#include "glog/logging.h"
+
+#include "infini_train/include/dispatcher.h"
+#include "infini_train/include/tensor.h"
+
+namespace infini_train::autograd {
+
+std::vector<std::shared_ptr<Tensor>> Top1Mask::Forward(const std::vector<std::shared_ptr<Tensor>> &input_tensors) {
+    CHECK_EQ(input_tensors.size(), 1);
+    const auto &input = input_tensors[0];
+    auto device = input->GetDevice().type();
+    return {Dispatcher::Instance().Call<std::shared_ptr<Tensor>>({device, "Top1MaskForward"}, input)};
+}
+
+void Top1Mask::SetupContext(const std::vector<std::shared_ptr<Tensor>> &,
+                            const std::vector<std::shared_ptr<Tensor>> &output_tensors) {
+    saved_tensors_ = {output_tensors[0]};
+}
+
+std::vector<std::shared_ptr<Tensor>> Top1Mask::Backward(const std::vector<std::shared_ptr<Tensor>> &grad_outputs) {
+    CHECK_EQ(grad_outputs.size(), 1);
+    const auto &grad_output = grad_outputs[0];
+    const auto &mask_values = saved_tensors_[0];
+    auto device = grad_output->GetDevice().type();
+    return {
+        Dispatcher::Instance().Call<std::shared_ptr<Tensor>>({device, "Top1MaskBackward"}, grad_output, mask_values)};
+}
+
+} // namespace infini_train::autograd
@@ -0,0 +1,67 @@
+#include <memory>
+
+#include "glog/logging.h"
+
+#include "infini_train/include/dispatcher.h"
+#include "infini_train/include/tensor.h"
+
+namespace infini_train::kernels::cpu {
+
+std::shared_ptr<Tensor> Top1MaskForward(const std::shared_ptr<Tensor> &input) {
+    CHECK(input->Dtype() == DataType::kFLOAT32) << "CPU Top1MaskForward currently supports float32 only";
+    CHECK_GE(input->Dims().size(), 1);
+
+    const auto &dims = input->Dims();
+    const int64_t num_experts = dims.back();
+    CHECK_GT(num_experts, 0);
+    const int64_t rows = input->NumElements() / num_experts;
+
+    auto output = std::make_shared<Tensor>(dims, input->Dtype(), input->GetDevice());
+    output->Fill(0.0f);
+
+    const float *in = static_cast<const float *>(input->DataPtr());
+    float *out = static_cast<float *>(output->DataPtr());
+    for (int64_t row = 0; row < rows; ++row) {
+        int64_t best_idx = 0;
+        float best_value = in[row * num_experts];
+        for (int64_t expert_idx = 1; expert_idx < num_experts; ++expert_idx) {
+            const float value = in[row * num_experts + expert_idx];
+            if (value > best_value) {
+                best_value = value;
+                best_idx = expert_idx;
+            }
+        }
+        out[row * num_experts + best_idx] = best_value;
+    }
+
+    return output;
+}
+
+std::shared_ptr<Tensor> Top1MaskBackward(const std::shared_ptr<Tensor> &grad_output,
+                                         const std::shared_ptr<Tensor> &mask_values) {
+    CHECK(grad_output->Dtype() == DataType::kFLOAT32) << "CPU Top1MaskBackward currently supports float32 only";
+    CHECK(mask_values->Dtype() == DataType::kFLOAT32);
+    CHECK(grad_output->Dims() == mask_values->Dims());
+
+    auto grad_input = std::make_shared<Tensor>(grad_output->Dims(), grad_output->Dtype(), grad_output->GetDevice());
+    grad_input->Fill(0.0f);
+
+    const float *grad = static_cast<const float *>(grad_output->DataPtr());
+    const float *mask = static_cast<const float *>(mask_values->DataPtr());
+    float *out = static_cast<float *>(grad_input->DataPtr());
+    for (int64_t i = 0; i < static_cast<int64_t>(grad_output->NumElements()); ++i) {
+        out[i] = mask[i] != 0.0f ? grad[i] : 0.0f;
+    }
+
+    return grad_input;
+}
+
+} // namespace infini_train::kernels::cpu
+
+#define REGISTER_CPU_TOP1_MASK_KERNEL(kernel_name)                                                                     \
+    REGISTER_KERNEL(infini_train::Device::DeviceType::kCPU, kernel_name, infini_train::kernels::cpu::kernel_name)
+
+REGISTER_CPU_TOP1_MASK_KERNEL(Top1MaskForward)
+REGISTER_CPU_TOP1_MASK_KERNEL(Top1MaskBackward)
+
+#undef REGISTER_CPU_TOP1_MASK_KERNEL
@@ -0,0 +1,107 @@
+#include "glog/logging.h"
+
+#include "infini_train/include/common/cuda/common_cuda.h"
+#include "infini_train/include/core/runtime/device_guard.h"
+#include "infini_train/include/dispatcher.h"
+#include "infini_train/include/tensor.h"
+
+#include "infini_train/src/core/runtime/cuda/cuda_dispatch.h"
+#include "infini_train/src/core/runtime/cuda/cuda_runtime_common.h"
+
+namespace infini_train::kernels::cuda {
+
+template <typename T>
+__global__ void Top1MaskForwardKernel(const T *__restrict__ input, T *__restrict__ output, int64_t rows,
+                                      int64_t num_experts) {
+    int64_t row = blockIdx.x * blockDim.x + threadIdx.x;
+    if (row >= rows) {
+        return;
+    }
+
+    const int64_t offset = row * num_experts;
+    int64_t best_idx = 0;
+    float best_value = static_cast<float>(input[offset]);
+    for (int64_t expert_idx = 1; expert_idx < num_experts; ++expert_idx) {
+        const float value = static_cast<float>(input[offset + expert_idx]);
+        if (value > best_value) {
+            best_value = value;
+            best_idx = expert_idx;
+        }
+    }
+    for (int64_t expert_idx = 0; expert_idx < num_experts; ++expert_idx) {
+        output[offset + expert_idx] = expert_idx == best_idx ? input[offset + expert_idx] : T(0.0f);
+    }
+}
+
+std::shared_ptr<Tensor> Top1MaskForward(const std::shared_ptr<Tensor> &input) {
+    CHECK_GE(input->Dims().size(), 1);
+    const auto &dims = input->Dims();
+    const int64_t num_experts = dims.back();
+    CHECK_GT(num_experts, 0);
+    const int64_t rows = input->NumElements() / num_experts;
+
+    auto output = std::make_shared<Tensor>(dims, input->Dtype(), input->GetDevice());
+
+    auto device = input->GetDevice();
+    const auto &stream = dynamic_cast<infini_train::core::cuda::CudaStream *>(
+                             infini_train::core::GetDeviceGuardImpl(device.type())->GetStream(device))
+                             ->cuda_stream();
+    const int threads = 256;
+    const int blocks = static_cast<int>((rows + threads - 1) / threads);
+
+    core::cuda::DispatchCudaFunc<INFINI_ALL_FLOATING_TYPES>(
+        input->Dtype(),
+        [=]<typename T>() {
+            Top1MaskForwardKernel<T><<<blocks, threads, 0, stream>>>(
+                static_cast<const T *>(input->DataPtr()), static_cast<T *>(output->DataPtr()), rows, num_experts);
+        },
+        "CUDA Top1MaskForward");
+
+    return output;
+}
+
+template <typename T>
+__global__ void Top1MaskBackwardKernel(const T *__restrict__ grad_output, const T *__restrict__ mask_values,
+                                       T *__restrict__ grad_input, int64_t total_elements) {
+    int64_t idx = blockIdx.x * blockDim.x + threadIdx.x;
+    if (idx >= total_elements) {
+        return;
+    }
+    grad_input[idx] = static_cast<float>(mask_values[idx]) != 0.0f ? grad_output[idx] : T(0.0f);
+}
+
+std::shared_ptr<Tensor> Top1MaskBackward(const std::shared_ptr<Tensor> &grad_output,
+                                         const std::shared_ptr<Tensor> &mask_values) {
+    CHECK(grad_output->Dims() == mask_values->Dims());
+    CHECK(grad_output->Dtype() == mask_values->Dtype());
+    auto grad_input = std::make_shared<Tensor>(grad_output->Dims(), grad_output->Dtype(), grad_output->GetDevice());
+
+    auto device = grad_output->GetDevice();
+    const auto &stream = dynamic_cast<infini_train::core::cuda::CudaStream *>(
+                             infini_train::core::GetDeviceGuardImpl(device.type())->GetStream(device))
+                             ->cuda_stream();
+    const int64_t total_elements = grad_output->NumElements();
+    const int threads = 256;
+    const int blocks = static_cast<int>((total_elements + threads - 1) / threads);
+
+    core::cuda::DispatchCudaFunc<INFINI_ALL_FLOATING_TYPES>(
+        grad_output->Dtype(),
+        [=]<typename T>() {
+            Top1MaskBackwardKernel<T><<<blocks, threads, 0, stream>>>(
+                static_cast<const T *>(grad_output->DataPtr()), static_cast<const T *>(mask_values->DataPtr()),
+                static_cast<T *>(grad_input->DataPtr()), total_elements);
+        },
+        "CUDA Top1MaskBackward");
+
+    return grad_input;
+}
+
+} // namespace infini_train::kernels::cuda
+
+#define REGISTER_CUDA_TOP1_MASK_KERNEL(kernel_name)                                                                    \
+    REGISTER_KERNEL(infini_train::Device::DeviceType::kCUDA, kernel_name, infini_train::kernels::cuda::kernel_name)
+
+REGISTER_CUDA_TOP1_MASK_KERNEL(Top1MaskForward)
+REGISTER_CUDA_TOP1_MASK_KERNEL(Top1MaskBackward)
+
+#undef REGISTER_CUDA_TOP1_MASK_KERNEL