fix: move mla args into TransformerConfig

Chamberlain0w0 · Chamberlain0w0 · commit dd18b35eeb8f · 2026-05-29T02:36:49.000Z
diff --git a/infini_train/include/nn/modules/transformer/mla_self_attention.h b/infini_train/include/nn/modules/transformer/mla_self_attention.h
@@ -24,9 +24,6 @@ class MLASelfAttention : public infini_train::nn::CloneableModule<MLASelfAttenti
     static constexpr char kParamBiasName[] = "bias";
 
     explicit MLASelfAttention(const TransformerConfig &config);
-    MLASelfAttention(const TransformerConfig &config, int64_t q_lora_rank, int64_t kv_lora_rank,
-                     int64_t qk_nope_head_dim, int64_t qk_rope_head_dim, int64_t v_head_dim,
-                     bool q_down_proj_use_tp = false, bool kv_down_proj_use_tp = false);
 
     std::vector<std::shared_ptr<infini_train::Tensor>>
     Forward(const std::vector<std::shared_ptr<infini_train::Tensor>> &x) override;
@@ -48,9 +45,7 @@ class MLASelfAttention : public infini_train::nn::CloneableModule<MLASelfAttenti
     bool q_down_proj_use_tp_ = false;
     bool kv_down_proj_use_tp_ = false;
 
-    void SetupAttention(const TransformerConfig &config, int64_t q_lora_rank, int64_t kv_lora_rank,
-                        int64_t qk_nope_head_dim, int64_t qk_rope_head_dim, int64_t v_head_dim,
-                        bool q_down_proj_use_tp, bool kv_down_proj_use_tp);
+    void SetupAttention(const TransformerConfig &config);
 };
 
 } // namespace infini_train::nn
diff --git a/infini_train/include/nn/modules/transformer/transformer_config.h b/infini_train/include/nn/modules/transformer/transformer_config.h
@@ -53,6 +53,16 @@ struct TransformerConfig {
     float rope_theta = 500000.0f; // theta in RoPE
     bool use_scaled_rope = false; // scaled RoPE
 
+    // MLA config
+    bool multi_latent_attention = false;               // Use MLA instead of standard causal self-attention.
+    std::optional<int64_t> q_lora_rank = std::nullopt; // nullopt means direct linear_q_proj path.
+    int64_t kv_lora_rank = 0;                          // 0 falls back to n_embd in MLASelfAttention.
+    int64_t qk_nope_head_dim = 0;                      // 0 falls back to n_embd / n_head.
+    int64_t qk_rope_head_dim = 0;                      // 0 falls back to n_embd / n_head.
+    int64_t v_head_dim = 0;                            // 0 falls back to n_embd / n_head.
+    bool q_down_proj_use_tp = false;                   // Use ColumnParallelLinear for linear_q_down_proj.
+    bool kv_down_proj_use_tp = false;                  // Use ColumnParallelLinear for linear_kv_down_proj.
+
     // Normalization
     float norm_eps = 1e-5f; // epsilon in RMSNorm
 
diff --git a/infini_train/src/nn/modules/transformer/mla_self_attention.cc b/infini_train/src/nn/modules/transformer/mla_self_attention.cc
@@ -19,35 +19,9 @@
 #include "infini_train/include/tensor.h"
 
 namespace infini_train::nn {
-namespace {
-int64_t DefaultQKVHeadDim(const TransformerConfig &config) {
-    CHECK_EQ(config.n_embd % config.n_head, 0) << "n_embd must be divisible by n_head";
-    return config.n_embd / config.n_head;
-}
-
-int64_t DefaultQKRoPEHeadDim(const TransformerConfig &config) {
-    return DefaultQKVHeadDim(config);
-}
 
-int64_t DefaultQKNoPEHeadDim(const TransformerConfig &config) {
-    return DefaultQKVHeadDim(config);
-}
-} // namespace
-
-MLASelfAttention::MLASelfAttention(const TransformerConfig &config)
-    : MLASelfAttention(config,
-                       /*q_lora_rank=*/config.n_embd,
-                       /*kv_lora_rank=*/config.n_embd,
-                       /*qk_nope_head_dim=*/DefaultQKNoPEHeadDim(config),
-                       /*qk_rope_head_dim=*/DefaultQKRoPEHeadDim(config),
-                       /*v_head_dim=*/DefaultQKVHeadDim(config)) {}
-
-MLASelfAttention::MLASelfAttention(const TransformerConfig &config, int64_t q_lora_rank, int64_t kv_lora_rank,
-                                   int64_t qk_nope_head_dim, int64_t qk_rope_head_dim, int64_t v_head_dim,
-                                   bool q_down_proj_use_tp, bool kv_down_proj_use_tp)
-    : CloneableModule(kType), config_(config) {
-    SetupAttention(config, q_lora_rank, kv_lora_rank, qk_nope_head_dim, qk_rope_head_dim, v_head_dim,
-                   q_down_proj_use_tp, kv_down_proj_use_tp);
+MLASelfAttention::MLASelfAttention(const TransformerConfig &config) : CloneableModule(kType), config_(config) {
+    SetupAttention(config);
 
     if (use_q_lora_) {
         if (q_down_proj_use_tp_) {
@@ -123,15 +97,19 @@ MLASelfAttention::MLASelfAttention(const TransformerConfig &config, int64_t q_lo
                                    ->View({1, 1, config_.block_size, config_.block_size});
 }
 
-void MLASelfAttention::SetupAttention(const TransformerConfig &config, int64_t q_lora_rank, int64_t kv_lora_rank,
-                                      int64_t qk_nope_head_dim, int64_t qk_rope_head_dim, int64_t v_head_dim,
-                                      bool q_down_proj_use_tp, bool kv_down_proj_use_tp) {
+void MLASelfAttention::SetupAttention(const TransformerConfig &config) {
     auto tp_world_size = nn::parallel::global::GetTensorParallelSize();
 
     CHECK_EQ(config.n_embd % config.n_head, 0) << "n_embd must be divisible by n_head";
     CHECK_EQ(config.n_head % tp_world_size, 0) << "n_head must be divisible by TP world size";
-    CHECK(q_lora_rank == -1 || q_lora_rank > 0) << "q_lora_rank must be positive, or -1 to disable q LoRA";
-    CHECK_GT(kv_lora_rank, 0) << "kv_lora_rank must be positive";
+    CHECK(!config.q_lora_rank.has_value() || config.q_lora_rank.value() > 0) << "q_lora_rank must be positive when set";
+
+    const auto default_head_dim = config.n_embd / config.n_head;
+    const int64_t kv_lora_rank = config.kv_lora_rank > 0 ? config.kv_lora_rank : config.n_embd;
+    const int64_t qk_nope_head_dim = config.qk_nope_head_dim > 0 ? config.qk_nope_head_dim : default_head_dim;
+    const int64_t qk_rope_head_dim = config.qk_rope_head_dim > 0 ? config.qk_rope_head_dim : default_head_dim;
+    const int64_t v_head_dim = config.v_head_dim > 0 ? config.v_head_dim : default_head_dim;
+
     CHECK_GT(qk_nope_head_dim, 0) << "qk_nope_head_dim must be positive";
     CHECK_GT(qk_rope_head_dim, 0) << "qk_rope_head_dim must be positive";
     CHECK_GT(v_head_dim, 0) << "v_head_dim must be positive";
@@ -141,15 +119,15 @@ void MLASelfAttention::SetupAttention(const TransformerConfig &config, int64_t q
     n_embd_ = config.n_embd;
     local_n_head_ = n_head_ / tp_world_size;
 
-    use_q_lora_ = q_lora_rank != -1;
-    q_lora_rank_ = use_q_lora_ ? q_lora_rank : 0;
+    use_q_lora_ = config.q_lora_rank.has_value();
+    q_lora_rank_ = config.q_lora_rank.value_or(0);
     kv_lora_rank_ = kv_lora_rank;
     qk_nope_head_dim_ = qk_nope_head_dim;
     qk_rope_head_dim_ = qk_rope_head_dim;
     qk_head_dim_ = qk_nope_head_dim_ + qk_rope_head_dim_;
     v_head_dim_ = v_head_dim;
-    q_down_proj_use_tp_ = q_down_proj_use_tp;
-    kv_down_proj_use_tp_ = kv_down_proj_use_tp;
+    q_down_proj_use_tp_ = config.q_down_proj_use_tp;
+    kv_down_proj_use_tp_ = config.kv_down_proj_use_tp;
 }
 
 std::vector<std::shared_ptr<infini_train::Tensor>>
@@ -173,7 +151,7 @@ MLASelfAttention::Forward(const std::vector<std::shared_ptr<infini_train::Tensor
 
     // ----------- Q PATH -----------
     // Q path, align with Megatron:
-    //     - q_lora_rank == -1 -> linear_q_proj directly;
+    //     - q_lora_rank == nullopt -> linear_q_proj directly;
     //     - otherwise linear_q_down_proj -> q_layernorm -> linear_q_up_proj.
     std::shared_ptr<Tensor> q;
     if (use_q_lora_) {
@@ -224,8 +202,8 @@ MLASelfAttention::Forward(const std::vector<std::shared_ptr<infini_train::Tensor
     // compressed_kv: (B, T_local, R_kv), k_pos_emb: (B, T_local, D_rope)
     auto compressed_kv = compressed_kv_with_pe->Slice(-1, 0, kv_lora_rank_);
     auto k_pos_emb = compressed_kv_with_pe->Slice(-1, kv_lora_rank_, kv_lora_rank_ + qk_rope_head_dim_)->Contiguous();
-    const bool k_pos_emb_has_full_sequence = kv_down_proj_use_tp_ && kv_down_proj_output_is_sharded
-                                        && sequence_parallel_enabled;
+    const bool k_pos_emb_has_full_sequence
+        = kv_down_proj_use_tp_ && kv_down_proj_output_is_sharded && sequence_parallel_enabled;
     if (k_pos_emb_has_full_sequence) {
         // k_pos_emb already has full T; keep only compressed_kv sequence-sharded for linear_kv_up_proj.
         // compressed_kv: (B, T, R_kv) -> (B, T_local, R_kv)
@@ -285,7 +263,7 @@ MLASelfAttention::Forward(const std::vector<std::shared_ptr<infini_train::Tensor
     y = y->Transpose(1, 2)->Contiguous()->View({B, T, local_n_head_ * v_head_dim_});
     // linear_proj: (B, T, H_local * D_v) -> (B, T, C)
     y = (*modules_[kLinearProjLayerName])({y})[0];
-    
+
     return {y};
 }
 
diff --git a/infini_train/src/nn/modules/transformer/transformer.cc b/infini_train/src/nn/modules/transformer/transformer.cc
@@ -14,6 +14,7 @@
 #include "infini_train/include/nn/modules/normalization.h"
 #include "infini_train/include/nn/modules/sparse.h"
 #include "infini_train/include/nn/modules/transformer/causal_self_attention.h"
+#include "infini_train/include/nn/modules/transformer/mla_self_attention.h"
 #include "infini_train/include/nn/modules/transformer/mlp.h"
 #include "infini_train/include/nn/modules/transformer/utils.h"
 #include "infini_train/include/nn/parallel/global.h"
@@ -28,8 +29,8 @@ TransformerFirstStage::TransformerFirstStage(const TransformerConfig &config)
     modules_[kWTELayerName] = std::make_shared<parallel::VocabParallelEmbedding>(
         config_.vocab_size, config_.n_embd, parallel::global::GetSequenceParallelEnabled());
 
-    // LLaMA3 use RoPE, so they don't need position embedding
-    if (config_.activation_type == MLPType::kGELU) {
+    // RoPE-based models do not use absolute position embedding.
+    if (config_.attention_type == AttentionType::kStandard) {
         modules_[kWPELayerName] = std::make_shared<Embedding>(config_.block_size, config_.n_embd);
     }
 }
@@ -85,7 +86,11 @@ TransformerLayer::TransformerLayer(const nn::TransformerConfig &config) : Clonea
         LOG(FATAL) << "Unsupported norm type";
     }
 
-    modules_[kAttnLayerName] = std::make_shared<CausalSelfAttention>(config);
+    if (config.multi_latent_attention) {
+        modules_[kAttnLayerName] = std::make_shared<MLASelfAttention>(config);
+    } else {
+        modules_[kAttnLayerName] = std::make_shared<CausalSelfAttention>(config);
+    }
     modules_[kMlpLayerName] = std::make_shared<MLP>(config);
 }
 
@@ -135,8 +140,10 @@ std::vector<std::shared_ptr<Tensor>> TransformerChunk::Forward(const std::vector
 
         // Init freqs_cis on device only once
         if (buffers_[kFreqsCisName] == nullptr) {
-            int64_t head_dim = config_.n_embd / config_.n_head;
-            buffers_[kFreqsCisName] = PrecomputeFreqsCis(head_dim, config_.block_size * 2, config_.rope_theta,
+            int64_t rope_head_dim = config_.multi_latent_attention && config_.qk_rope_head_dim > 0
+                                      ? config_.qk_rope_head_dim
+                                      : config_.n_embd / config_.n_head;
+            buffers_[kFreqsCisName] = PrecomputeFreqsCis(rope_head_dim, config_.block_size * 2, config_.rope_theta,
                                                          config_.use_scaled_rope, device);
         }
 
diff --git a/tests/transformer/test_transformer_architecture.cc b/tests/transformer/test_transformer_architecture.cc
@@ -1,5 +1,6 @@
 #include <cmath>
 #include <memory>
+#include <optional>
 #include <vector>
 
 #include "gtest/gtest.h"
@@ -121,14 +122,14 @@ TEST_P(TransformerModuleTest, MLAAttention) {
     config.block_size = 16;
     config.attention_type = nn::AttentionType::kStandard;
     config.add_bias_linear = true;
-
-    auto attn = std::make_shared<nn::MLASelfAttention>(
-        config,
-        /*q_lora_rank=*/32,
-        /*kv_lora_rank=*/32,
-        /*qk_nope_head_dim=*/8,
-        /*qk_rope_head_dim=*/8,
-        /*v_head_dim=*/16);
+    config.multi_latent_attention = true;
+    config.q_lora_rank = 32;
+    config.kv_lora_rank = 32;
+    config.qk_nope_head_dim = 8;
+    config.qk_rope_head_dim = 8;
+    config.v_head_dim = 16;
+
+    auto attn = std::make_shared<nn::MLASelfAttention>(config);
     attn->To(GetDevice());
     EXPECT_FALSE(attn->Parameters().empty());
     EXPECT_EQ(attn->module(nn::MLASelfAttention::kLinearQDownProjLayerName).type(), nn::Linear::kType);
@@ -138,15 +139,10 @@ TEST_P(TransformerModuleTest, MLAAttention) {
     auto output = (*attn)({input});
     EXPECT_EQ(output[0]->Dims(), input->Dims());
 
-    auto tp_down_attn = std::make_shared<nn::MLASelfAttention>(
-        config,
-        /*q_lora_rank=*/32,
-        /*kv_lora_rank=*/32,
-        /*qk_nope_head_dim=*/8,
-        /*qk_rope_head_dim=*/8,
-        /*v_head_dim=*/16,
-        /*q_down_proj_use_tp=*/true,
-        /*kv_down_proj_use_tp=*/true);
+    auto tp_down_config = config;
+    tp_down_config.q_down_proj_use_tp = true;
+    tp_down_config.kv_down_proj_use_tp = true;
+    auto tp_down_attn = std::make_shared<nn::MLASelfAttention>(tp_down_config);
     tp_down_attn->To(GetDevice());
     EXPECT_EQ(tp_down_attn->module(nn::MLASelfAttention::kLinearQDownProjLayerName).type(),
               nn::parallel::ColumnParallelLinear::kType);
@@ -155,13 +151,9 @@ TEST_P(TransformerModuleTest, MLAAttention) {
     output = (*tp_down_attn)({input});
     EXPECT_EQ(output[0]->Dims(), input->Dims());
 
-    auto direct_q_attn = std::make_shared<nn::MLASelfAttention>(
-        config,
-        /*q_lora_rank=*/-1,
-        /*kv_lora_rank=*/32,
-        /*qk_nope_head_dim=*/8,
-        /*qk_rope_head_dim=*/8,
-        /*v_head_dim=*/16);
+    auto direct_q_config = config;
+    direct_q_config.q_lora_rank = std::nullopt;
+    auto direct_q_attn = std::make_shared<nn::MLASelfAttention>(direct_q_config);
     direct_q_attn->To(GetDevice());
     EXPECT_EQ(direct_q_attn->module(nn::MLASelfAttention::kLinearQProjLayerName).type(),
               nn::parallel::ColumnParallelLinear::kType);