InfiniTensor
diff --git a/‎example/gpt2/main.cc‎
Lines changed: 9 additions & 9 deletions b/‎example/gpt2/main.cc‎
Lines changed: 9 additions & 9 deletions
diff --git a/‎example/gpt2/net.cc‎
Lines changed: 35 additions & 44 deletions b/‎example/gpt2/net.cc‎
Lines changed: 35 additions & 44 deletions
diff --git a/‎example/llama3/main.cc‎
Lines changed: 3 additions & 3 deletions b/‎example/llama3/main.cc‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎example/llama3/net.cc‎
Lines changed: 3 additions & 8 deletions b/‎example/llama3/net.cc‎
Lines changed: 3 additions & 8 deletions
@@ -107,11 +107,11 @@ const std::unordered_map<std::string, nn::TransformerConfig> kModelToConfigs = {
     {"d36", {.block_size = 1024, .vocab_size = 50257, .n_layer = 36, .n_head = 20, .n_embd = 1280}},
     {"d48", {.block_size = 1024, .vocab_size = 50257, .n_layer = 48, .n_head = 25, .n_embd = 1600}},
 };
-const std::unordered_map<std::string, GPT2::ModelType> kStrToModelType = {
-    {"gpt2", GPT2::ModelType::kGPT2},
-    {"gpt2-medium", GPT2::ModelType::kGPT2Medium},
-    {"gpt2-large", GPT2::ModelType::kGPT2Large},
-    {"gpt2-xl", GPT2::ModelType::kGPT2XL},
+const std::unordered_map<std::string, DecoderOnlyTransformer::ModelType> kStrToModelType = {
+    {"gpt2", DecoderOnlyTransformer::ModelType::kGPT2},
+    {"gpt2-medium", DecoderOnlyTransformer::ModelType::kGPT2Medium},
+    {"gpt2-large", DecoderOnlyTransformer::ModelType::kGPT2Large},
+    {"gpt2-xl", DecoderOnlyTransformer::ModelType::kGPT2XL},
 };
 
 } // namespace
@@ -192,20 +192,20 @@ void Train(const nn::parallel::Rank &rank) {
     std::shared_ptr<nn::Module> model = nullptr;
 
     if (!FLAGS_llmc_filepath.empty()) {
-        model = GPT2::FromLLMC(FLAGS_llmc_filepath);
+        model = DecoderOnlyTransformer::FromLLMC_GPT2(FLAGS_llmc_filepath);
     } else if (kModelToConfigs.count(FLAGS_model)) {
         model_config = kModelToConfigs.at(FLAGS_model);
-        model = std::make_shared<GPT2>(model_config);
+        model = std::make_shared<DecoderOnlyTransformer>(model_config);
     } else {
-        model = GPT2::FromPretrained(kStrToModelType.at(FLAGS_model));
+        model = DecoderOnlyTransformer::FromPretrained(kStrToModelType.at(FLAGS_model));
     }
 
     model->To(device);
 
     utils::PrecisionChecker::BuildNameMap(model.get());
 
     // Get chunk size before wrapping with LoRA (needed for PipelineParallel)
-    auto gpt2_model = std::dynamic_pointer_cast<GPT2>(model);
+    auto gpt2_model = std::dynamic_pointer_cast<DecoderOnlyTransformer>(model);
     CHECK(gpt2_model) << "GPT2 example expects GPT2 model.";
 
     // Apply LoRA using GetLoRAModel (in-place injection)
 
@@ -32,12 +32,6 @@ constexpr int kRandomSeed = 42;
 static std::mt19937 gen{kRandomSeed};
 } // namespace
 
-std::shared_ptr<GPT2> GPT2::FromPretrained(ModelType model_type) {
-    // TODO(dcj): implement this later
-    LOG(FATAL) << "Not implemented yet";
-    return nullptr;
-}
-
 namespace {
 constexpr int32_t kHeaderMagic = 20240326;
 constexpr int32_t kHeaderFP32Version = 3;
@@ -58,7 +52,7 @@ std::tuple<int32_t, infini_train::DataType> DetermineAndCheckVersion(const std::
 }
 } // namespace
 
-std::shared_ptr<GPT2> GPT2::FromLLMC(const std::string &filepath) {
+std::shared_ptr<DecoderOnlyTransformer> DecoderOnlyTransformer::FromLLMC_GPT2(const std::string &filepath) {
     if (!std::filesystem::exists(filepath)) {
         LOG(FATAL) << "File not found: " << filepath;
     }
@@ -89,7 +83,7 @@ std::shared_ptr<GPT2> GPT2::FromLLMC(const std::string &filepath) {
     gpt2_config.n_layer = n_layer;
     gpt2_config.n_head = n_head;
     gpt2_config.n_embd = n_embd;
-    auto local_gpt2 = std::make_shared<GPT2>(gpt2_config);
+    auto local_gpt2 = std::make_shared<DecoderOnlyTransformer>(gpt2_config);
 
     LOG(INFO) << "magic: " << magic << " version: " << version << " block_size: " << block_size
               << " vocab_size: " << vocab_size << " n_layer: " << n_layer << " n_head: " << n_head
@@ -135,7 +129,7 @@ std::shared_ptr<GPT2> GPT2::FromLLMC(const std::string &filepath) {
     // local: (vocab_size_per_partition, n_embd)
     if (is_first_stage) {
         auto &transformer_wte_weight
-            = state_dict[std::format("{}.{}.{}", GPT2::kTransformerModelName, nn::TransformerFirstStage::kWTELayerName,
+            = state_dict[std::format("{}.{}.{}", kTransformerModelName, nn::TransformerFirstStage::kWTELayerName,
                                      nn::parallel::VocabParallelEmbedding::kParamWeightName)];
         ReadMatrixRowShardFloat(ifs, static_cast<float *>(transformer_wte_weight->DataPtr()), model_vocab_size, n_embd,
                                 v_start, vpp);
@@ -157,7 +151,7 @@ std::shared_ptr<GPT2> GPT2::FromLLMC(const std::string &filepath) {
     if (is_first_stage) {
         // transformer.wpe.weight
         auto &transformer_wpe_weight
-            = state_dict[std::format("{}.{}.{}", GPT2::kTransformerModelName, nn::TransformerFirstStage::kWPELayerName,
+            = state_dict[std::format("{}.{}.{}", kTransformerModelName, nn::TransformerFirstStage::kWPELayerName,
                                      nn::Embedding::kParamWeightName)];
         ReadMatrixAllFloat(ifs, static_cast<float *>(transformer_wpe_weight->DataPtr()), block_size, n_embd);
     } else {
@@ -170,9 +164,9 @@ std::shared_ptr<GPT2> GPT2::FromLLMC(const std::string &filepath) {
     for (int idx = 0; idx < n_layer; ++idx) {
         if (owned_layers[idx]) {
             auto &tensor
-                = state_dict[std::format("{}.{}.{}.{}.{}", GPT2::kTransformerModelName,
-                                         nn::TransformerChunk::kHLayerName, std::to_string(local_layer_index),
-                                         nn::TransformerLayer::kLn1LayerName, nn::LayerNorm::kParamWeightName)];
+                = state_dict[std::format("{}.{}.{}.{}.{}", kTransformerModelName, nn::TransformerChunk::kHLayerName,
+                                         std::to_string(local_layer_index), nn::TransformerLayer::kLn1LayerName,
+                                         nn::LayerNorm::kParamWeightName)];
             ReadVectorAllFloat(ifs, static_cast<float *>(tensor->DataPtr()), n_embd);
             ++local_layer_index;
         } else {
@@ -185,7 +179,7 @@ std::shared_ptr<GPT2> GPT2::FromLLMC(const std::string &filepath) {
     local_layer_index = 0;
     for (int idx = 0; idx < n_layer; ++idx) {
         if (owned_layers[idx]) {
-            auto &tensor = state_dict[std::format("{}.{}.{}.{}.{}", GPT2::kTransformerModelName,
+            auto &tensor = state_dict[std::format("{}.{}.{}.{}.{}", kTransformerModelName,
                                                   nn::TransformerChunk::kHLayerName, std::to_string(local_layer_index),
                                                   nn::TransformerLayer::kLn1LayerName, nn::LayerNorm::kParamBiasName)];
             ReadVectorAllFloat(ifs, static_cast<float *>(tensor->DataPtr()), n_embd);
@@ -201,7 +195,7 @@ std::shared_ptr<GPT2> GPT2::FromLLMC(const std::string &filepath) {
     for (int idx = 0; idx < n_layer; ++idx) {
         if (owned_layers[idx]) {
             auto &tensor = state_dict[std::format(
-                "{}.{}.{}.{}.{}.{}", GPT2::kTransformerModelName, nn::TransformerChunk::kHLayerName,
+                "{}.{}.{}.{}.{}.{}", kTransformerModelName, nn::TransformerChunk::kHLayerName,
                 std::to_string(local_layer_index), nn::TransformerLayer::kAttnLayerName,
                 nn::CausalSelfAttention::kCAttnLayerName, nn::parallel::ColumnParallelLinear::kParamWeightName)];
             // NOTE(zbl): In the .bin model file, Q/K/V is concated along last dim,
@@ -244,7 +238,7 @@ std::shared_ptr<GPT2> GPT2::FromLLMC(const std::string &filepath) {
     for (int idx = 0; idx < n_layer; ++idx) {
         if (owned_layers[idx]) {
             auto &tensor = state_dict[std::format(
-                "{}.{}.{}.{}.{}.{}", GPT2::kTransformerModelName, nn::TransformerChunk::kHLayerName,
+                "{}.{}.{}.{}.{}.{}", kTransformerModelName, nn::TransformerChunk::kHLayerName,
                 std::to_string(local_layer_index), nn::TransformerLayer::kAttnLayerName,
                 nn::CausalSelfAttention::kCAttnLayerName, nn::parallel::ColumnParallelLinear::kParamBiasName)];
             // NOTE(zbl): Same as c_attn.weight, the bias for Q/K/V is concated
@@ -286,7 +280,7 @@ std::shared_ptr<GPT2> GPT2::FromLLMC(const std::string &filepath) {
     for (int idx = 0; idx < n_layer; ++idx) {
         if (owned_layers[idx]) {
             auto &tensor = state_dict[std::format(
-                "{}.{}.{}.{}.{}.{}", GPT2::kTransformerModelName, nn::TransformerChunk::kHLayerName,
+                "{}.{}.{}.{}.{}.{}", kTransformerModelName, nn::TransformerChunk::kHLayerName,
                 std::to_string(local_layer_index), nn::TransformerLayer::kAttnLayerName,
                 nn::CausalSelfAttention::kCProjLayerName, nn::parallel::RowParallelLinear::kParamWeightName)];
             ReadMatrixColShardFloat(ifs, static_cast<float *>(tensor->DataPtr()), n_embd, n_embd, tp_rank * in_pp,
@@ -303,7 +297,7 @@ std::shared_ptr<GPT2> GPT2::FromLLMC(const std::string &filepath) {
     for (int idx = 0; idx < n_layer; ++idx) {
         if (owned_layers[idx]) {
             auto &tensor = state_dict[std::format(
-                "{}.{}.{}.{}.{}.{}", GPT2::kTransformerModelName, nn::TransformerChunk::kHLayerName,
+                "{}.{}.{}.{}.{}.{}", kTransformerModelName, nn::TransformerChunk::kHLayerName,
                 std::to_string(local_layer_index), nn::TransformerLayer::kAttnLayerName,
                 nn::CausalSelfAttention::kCProjLayerName, nn::parallel::RowParallelLinear::kParamBiasName)];
             ReadVectorAllFloat(ifs, static_cast<float *>(tensor->DataPtr()), n_embd);
@@ -319,9 +313,9 @@ std::shared_ptr<GPT2> GPT2::FromLLMC(const std::string &filepath) {
     for (int idx = 0; idx < n_layer; ++idx) {
         if (owned_layers[idx]) {
             auto &tensor
-                = state_dict[std::format("{}.{}.{}.{}.{}", GPT2::kTransformerModelName,
-                                         nn::TransformerChunk::kHLayerName, std::to_string(local_layer_index),
-                                         nn::TransformerLayer::kLn2LayerName, nn::LayerNorm::kParamWeightName)];
+                = state_dict[std::format("{}.{}.{}.{}.{}", kTransformerModelName, nn::TransformerChunk::kHLayerName,
+                                         std::to_string(local_layer_index), nn::TransformerLayer::kLn2LayerName,
+                                         nn::LayerNorm::kParamWeightName)];
             ReadVectorAllFloat(ifs, static_cast<float *>(tensor->DataPtr()), n_embd);
             ++local_layer_index;
         } else {
@@ -334,7 +328,7 @@ std::shared_ptr<GPT2> GPT2::FromLLMC(const std::string &filepath) {
     local_layer_index = 0;
     for (int idx = 0; idx < n_layer; ++idx) {
         if (owned_layers[idx]) {
-            auto &tensor = state_dict[std::format("{}.{}.{}.{}.{}", GPT2::kTransformerModelName,
+            auto &tensor = state_dict[std::format("{}.{}.{}.{}.{}", kTransformerModelName,
                                                   nn::TransformerChunk::kHLayerName, std::to_string(local_layer_index),
                                                   nn::TransformerLayer::kLn2LayerName, nn::LayerNorm::kParamBiasName)];
             ReadVectorAllFloat(ifs, static_cast<float *>(tensor->DataPtr()), n_embd);
@@ -349,10 +343,10 @@ std::shared_ptr<GPT2> GPT2::FromLLMC(const std::string &filepath) {
     local_layer_index = 0;
     for (int idx = 0; idx < n_layer; ++idx) {
         if (owned_layers[idx]) {
-            auto &tensor = state_dict[std::format("{}.{}.{}.{}.{}.{}", GPT2::kTransformerModelName,
-                                                  nn::TransformerChunk::kHLayerName, std::to_string(local_layer_index),
-                                                  nn::TransformerLayer::kMlpLayerName, nn::MLP::kCFcLayerName,
-                                                  nn::parallel::ColumnParallelLinear::kParamWeightName)];
+            auto &tensor
+                = state_dict[std::format("{}.{}.{}.{}.{}.{}", kTransformerModelName, nn::TransformerChunk::kHLayerName,
+                                         std::to_string(local_layer_index), nn::TransformerLayer::kMlpLayerName,
+                                         nn::MLP::kCFcLayerName, nn::parallel::ColumnParallelLinear::kParamWeightName)];
             ReadMatrixRowShardFloat(ifs, static_cast<float *>(tensor->DataPtr()), fc_out, n_embd, fc_start, fc_pp);
             ++local_layer_index;
         } else {
@@ -365,10 +359,10 @@ std::shared_ptr<GPT2> GPT2::FromLLMC(const std::string &filepath) {
     local_layer_index = 0;
     for (int idx = 0; idx < n_layer; ++idx) {
         if (owned_layers[idx]) {
-            auto &tensor = state_dict[std::format("{}.{}.{}.{}.{}.{}", GPT2::kTransformerModelName,
-                                                  nn::TransformerChunk::kHLayerName, std::to_string(local_layer_index),
-                                                  nn::TransformerLayer::kMlpLayerName, nn::MLP::kCFcLayerName,
-                                                  nn::parallel::ColumnParallelLinear::kParamBiasName)];
+            auto &tensor
+                = state_dict[std::format("{}.{}.{}.{}.{}.{}", kTransformerModelName, nn::TransformerChunk::kHLayerName,
+                                         std::to_string(local_layer_index), nn::TransformerLayer::kMlpLayerName,
+                                         nn::MLP::kCFcLayerName, nn::parallel::ColumnParallelLinear::kParamBiasName)];
             ReadVectorShardFloat(ifs, static_cast<float *>(tensor->DataPtr()), fc_out, fc_start, fc_pp);
             ++local_layer_index;
         } else {
@@ -381,10 +375,10 @@ std::shared_ptr<GPT2> GPT2::FromLLMC(const std::string &filepath) {
     local_layer_index = 0;
     for (int idx = 0; idx < n_layer; ++idx) {
         if (owned_layers[idx]) {
-            auto &tensor = state_dict[std::format("{}.{}.{}.{}.{}.{}", GPT2::kTransformerModelName,
-                                                  nn::TransformerChunk::kHLayerName, std::to_string(local_layer_index),
-                                                  nn::TransformerLayer::kMlpLayerName, nn::MLP::kCProjLayerName,
-                                                  nn::parallel::RowParallelLinear::kParamWeightName)];
+            auto &tensor
+                = state_dict[std::format("{}.{}.{}.{}.{}.{}", kTransformerModelName, nn::TransformerChunk::kHLayerName,
+                                         std::to_string(local_layer_index), nn::TransformerLayer::kMlpLayerName,
+                                         nn::MLP::kCProjLayerName, nn::parallel::RowParallelLinear::kParamWeightName)];
             ReadMatrixColShardFloat(ifs, static_cast<float *>(tensor->DataPtr()), n_embd, fc_out, tp_rank * in4_pp,
                                     in4_pp);
             ++local_layer_index;
@@ -398,10 +392,10 @@ std::shared_ptr<GPT2> GPT2::FromLLMC(const std::string &filepath) {
     local_layer_index = 0;
     for (int idx = 0; idx < n_layer; ++idx) {
         if (owned_layers[idx]) {
-            auto &tensor = state_dict[std::format("{}.{}.{}.{}.{}.{}", GPT2::kTransformerModelName,
-                                                  nn::TransformerChunk::kHLayerName, std::to_string(local_layer_index),
-                                                  nn::TransformerLayer::kMlpLayerName, nn::MLP::kCProjLayerName,
-                                                  nn::parallel::RowParallelLinear::kParamBiasName)];
+            auto &tensor
+                = state_dict[std::format("{}.{}.{}.{}.{}.{}", kTransformerModelName, nn::TransformerChunk::kHLayerName,
+                                         std::to_string(local_layer_index), nn::TransformerLayer::kMlpLayerName,
+                                         nn::MLP::kCProjLayerName, nn::parallel::RowParallelLinear::kParamBiasName)];
             ReadVectorAllFloat(ifs, static_cast<float *>(tensor->DataPtr()), n_embd);
             ++local_layer_index;
         } else {
@@ -413,13 +407,12 @@ std::shared_ptr<GPT2> GPT2::FromLLMC(const std::string &filepath) {
     if (is_last_stage) {
         // transformer.ln_f.weight
         auto &transformer_ln_f_weight
-            = state_dict[std::format("{}.{}.{}", GPT2::kTransformerModelName, nn::TransformerLastStage::kLnFLayerName,
+            = state_dict[std::format("{}.{}.{}", kTransformerModelName, nn::TransformerLastStage::kLnFLayerName,
                                      nn::LayerNorm::kParamWeightName)];
         ReadVectorAllFloat(ifs, static_cast<float *>(transformer_ln_f_weight->DataPtr()), n_embd);
         // transformer.ln_f.bias
-        auto &transformer_ln_f_bias
-            = state_dict[std::format("{}.{}.{}", GPT2::kTransformerModelName, nn::TransformerLastStage::kLnFLayerName,
-                                     nn::LayerNorm::kParamBiasName)];
+        auto &transformer_ln_f_bias = state_dict[std::format(
+            "{}.{}.{}", kTransformerModelName, nn::TransformerLastStage::kLnFLayerName, nn::LayerNorm::kParamBiasName)];
         ReadVectorAllFloat(ifs, static_cast<float *>(transformer_ln_f_bias->DataPtr()), n_embd);
     } else {
         size_t ln_f_w_bytes = n_embd * sizeof(float);
@@ -428,5 +421,3 @@ std::shared_ptr<GPT2> GPT2::FromLLMC(const std::string &filepath) {
     }
     return local_gpt2;
 }
-
-int GPT2::GetChunkSize() const { return stage_info_.layer_ranges_per_chunk.size(); }
@@ -171,9 +171,9 @@ void Train(const nn::parallel::Rank &rank) {
     nn::TransformerConfig model_config = nn::TransformerConfig::LLaMA3();
     std::shared_ptr<nn::Module> model = nullptr;
     if (!FLAGS_llmc_filepath.empty()) {
-        model = LLaMA3::FromLLMC(FLAGS_llmc_filepath);
+        model = DecoderOnlyTransformer::FromLLMC_LLaMA3(FLAGS_llmc_filepath);
     } else {
-        model = std::make_shared<LLaMA3>(model_config);
+        model = std::make_shared<DecoderOnlyTransformer>(model_config);
     }
 
     model->To(device);
@@ -220,7 +220,7 @@ void Train(const nn::parallel::Rank &rank) {
 
         model = std::make_shared<nn::parallel::PipelineParallel>(
             model, pp_world_size, num_micro_batches, shapes, pp_rank, device,
-            std::dynamic_pointer_cast<LLaMA3>(model)->GetChunkSize());
+            std::dynamic_pointer_cast<DecoderOnlyTransformer>(model)->GetChunkSize());
         if (ddp_world_size > 1) {
             auto ddp_config
                 = DistributedDataParallelConfig{.use_distributed_optimizer = FLAGS_use_distributed_optimizer};
 
@@ -18,6 +18,7 @@
 #include "infini_train/include/device.h"
 #include "infini_train/include/nn/modules/causal_self_attention.h"
 #include "infini_train/include/nn/modules/mlp.h"
+#include "infini_train/include/nn/modules/normalization.h"
 #include "infini_train/include/nn/modules/transformer.h"
 #include "infini_train/include/nn/parallel/tensor_parallel.h"
 
@@ -31,18 +32,12 @@ constexpr int kRandomSeed = 42;
 static std::mt19937 gen{kRandomSeed};
 } // namespace
 
-std::shared_ptr<LLaMA3> LLaMA3::FromPretrained(ModelType model_type) {
-    // TODO(zbl): implement this later
-    LOG(FATAL) << "Not implemented yet";
-    return nullptr;
-}
-
 namespace {
 constexpr int32_t kLLaMA3Magic = 20240803;
 constexpr int32_t kLLaMA3FP32Version = 3;
 } // namespace
 
-std::shared_ptr<LLaMA3> LLaMA3::FromLLMC(const std::string &filepath) {
+std::shared_ptr<DecoderOnlyTransformer> DecoderOnlyTransformer::FromLLMC_LLaMA3(const std::string &filepath) {
     if (!std::filesystem::exists(filepath)) {
         LOG(FATAL) << "File not found: " << filepath;
     }
@@ -83,7 +78,7 @@ std::shared_ptr<LLaMA3> LLaMA3::FromLLMC(const std::string &filepath) {
     llama3_config.use_scaled_rope = static_cast<bool>(use_scaled_rope);
     llama3_config.norm_eps = norm_eps;
     llama3_config.max_gen_batch_size = max_gen_bs;
-    auto llama3 = std::make_shared<LLaMA3>(llama3_config);
+    auto llama3 = std::make_shared<DecoderOnlyTransformer>(llama3_config);
 
     // ========== pp_size：num_stages; vpp_size: num_chunks_per_stage ==========
     int pp_size = nn::parallel::global::GetPipelineParallelSize();