InfiniTensor
diff --git a/‎example/gpt2/config.h‎
Lines changed: 25 additions & 0 deletions b/‎example/gpt2/config.h‎
Lines changed: 25 additions & 0 deletions
diff --git a/‎example/gpt2/main.cc‎
Lines changed: 2 additions & 2 deletions b/‎example/gpt2/main.cc‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎example/gpt2/net.cc‎
Lines changed: 3 additions & 2 deletions b/‎example/gpt2/net.cc‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎example/llama3/config.h‎
Lines changed: 24 additions & 0 deletions b/‎example/llama3/config.h‎
Lines changed: 24 additions & 0 deletions
diff --git a/‎example/llama3/main.cc‎
Lines changed: 2 additions & 2 deletions b/‎example/llama3/main.cc‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎example/llama3/net.cc‎
Lines changed: 3 additions & 5 deletions b/‎example/llama3/net.cc‎
Lines changed: 3 additions & 5 deletions
diff --git a/‎infini_train/include/core/models/decode_only_transformer/layer_specs.h‎
Lines changed: 2 additions & 4 deletions b/‎infini_train/include/core/models/decode_only_transformer/layer_specs.h‎
Lines changed: 2 additions & 4 deletions
diff --git a/‎infini_train/include/core/models/decode_only_transformer/model.h‎
Lines changed: 4 additions & 8 deletions b/‎infini_train/include/core/models/decode_only_transformer/model.h‎
Lines changed: 4 additions & 8 deletions
diff --git a/‎infini_train/include/core/transformer/transformer_builders.h‎
Lines changed: 9 additions & 4 deletions b/‎infini_train/include/core/transformer/transformer_builders.h‎
Lines changed: 9 additions & 4 deletions
diff --git a/‎infini_train/include/core/transformer/transformer_config.h‎
Lines changed: 13 additions & 48 deletions b/‎infini_train/include/core/transformer/transformer_config.h‎
Lines changed: 13 additions & 48 deletions
@@ -0,0 +1,25 @@
+#pragma once
+
+#include "infini_train/include/core/transformer/transformer_config.h"
+
+namespace infini_train::nn::gpt2 {
+inline nn::TransformerConfig GPT2Config() {
+    return {.model_type = ModelType::kGPT2,
+            .block_size = 1024,
+            .vocab_size = 50304,
+            .original_vocab_size = 50257,
+            .n_layer = 12,
+            .n_head = 12,
+            .n_kv_head = 12,
+            .n_embd = 768,
+            .attention_type = nn::AttentionType::kStandard,
+            .activation_type = nn::MLPType::kGELU,
+            .norm_type = nn::NormType::kLayerNorm,
+            .use_bias = true,
+            .tie_weights = true,
+            .ffn_expansion_ratio = 4.0f,
+            .ffn_dim_multiplier = std::nullopt,
+            .multiple_of = 1};
+}
+
+} // namespace infini_train::nn::gpt2
@@ -12,7 +12,6 @@
 #include "infini_train/include/autocast.h"
 #include "infini_train/include/core/models/decode_only_transformer/model.h"
 #include "infini_train/include/core/runtime/device_guard.h"
-#include "infini_train/include/core/transformer/transformer_config.h"
 #include "infini_train/include/dataloader.h"
 #include "infini_train/include/device.h"
 #include "infini_train/include/nn/lora/lora_utils.h"
@@ -37,6 +36,7 @@
 
 #include "example/common/tiny_shakespeare_dataset.h"
 #include "example/common/tokenizer.h"
+#include "example/gpt2/config.h"
 
 // I/O
 DEFINE_string(input_bin, "", "input .bin to train on");
@@ -188,7 +188,7 @@ void Train(const nn::parallel::Rank &rank) {
     // ManualSeed(42);
 
     // init the model, either from scratch or from OpenAI pretrained checkpoint
-    nn::TransformerConfig model_config = nn::TransformerConfig::GPT2();
+    nn::TransformerConfig model_config = nn::gpt2::GPT2Config();
     std::shared_ptr<nn::Module> model = nullptr;
 
     if (!FLAGS_llmc_filepath.empty()) {
 
@@ -11,8 +11,8 @@
 #include "glog/logging.h"
 
 #include "example/common/utils.h"
+#include "example/gpt2/config.h"
 #include "infini_train/include/core/models/decode_only_transformer/model.h"
-#include "infini_train/include/core/transformer/transformer_config.h"
 #include "infini_train/include/nn/modules/causal_self_attention.h"
 #include "infini_train/include/nn/modules/mlp.h"
 #include "infini_train/include/nn/modules/normalization.h"
@@ -21,6 +21,7 @@
 #include "infini_train/include/nn/parallel/global.h"
 #include "infini_train/include/nn/parallel/pp/pipeline_parallel.h"
 #include "infini_train/include/nn/parallel/tensor_parallel.h"
+#include "infini_train/include/tensor.h"
 
 using namespace infini_train;
 namespace nn = infini_train::nn;
@@ -76,7 +77,7 @@ std::shared_ptr<DecoderOnlyTransformer> DecoderOnlyTransformer::FromLLMC_GPT2(co
     // NOTE(zbl): vocab_size needs to be padded to multiple of TP size
     const auto model_vocab_size = tp_size > 1 ? padded_vocab_size : vocab_size;
 
-    nn::TransformerConfig gpt2_config = nn::TransformerConfig::GPT2();
+    nn::TransformerConfig gpt2_config = nn::gpt2::GPT2Config();
     gpt2_config.block_size = block_size;
     gpt2_config.vocab_size = model_vocab_size;
     gpt2_config.original_vocab_size = vocab_size;
 
@@ -0,0 +1,24 @@
+#pragma once
+
+#include "infini_train/include/core/transformer/transformer_config.h"
+
+namespace infini_train::nn::llama3 {
+inline nn::TransformerConfig LLaMA3Config() {
+    return {.model_type = ModelType::kLLaMA3,
+            .block_size = 8192,
+            .vocab_size = 128256,
+            .original_vocab_size = 128256,
+            .n_layer = 16,
+            .n_head = 32,
+            .n_kv_head = 8,
+            .n_embd = 2048,
+            .attention_type = nn::AttentionType::kRoPE,
+            .activation_type = nn::MLPType::kSwiGLU,
+            .norm_type = nn::NormType::kRMSNorm,
+            .use_bias = false,
+            .tie_weights = false,
+            .ffn_expansion_ratio = 4.0f,
+            .ffn_dim_multiplier = 1.5f,
+            .multiple_of = 256};
+}
+} // namespace infini_train::nn::llama3
@@ -10,7 +10,6 @@
 #include "infini_train/include/autocast.h"
 #include "infini_train/include/core/models/decode_only_transformer/model.h"
 #include "infini_train/include/core/runtime/device_guard.h"
-#include "infini_train/include/core/transformer/transformer_config.h"
 #include "infini_train/include/dataloader.h"
 #include "infini_train/include/device.h"
 #include "infini_train/include/nn/lora/lora_utils.h"
@@ -36,6 +35,7 @@
 
 #include "example/common/tiny_shakespeare_dataset.h"
 #include "example/common/tokenizer.h"
+#include "example/llama3/config.h"
 
 // I/O
 DEFINE_string(input_bin, "", "input .bin to train on");
@@ -168,7 +168,7 @@ void Train(const nn::parallel::Rank &rank) {
     // rng / reproducibility
     // ManualSeed(42);
 
-    nn::TransformerConfig model_config = nn::TransformerConfig::LLaMA3();
+    nn::TransformerConfig model_config = nn::llama3::LLaMA3Config();
     std::shared_ptr<nn::Module> model = nullptr;
     if (!FLAGS_llmc_filepath.empty()) {
         model = DecoderOnlyTransformer::FromLLMC_LLaMA3(FLAGS_llmc_filepath);
 
@@ -2,7 +2,6 @@
 #include <cstdlib>
 #include <filesystem>
 #include <fstream>
-#include <map>
 #include <memory>
 #include <random>
 #include <string>
@@ -12,15 +11,14 @@
 #include "glog/logging.h"
 
 #include "example/common/utils.h"
+#include "example/llama3/config.h"
 #include "infini_train/include/core/models/decode_only_transformer/model.h"
-#include "infini_train/include/core/transformer/spec_utils.h"
-#include "infini_train/include/core/transformer/transformer_config.h"
-#include "infini_train/include/device.h"
 #include "infini_train/include/nn/modules/causal_self_attention.h"
 #include "infini_train/include/nn/modules/mlp.h"
 #include "infini_train/include/nn/modules/normalization.h"
 #include "infini_train/include/nn/modules/transformer.h"
 #include "infini_train/include/nn/parallel/tensor_parallel.h"
+#include "infini_train/include/tensor.h"
 
 using namespace infini_train;
 namespace nn = infini_train::nn;
@@ -65,7 +63,7 @@ std::shared_ptr<DecoderOnlyTransformer> DecoderOnlyTransformer::FromLLMC_LLaMA3(
     const auto version_major = BytesToType<int32_t>(header, 56);
     const auto version_minor = BytesToType<int32_t>(header, 60);
 
-    nn::TransformerConfig llama3_config = nn::TransformerConfig::LLaMA3();
+    nn::TransformerConfig llama3_config = nn::llama3::LLaMA3Config();
     llama3_config.block_size = block_size;
     llama3_config.vocab_size = vocab_size;
     llama3_config.n_layer = n_layer;
 
@@ -4,9 +4,7 @@
 #include "infini_train/include/core/transformer/transformer_config.h"
 
 namespace infini_train::nn {
-// Build GPT2 model spec: LayerNorm + GELU + standard attention
-ModuleSpec BuildGPT2Spec(const TransformerConfig &config);
 
-// Build LLaMA3 model spec: RMSNorm + SwiGLU + RoPE + GQA
-ModuleSpec BuildLLaMA3Spec(const TransformerConfig &config);
+ModuleSpec BuildDecoderOnlyTransformerSpec(const TransformerConfig &config, ModuleSpec first_stage, ModuleSpec chunk,
+                                           ModuleSpec last_stage);
 } // namespace infini_train::nn
@@ -7,12 +7,11 @@
 #include "glog/logging.h"
 
 #include "infini_train/include/core/models/decode_only_transformer/layer_specs.h"
-#include "infini_train/include/core/transformer/spec_utils.h"
+#include "infini_train/include/core/transformer/transformer_builders.h"
 #include "infini_train/include/core/transformer/transformer_config.h"
 #include "infini_train/include/core/transformer/transformer_model.h"
 #include "infini_train/include/nn/parallel/global.h"
 #include "infini_train/include/nn/parallel/pp/pipeline_parallel.h"
-#include "infini_train/include/tensor.h"
 
 using namespace infini_train;
 namespace nn = infini_train::nn;
@@ -37,7 +36,9 @@ class DecoderOnlyTransformer : public nn::TransformerModel {
     };
 
     explicit DecoderOnlyTransformer(const nn::TransformerConfig &config)
-        : TransformerModel(config, BuildModelSpec(config)),
+        : TransformerModel(config, nn::BuildDecoderOnlyTransformerSpec(config, nn::BuildFirstStageSpec(config),
+                                                                       nn::BuildTransformerLayerSpec(config),
+                                                                       nn::BuildLastStageSpec(config))),
           stage_info_(nn::parallel::PipelineParallel::GetStageInfo(
               Config().n_layer, nn::parallel::global::GetPipelineParallelSize(), nn::parallel::pp_rank,
               nn::parallel::global::GetVirtualPipelineParallelSize())) {}
@@ -52,10 +53,5 @@ class DecoderOnlyTransformer : public nn::TransformerModel {
     int GetChunkSize() const;
 
 private:
-    static nn::ModuleSpec BuildModelSpec(const nn::TransformerConfig &config) {
-        return (config.model_type == nn::TransformerConfig::kGPT2Name) ? BuildGPT2Spec(config)
-                                                                       : BuildLLaMA3Spec(config);
-    }
-
     const infini_train::nn::parallel::StageInfo stage_info_;
 };
@@ -1,7 +1,6 @@
 #pragma once
 
 #include <cstdint>
-#include <memory>
 
 #include "infini_train/include/core/transformer/spec_utils.h"
 #include "infini_train/include/core/transformer/transformer_config.h"
@@ -35,9 +34,6 @@ ModuleSpec BuildAttentionSpec(const TransformerConfig &config);
 // Build MLP spec (supports GELU and SwiGLU)
 ModuleSpec BuildMLPSpec(const TransformerConfig &config);
 
-// Build TransformerLayer spec
-ModuleSpec BuildTransformerLayerSpec(const TransformerConfig &config);
-
 // Build VocabParallelEmbedding spec for token embeddings
 ModuleSpec BuildVocabEmbeddingSpec(const TransformerConfig &config);
 
@@ -47,4 +43,13 @@ ModuleSpec BuildPositionEmbeddingSpec(int64_t num_embeddings, int64_t embedding_
 // Build ColumnParallelLinear spec for output projection (lm_head)
 ModuleSpec BuildOutputProjSpec(const TransformerConfig &config, int64_t output_size, bool use_bias);
 
+// Build TransformerFirstStage spec
+ModuleSpec BuildFirstStageSpec(const TransformerConfig &config);
+
+// Build TransformerLayer spec
+ModuleSpec BuildTransformerLayerSpec(const TransformerConfig &config);
+
+// Build TransformerLastStage spec
+ModuleSpec BuildLastStageSpec(const TransformerConfig &config);
+
 } // namespace infini_train::nn
@@ -1,30 +1,32 @@
 #pragma once
+
 #include <cstdint>
 #include <optional>
-#include <string>
 
 namespace infini_train::nn {
 
+enum class ModelType {
+    kGPT2,   // GPT-2
+    kLLaMA3, // LLaMA3
+};
+
 enum class AttentionType {
-    kStandard, // Standard attention (GPT2 style, no RoPE)
-    kRoPE      // Rotary Position Embedding (LLaMA3 style)
+    kStandard, // Standard attention
+    kRoPE      // Rotary Position Embedding
 };
 
 enum class MLPType {
-    kGELU,  // GELU activation (GPT2 style)
-    kSwiGLU // SwiGLU activation (LLaMA3 style)
+    kGELU,  // GELU activation
+    kSwiGLU // SwiGLU activation
 };
 
 enum class NormType {
-    kLayerNorm, // LayerNorm (GPT2 style)
-    kRMSNorm    // RMSNorm (LLaMA3 style)
+    kLayerNorm, // LayerNorm
+    kRMSNorm    // RMSNorm
 };
 
 struct TransformerConfig {
-    static constexpr char kGPT2Name[] = "GPT2";
-    static constexpr char kLLaMA3Name[] = "LLaMA3";
-
-    std::string model_type = "";
+    ModelType model_type = ModelType::kGPT2;
 
     int64_t block_size = 1024;           // Max seq_len
     int64_t vocab_size = 50304;          // Vocab size
@@ -59,42 +61,5 @@ struct TransformerConfig {
     int64_t max_gen_batch_size = 4; // max batch size during inference
 
     bool UseGQA() const { return n_kv_head < n_head; }
-
-    static TransformerConfig GPT2() {
-        return {.model_type = kGPT2Name,
-                .block_size = 1024,
-                .vocab_size = 50304,
-                .original_vocab_size = 50257,
-                .n_layer = 12,
-                .n_head = 12,
-                .n_kv_head = 12,
-                .n_embd = 768,
-                .attention_type = AttentionType::kStandard,
-                .activation_type = MLPType::kGELU,
-                .norm_type = NormType::kLayerNorm,
-                .use_bias = true,
-                .tie_weights = true,
-                .ffn_expansion_ratio = 4.0f,
-                .ffn_dim_multiplier = std::nullopt,
-                .multiple_of = 1};
-    }
-
-    static TransformerConfig LLaMA3() {
-        return {.model_type = kLLaMA3Name,
-                .block_size = 8192,
-                .vocab_size = 128256,
-                .n_layer = 16,
-                .n_head = 32,
-                .n_kv_head = 8,
-                .n_embd = 2048,
-                .attention_type = AttentionType::kRoPE,
-                .activation_type = MLPType::kSwiGLU,
-                .norm_type = NormType::kRMSNorm,
-                .use_bias = false,
-                .tie_weights = false,
-                .ffn_expansion_ratio = 4.0f,
-                .ffn_dim_multiplier = 1.5f,
-                .multiple_of = 256};
-    }
 };
 } // namespace infini_train::nn