InfiniTensor
diff --git a/‎example/common/checkpoint_loader.cc‎
Lines changed: 4 additions & 2 deletions b/‎example/common/checkpoint_loader.cc‎
Lines changed: 4 additions & 2 deletions
diff --git a/‎example/common/checkpoint_loader.h‎
Lines changed: 0 additions & 1 deletion b/‎example/common/checkpoint_loader.h‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎example/gpt2/checkpoint_loader.cc‎
Lines changed: 23 additions & 135 deletions b/‎example/gpt2/checkpoint_loader.cc‎
Lines changed: 23 additions & 135 deletions
diff --git a/‎example/gpt2/checkpoint_loader.h‎
Lines changed: 1 addition & 3 deletions b/‎example/gpt2/checkpoint_loader.h‎
Lines changed: 1 addition & 3 deletions
diff --git a/‎example/gpt2/config.h‎
Lines changed: 10 additions & 8 deletions b/‎example/gpt2/config.h‎
Lines changed: 10 additions & 8 deletions
diff --git a/‎example/gpt2/main.cc‎
Lines changed: 3 additions & 7 deletions b/‎example/gpt2/main.cc‎
Lines changed: 3 additions & 7 deletions
@@ -16,6 +16,8 @@
 using namespace infini_train;
 namespace nn = infini_train::nn;
 
+// TODO(jym): ckpt is a new checkpoint format; bin is the legacy format. Keeping both as an interim solution; plan to
+// consolidate into one later.
 ResumeFromCheckpointResult ResumeFromCheckpoint(const ResumeFromCheckpointArgs &args) {
     ResumeFromCheckpointResult result;
     if (args.resume_root.empty()) {
@@ -36,7 +38,7 @@ ResumeFromCheckpointResult ResumeFromCheckpoint(const ResumeFromCheckpointArgs &
         }
     }
 
-    Checkpoint::Load(resume_dir, *args.model, args.optimizer.get(), args.state);
+    Checkpoint::Load(resume_dir, *args.model, args.optimizer.get(), args.state, true);
 
     result.global_step = static_cast<int>(args.state.global_step);
 
@@ -86,7 +88,7 @@ void SaveCheckpoint(const SaveCheckpointArgs &args) {
     state.sp_size = args.sp_size;
     state.pp_size = args.pp_size;
 
-    Checkpoint::Save(args.save_dir, args.model, &args.optimizer, state);
+    Checkpoint::Save(args.save_dir, args.model, &args.optimizer, state, args.no_save_optim);
 
     const auto ckpt_end = std::chrono::high_resolution_clock::now();
     const double ckpt_ms = std::chrono::duration<double, std::milli>(ckpt_end - ckpt_start).count();
 
@@ -22,7 +22,6 @@ struct ResumeFromCheckpointArgs {
     const nn::parallel::Rank &rank;
     std::shared_ptr<nn::Module> model;
     std::shared_ptr<Optimizer> optimizer;
-    DistributedDataLoader &train_loader;
     const nn::TransformerConfig &model_config;
     TrainerState &state;
 };
 
@@ -5,6 +5,7 @@
 #include <filesystem>
 #include <fstream>
 #include <memory>
+#include <random>
 #include <string>
 #include <tuple>
 #include <vector>
@@ -28,25 +29,35 @@ using namespace infini_train;
 namespace nn = infini_train::nn;
 
 namespace {
-constexpr int32_t kGPT2Magic = 20240326;
-constexpr int32_t kGPT2FP32Version = 3;
-constexpr int32_t kGPT2BF16Version = 5;
+constexpr int kRandomSeed = 42;
 
-std::tuple<int32_t, DataType> DetermineAndCheckVersion(const std::vector<uint8_t> &header, size_t offset) {
+// TODO(dcj): make this rng generator compatible with torch later
+static std::mt19937 gen{kRandomSeed};
+} // namespace
+
+namespace {
+constexpr int32_t kHeaderMagic = 20240326;
+constexpr int32_t kHeaderFP32Version = 3;
+constexpr int32_t kHeaderBF16Version = 5;
+
+std::tuple<int32_t, infini_train::DataType> DetermineAndCheckVersion(const std::vector<uint8_t> &header,
+                                                                     size_t offset) {
     const auto version = BytesToType<uint32_t>(header, offset);
     switch (version) {
-    case kGPT2BF16Version:
-        return {version, DataType::kBFLOAT16};
-    case kGPT2FP32Version:
-        return {version, DataType::kFLOAT32};
+    case kHeaderBF16Version:
+        return {version, infini_train::DataType::kBFLOAT16};
+    case kHeaderFP32Version:
+        return {version, infini_train::DataType::kFLOAT32};
     default:
         LOG(FATAL) << "Unsupported version: " << version << " at " << __FILE__ << ":" << __LINE__;
         return {}; // Unreachable, but keeps compiler happy
     }
 }
 } // namespace
 
-std::shared_ptr<nn::TransformerModel> gpt2::LoadFromLLMC(const std::string &filepath) {
+namespace gpt2 {
+
+std::shared_ptr<nn::TransformerModel> LoadFromLLMC(const std::string &filepath) {
     if (!std::filesystem::exists(filepath)) {
         LOG(FATAL) << "File not found: " << filepath;
     }
@@ -55,9 +66,9 @@ std::shared_ptr<nn::TransformerModel> gpt2::LoadFromLLMC(const std::string &file
     const auto header = ReadSeveralBytesFromIfstream(256 * sizeof(int32_t), &ifs);
 
     const auto magic = BytesToType<uint32_t>(header, 0);
-    CHECK_EQ(magic, kGPT2Magic);
+    CHECK_EQ(magic, kHeaderMagic);
     auto [version, dtype] = DetermineAndCheckVersion(header, 4);
-    CHECK_EQ(version, kGPT2FP32Version);
+    CHECK_EQ(version, kHeaderFP32Version);
 
     auto tp_size = nn::parallel::global::GetTensorParallelSize();
 
@@ -418,127 +429,4 @@ std::shared_ptr<nn::TransformerModel> gpt2::LoadFromLLMC(const std::string &file
 
     return local_gpt2;
 }
-
-void gpt2::SaveAsLLMC(const std::shared_ptr<nn::TransformerModel> &model, const std::string &filepath) {
-    CHECK_EQ(nn::parallel::global::GetTensorParallelSize(), 1) << "SaveAsLLMC currently supports TP=1 only.";
-    CHECK_EQ(nn::parallel::global::GetPipelineParallelSize(), 1) << "SaveAsLLMC currently supports PP=1 only.";
-
-    std::ofstream ofs(filepath, std::ios::binary);
-    CHECK(ofs.is_open()) << "Failed to open model file for write: " << filepath;
-
-    auto config = model->Config();
-    std::vector<int32_t> header(256, 0);
-    header[0] = kGPT2Magic;
-    header[1] = kGPT2FP32Version;
-    header[2] = static_cast<int32_t>(config.block_size);
-    header[3] = static_cast<int32_t>(config.original_vocab_size);
-    header[4] = static_cast<int32_t>(config.n_layer);
-    header[5] = static_cast<int32_t>(config.n_head);
-    header[6] = static_cast<int32_t>(config.n_embd);
-    header[7] = static_cast<int32_t>(config.vocab_size);
-    ofs.write(reinterpret_cast<const char *>(header.data()),
-              static_cast<std::streamsize>(header.size() * sizeof(int32_t)));
-
-    const auto state_dict = model->StateDict();
-    auto get_tensor = [&](const std::string &name) -> std::shared_ptr<Tensor> {
-        CHECK(state_dict.contains(name)) << "Missing tensor in GPT2 state_dict: " << name;
-        return state_dict.at(name);
-    };
-
-    auto write_tensor_fp32 = [&](const std::shared_ptr<Tensor> &tensor) {
-        Tensor cpu = tensor->To(Device());
-        if (cpu.Dtype() != DataType::kFLOAT32) {
-            cpu = cpu.To(DataType::kFLOAT32);
-        }
-        const auto bytes = static_cast<std::streamsize>(cpu.SizeInBytes());
-        ofs.write(reinterpret_cast<const char *>(cpu.DataPtr()), bytes);
-    };
-
-    // transformer.wte.weight
-    write_tensor_fp32(get_tensor(std::format("{}.{}.{}", nn::TransformerModel::kTransformerModelName,
-                                             nn::TransformerFirstStage::kWTELayerName,
-                                             nn::parallel::VocabParallelEmbedding::kParamWeightName)));
-
-    // transformer.wpe.weight
-    write_tensor_fp32(
-        get_tensor(std::format("{}.{}.{}", nn::TransformerModel::kTransformerModelName,
-                               nn::TransformerFirstStage::kWPELayerName, nn::Embedding::kParamWeightName)));
-
-    for (int idx = 0; idx < config.n_layer; ++idx) {
-        write_tensor_fp32(get_tensor(std::format(
-            "{}.{}.{}.{}.{}", nn::TransformerModel::kTransformerModelName, nn::TransformerChunk::kHLayerName, idx,
-            nn::TransformerLayer::kLn1LayerName, nn::LayerNorm::kParamWeightName)));
-    }
-    for (int idx = 0; idx < config.n_layer; ++idx) {
-        write_tensor_fp32(get_tensor(std::format("{}.{}.{}.{}.{}", nn::TransformerModel::kTransformerModelName,
-                                                 nn::TransformerChunk::kHLayerName, idx,
-                                                 nn::TransformerLayer::kLn1LayerName, nn::LayerNorm::kParamBiasName)));
-    }
-    for (int idx = 0; idx < config.n_layer; ++idx) {
-        write_tensor_fp32(get_tensor(std::format(
-            "{}.{}.{}.{}.{}.{}", nn::TransformerModel::kTransformerModelName, nn::TransformerChunk::kHLayerName, idx,
-            nn::TransformerLayer::kAttnLayerName, nn::CausalSelfAttention::kCAttnLayerName,
-            nn::parallel::ColumnParallelLinear::kParamWeightName)));
-    }
-    for (int idx = 0; idx < config.n_layer; ++idx) {
-        write_tensor_fp32(get_tensor(
-            std::format("{}.{}.{}.{}.{}.{}", nn::TransformerModel::kTransformerModelName,
-                        nn::TransformerChunk::kHLayerName, idx, nn::TransformerLayer::kAttnLayerName,
-                        nn::CausalSelfAttention::kCAttnLayerName, nn::parallel::ColumnParallelLinear::kParamBiasName)));
-    }
-    for (int idx = 0; idx < config.n_layer; ++idx) {
-        write_tensor_fp32(get_tensor(
-            std::format("{}.{}.{}.{}.{}.{}", nn::TransformerModel::kTransformerModelName,
-                        nn::TransformerChunk::kHLayerName, idx, nn::TransformerLayer::kAttnLayerName,
-                        nn::CausalSelfAttention::kCProjLayerName, nn::parallel::RowParallelLinear::kParamWeightName)));
-    }
-    for (int idx = 0; idx < config.n_layer; ++idx) {
-        write_tensor_fp32(get_tensor(
-            std::format("{}.{}.{}.{}.{}.{}", nn::TransformerModel::kTransformerModelName,
-                        nn::TransformerChunk::kHLayerName, idx, nn::TransformerLayer::kAttnLayerName,
-                        nn::CausalSelfAttention::kCProjLayerName, nn::parallel::RowParallelLinear::kParamBiasName)));
-    }
-    for (int idx = 0; idx < config.n_layer; ++idx) {
-        write_tensor_fp32(get_tensor(std::format(
-            "{}.{}.{}.{}.{}", nn::TransformerModel::kTransformerModelName, nn::TransformerChunk::kHLayerName, idx,
-            nn::TransformerLayer::kLn2LayerName, nn::LayerNorm::kParamWeightName)));
-    }
-    for (int idx = 0; idx < config.n_layer; ++idx) {
-        write_tensor_fp32(get_tensor(std::format("{}.{}.{}.{}.{}", nn::TransformerModel::kTransformerModelName,
-                                                 nn::TransformerChunk::kHLayerName, idx,
-                                                 nn::TransformerLayer::kLn2LayerName, nn::LayerNorm::kParamBiasName)));
-    }
-    for (int idx = 0; idx < config.n_layer; ++idx) {
-        write_tensor_fp32(
-            get_tensor(std::format("{}.{}.{}.{}.{}.{}", nn::TransformerModel::kTransformerModelName,
-                                   nn::TransformerChunk::kHLayerName, idx, nn::TransformerLayer::kMlpLayerName,
-                                   nn::MLP::kCFcLayerName, nn::parallel::ColumnParallelLinear::kParamWeightName)));
-    }
-    for (int idx = 0; idx < config.n_layer; ++idx) {
-        write_tensor_fp32(
-            get_tensor(std::format("{}.{}.{}.{}.{}.{}", nn::TransformerModel::kTransformerModelName,
-                                   nn::TransformerChunk::kHLayerName, idx, nn::TransformerLayer::kMlpLayerName,
-                                   nn::MLP::kCFcLayerName, nn::parallel::ColumnParallelLinear::kParamBiasName)));
-    }
-    for (int idx = 0; idx < config.n_layer; ++idx) {
-        write_tensor_fp32(
-            get_tensor(std::format("{}.{}.{}.{}.{}.{}", nn::TransformerModel::kTransformerModelName,
-                                   nn::TransformerChunk::kHLayerName, idx, nn::TransformerLayer::kMlpLayerName,
-                                   nn::MLP::kCProjLayerName, nn::parallel::RowParallelLinear::kParamWeightName)));
-    }
-    for (int idx = 0; idx < config.n_layer; ++idx) {
-        write_tensor_fp32(
-            get_tensor(std::format("{}.{}.{}.{}.{}.{}", nn::TransformerModel::kTransformerModelName,
-                                   nn::TransformerChunk::kHLayerName, idx, nn::TransformerLayer::kMlpLayerName,
-                                   nn::MLP::kCProjLayerName, nn::parallel::RowParallelLinear::kParamBiasName)));
-    }
-
-    write_tensor_fp32(
-        get_tensor(std::format("{}.{}.{}", nn::TransformerModel::kTransformerModelName,
-                               nn::TransformerLastStage::kLnFLayerName, nn::LayerNorm::kParamWeightName)));
-    write_tensor_fp32(get_tensor(std::format("{}.{}.{}", nn::TransformerModel::kTransformerModelName,
-                                             nn::TransformerLastStage::kLnFLayerName, nn::LayerNorm::kParamBiasName)));
-
-    ofs.flush();
-    CHECK(ofs.good()) << "Failed to flush model file: " << filepath;
-}
+} // namespace gpt2
@@ -1,14 +1,12 @@
 #pragma once
 
-#include <cstring>
 #include <memory>
 #include <string>
 
 namespace infini_train::nn {
 class TransformerModel;
-}
+} // namespace infini_train::nn
 
 namespace gpt2 {
 std::shared_ptr<infini_train::nn::TransformerModel> LoadFromLLMC(const std::string &filepath);
-void SaveAsLLMC(const std::shared_ptr<infini_train::nn::TransformerModel> &model, const std::string &filepath);
 } // namespace gpt2
@@ -4,18 +4,19 @@
 
 #include "infini_train/include/nn/modules/transformer/transformer_config.h"
 
+namespace nn = infini_train::nn;
 namespace gpt2 {
-inline infini_train::nn::TransformerConfig GPT2Config() {
+inline nn::TransformerConfig GPT2Config() {
     return {.block_size = 1024,
             .vocab_size = 50304,
             .original_vocab_size = 50257,
             .n_layer = 12,
             .n_head = 12,
             .n_kv_head = 12,
             .n_embd = 768,
-            .attention_type = infini_train::nn::AttentionType::kStandard,
-            .activation_type = infini_train::nn::MLPType::kGELU,
-            .norm_type = infini_train::nn::NormType::kLayerNorm,
+            .attention_type = nn::AttentionType::kStandard,
+            .activation_type = nn::MLPType::kGELU,
+            .norm_type = nn::NormType::kLayerNorm,
             .add_bias_linear = true,
             .add_bias_lm_head = false,
             .tie_weights = true,
@@ -24,7 +25,7 @@ inline infini_train::nn::TransformerConfig GPT2Config() {
             .multiple_of = 1};
 }
 
-inline void SanitizeGPT2Config(const infini_train::nn::TransformerConfig &c) {
+inline void SanitizeGPT2Config(const nn::TransformerConfig &c) {
     CHECK_GT(c.block_size, 0);
     CHECK_GT(c.vocab_size, 0);
     CHECK_GE(c.vocab_size, c.original_vocab_size);
@@ -33,8 +34,9 @@ inline void SanitizeGPT2Config(const infini_train::nn::TransformerConfig &c) {
     CHECK_GT(c.n_embd, 0);
     CHECK_EQ(c.n_embd % c.n_head, 0) << "n_embd must be divisible by n_head";
     CHECK_EQ(c.n_kv_head, c.n_head) << "GPT-2 does not use GQA; n_kv_head must equal n_head";
-    CHECK(c.attention_type == infini_train::nn::AttentionType::kStandard) << "GPT-2 requires standard attention";
-    CHECK(c.activation_type == infini_train::nn::MLPType::kGELU) << "GPT-2 requires GELU activation";
-    CHECK(c.norm_type == infini_train::nn::NormType::kLayerNorm) << "GPT-2 requires LayerNorm";
+    CHECK(c.attention_type == nn::AttentionType::kStandard) << "GPT-2 requires standard attention";
+    CHECK(c.activation_type == nn::MLPType::kGELU) << "GPT-2 requires GELU activation";
+    CHECK(c.norm_type == nn::NormType::kLayerNorm) << "GPT-2 requires LayerNorm";
 }
+
 } // namespace gpt2
@@ -1,9 +1,7 @@
-#include <algorithm>
 #include <chrono>
 #include <cstdlib>
 #include <filesystem>
 #include <format>
-#include <limits>
 #include <memory>
 #include <optional>
 #include <unordered_map>
@@ -205,8 +203,6 @@ void Train(const nn::parallel::Rank &rank) {
         gpt2::SanitizeGPT2Config(model_config);
         model = std::make_shared<nn::TransformerModel>(model_config);
     }
-    auto llmc_model = std::dynamic_pointer_cast<nn::TransformerModel>(model);
-    CHECK(llmc_model != nullptr) << "Failed to cast model to GPT2 for LLMC checkpoint I/O.";
 
     model->To(device);
 
@@ -305,8 +301,8 @@ void Train(const nn::parallel::Rank &rank) {
 
     // TODO(dcj): support more complex optimizer later
     // auto optimizer = optimizers::SGD(model->Parameters(), FLAGS_learning_rate);
-    std::shared_ptr<Optimizer> optimizer = nullptr;
     auto optimizer_creator = optimizers::SGD::Create(FLAGS_learning_rate);
+    std::shared_ptr<Optimizer> optimizer = nullptr;
 
     if (FLAGS_zero_stage >= 1) {
         auto model_chunks = (pp_world_size > 1)
@@ -319,7 +315,6 @@ void Train(const nn::parallel::Rank &rank) {
     }
 
     auto train_iter = train_loader.begin();
-
     std::shared_ptr<nn::Module> loss_fn
         = (tp_world_size > 1) ? std::static_pointer_cast<nn::Module>(
               std::make_shared<VocabParallelCrossEntropyLoss>(model_config.original_vocab_size))
@@ -335,7 +330,6 @@ void Train(const nn::parallel::Rank &rank) {
                                                      .rank = rank,
                                                      .model = model,
                                                      .optimizer = optimizer,
-                                                     .train_loader = train_loader,
                                                      .model_config = model_config,
                                                      .state = state});
     start_step = resume_result.global_step;
@@ -377,6 +371,8 @@ void Train(const nn::parallel::Rank &rank) {
               });
           };
 
+    LOG(INFO) << "start training";
+
     for (int step = start_step; step < FLAGS_num_iteration + 1; ++step) {
         // Reset precision check counters at start of each iteration for file overwrite
         utils::PrecisionChecker::ResetCounters();