InfiniTensor
diff --git a/‎example/gpt2/main.cc‎
Lines changed: 6 additions & 22 deletions b/‎example/gpt2/main.cc‎
Lines changed: 6 additions & 22 deletions
diff --git a/‎example/llama3/main.cc‎
Lines changed: 6 additions & 22 deletions b/‎example/llama3/main.cc‎
Lines changed: 6 additions & 22 deletions
diff --git a/‎…/nn/parallel/distributed_data_parallel.h‎ ‎…parallel/ddp/distributed_data_parallel.h‎infini_train/include/nn/parallel/distributed_data_parallel.h renamed to infini_train/include/nn/parallel/ddp/distributed_data_parallel.h
Lines changed: 6 additions & 4 deletions b/‎…/nn/parallel/distributed_data_parallel.h‎ ‎…parallel/ddp/distributed_data_parallel.h‎infini_train/include/nn/parallel/distributed_data_parallel.h renamed to infini_train/include/nn/parallel/ddp/distributed_data_parallel.h
Lines changed: 6 additions & 4 deletions
diff --git a/‎…allel/distributed_data_parallel_config.h‎ ‎…l/ddp/distributed_data_parallel_config.h‎infini_train/include/nn/parallel/distributed_data_parallel_config.h renamed to infini_train/include/nn/parallel/ddp/distributed_data_parallel_config.h
Lines changed: 5 additions & 2 deletions b/‎…allel/distributed_data_parallel_config.h‎ ‎…l/ddp/distributed_data_parallel_config.h‎infini_train/include/nn/parallel/distributed_data_parallel_config.h renamed to infini_train/include/nn/parallel/ddp/distributed_data_parallel_config.h
Lines changed: 5 additions & 2 deletions
diff --git a/‎…lude/nn/parallel/distributed_optimizer.h‎ ‎…/nn/parallel/ddp/distributed_optimizer.h‎infini_train/include/nn/parallel/distributed_optimizer.h renamed to infini_train/include/nn/parallel/ddp/distributed_optimizer.h
Lines changed: 11 additions & 7 deletions b/‎…lude/nn/parallel/distributed_optimizer.h‎ ‎…/nn/parallel/ddp/distributed_optimizer.h‎infini_train/include/nn/parallel/distributed_optimizer.h renamed to infini_train/include/nn/parallel/ddp/distributed_optimizer.h
Lines changed: 11 additions & 7 deletions
diff --git a/‎…lude/nn/parallel/param_and_grad_buffer.h‎ ‎…/nn/parallel/ddp/param_and_grad_buffer.h‎infini_train/include/nn/parallel/param_and_grad_buffer.h renamed to infini_train/include/nn/parallel/ddp/param_and_grad_buffer.h
Lines changed: 7 additions & 3 deletions b/‎…lude/nn/parallel/param_and_grad_buffer.h‎ ‎…/nn/parallel/ddp/param_and_grad_buffer.h‎infini_train/include/nn/parallel/param_and_grad_buffer.h renamed to infini_train/include/nn/parallel/ddp/param_and_grad_buffer.h
Lines changed: 7 additions & 3 deletions
diff --git a/‎…fini_train/include/nn/parallel/reducer.h‎ ‎…_train/include/nn/parallel/ddp/reducer.h‎infini_train/include/nn/parallel/reducer.h renamed to infini_train/include/nn/parallel/ddp/reducer.h
Lines changed: 2 additions & 2 deletions b/‎…fini_train/include/nn/parallel/reducer.h‎ ‎…_train/include/nn/parallel/ddp/reducer.h‎infini_train/include/nn/parallel/reducer.h renamed to infini_train/include/nn/parallel/ddp/reducer.h
Lines changed: 2 additions & 2 deletions
diff --git a/‎infini_train/include/tensor.h‎
Lines changed: 1 addition & 6 deletions b/‎infini_train/include/tensor.h‎
Lines changed: 1 addition & 6 deletions
diff --git a/‎…nn/parallel/distributed_data_parallel.cc‎ ‎…arallel/ddp/distributed_data_parallel.cc‎infini_train/src/nn/parallel/distributed_data_parallel.cc renamed to infini_train/src/nn/parallel/ddp/distributed_data_parallel.cc
Lines changed: 4 additions & 9 deletions b/‎…nn/parallel/distributed_data_parallel.cc‎ ‎…arallel/ddp/distributed_data_parallel.cc‎infini_train/src/nn/parallel/distributed_data_parallel.cc renamed to infini_train/src/nn/parallel/ddp/distributed_data_parallel.cc
Lines changed: 4 additions & 9 deletions
diff --git a/‎…src/nn/parallel/distributed_optimizer.cc‎ ‎…nn/parallel/ddp/distributed_optimizer.cc‎infini_train/src/nn/parallel/distributed_optimizer.cc renamed to infini_train/src/nn/parallel/ddp/distributed_optimizer.cc
Lines changed: 27 additions & 30 deletions b/‎…src/nn/parallel/distributed_optimizer.cc‎ ‎…nn/parallel/ddp/distributed_optimizer.cc‎infini_train/src/nn/parallel/distributed_optimizer.cc renamed to infini_train/src/nn/parallel/ddp/distributed_optimizer.cc
Lines changed: 27 additions & 30 deletions
@@ -14,8 +14,8 @@
 #include "infini_train/include/device.h"
 #include "infini_train/include/nn/modules/loss.h"
 #include "infini_train/include/nn/modules/module.h"
-#include "infini_train/include/nn/parallel/distributed_data_parallel.h"
-#include "infini_train/include/nn/parallel/distributed_optimizer.h"
+#include "infini_train/include/nn/parallel/ddp/distributed_data_parallel.h"
+#include "infini_train/include/nn/parallel/ddp/distributed_optimizer.h"
 #include "infini_train/include/nn/parallel/global.h"
 #include "infini_train/include/nn/parallel/parallel_functional.h"
 #include "infini_train/include/nn/parallel/pp/pipeline_parallel.h"
@@ -254,27 +254,11 @@ void Train(const nn::parallel::Rank &rank) {
     std::shared_ptr<Optimizer> optimizer = nullptr;
 
     if (FLAGS_use_distributed_optimizer) {
-        std::vector<std::shared_ptr<ParamAndGradBuffer>> param_grad_buffers;
-        std::vector<std::shared_ptr<ParamAndGradBucketGroup>> bucket_groups;
-
-        if (pp_world_size > 1 && ddp_world_size > 1) {
-            auto *mutable_chunks = dynamic_cast<nn::parallel::PipelineParallel *>(model.get())->mutable_chunks();
-            for (int chunk_id = 0; chunk_id < mutable_chunks->size(); ++chunk_id) {
-                auto buffers
-                    = dynamic_cast<DistributedDataParallel *>(mutable_chunks->at(chunk_id).get())->param_grad_buffers();
-                auto groups
-                    = dynamic_cast<DistributedDataParallel *>(mutable_chunks->at(chunk_id).get())->bucket_groups();
-                param_grad_buffers.insert(param_grad_buffers.end(), buffers.begin(), buffers.end());
-                bucket_groups.insert(bucket_groups.end(), groups.begin(), groups.end());
-            }
-        } else if (ddp_world_size > 1) {
-            param_grad_buffers = dynamic_cast<DistributedDataParallel *>(model.get())->param_grad_buffers();
-            bucket_groups = dynamic_cast<DistributedDataParallel *>(model.get())->bucket_groups();
-        }
-
+        auto model_chunks = (pp_world_size > 1)
+                              ? *(dynamic_cast<nn::parallel::PipelineParallel *>(model.get())->mutable_chunks())
+                              : std::vector<std::shared_ptr<nn::Module>>{model};
         optimizer = std::make_shared<nn::parallel::DistributedOptimizer>(optimizer_creator, model->Parameters(),
-                                                                         param_grad_buffers, bucket_groups, ddp_pg,
-                                                                         ddp_world_size, ddp_rank);
+                                                                         model_chunks, ddp_world_size, ddp_rank);
     } else {
         optimizer = optimizer_creator(model->Parameters());
     }
 
@@ -12,8 +12,8 @@
 #include "infini_train/include/device.h"
 #include "infini_train/include/nn/modules/loss.h"
 #include "infini_train/include/nn/modules/module.h"
-#include "infini_train/include/nn/parallel/distributed_data_parallel.h"
-#include "infini_train/include/nn/parallel/distributed_optimizer.h"
+#include "infini_train/include/nn/parallel/ddp/distributed_data_parallel.h"
+#include "infini_train/include/nn/parallel/ddp/distributed_optimizer.h"
 #include "infini_train/include/nn/parallel/parallel_functional.h"
 #include "infini_train/include/nn/parallel/pp/pipeline_parallel.h"
 #include "infini_train/include/nn/parallel/rank.h"
@@ -233,27 +233,11 @@ void Train(const nn::parallel::Rank &rank) {
     std::shared_ptr<Optimizer> optimizer = nullptr;
 
     if (FLAGS_use_distributed_optimizer) {
-        std::vector<std::shared_ptr<ParamAndGradBuffer>> param_grad_buffers;
-        std::vector<std::shared_ptr<ParamAndGradBucketGroup>> bucket_groups;
-
-        if (pp_world_size > 1 && ddp_world_size > 1) {
-            auto *mutable_chunks = dynamic_cast<nn::parallel::PipelineParallel *>(model.get())->mutable_chunks();
-            for (int chunk_id = 0; chunk_id < mutable_chunks->size(); ++chunk_id) {
-                auto buffers
-                    = dynamic_cast<DistributedDataParallel *>(mutable_chunks->at(chunk_id).get())->param_grad_buffers();
-                auto groups
-                    = dynamic_cast<DistributedDataParallel *>(mutable_chunks->at(chunk_id).get())->bucket_groups();
-                param_grad_buffers.insert(param_grad_buffers.end(), buffers.begin(), buffers.end());
-                bucket_groups.insert(bucket_groups.end(), groups.begin(), groups.end());
-            }
-        } else if (ddp_world_size > 1) {
-            param_grad_buffers = dynamic_cast<DistributedDataParallel *>(model.get())->param_grad_buffers();
-            bucket_groups = dynamic_cast<DistributedDataParallel *>(model.get())->bucket_groups();
-        }
-
+        auto model_chunks = (pp_world_size > 1)
+                              ? *(dynamic_cast<nn::parallel::PipelineParallel *>(model.get())->mutable_chunks())
+                              : std::vector<std::shared_ptr<nn::Module>>{model};
         optimizer = std::make_shared<nn::parallel::DistributedOptimizer>(optimizer_creator, model->Parameters(),
-                                                                         param_grad_buffers, bucket_groups, ddp_pg,
-                                                                         ddp_world_size, ddp_rank);
+                                                                         model_chunks, ddp_world_size, ddp_rank);
     } else {
         optimizer = optimizer_creator(model->Parameters());
     }
 
@@ -3,21 +3,23 @@
 #include <memory>
 
 #include "infini_train/include/nn/modules/module.h"
-#include "infini_train/include/nn/parallel/distributed_data_parallel_config.h"
-#include "infini_train/include/nn/parallel/param_and_grad_buffer.h"
-#include "infini_train/include/nn/parallel/reducer.h"
+#include "infini_train/include/nn/parallel/ddp/param_and_grad_buffer.h"
+#include "infini_train/include/nn/parallel/ddp/reducer.h"
 
 namespace infini_train {
 class Tensor;
 class Device;
+namespace nn::parallel {
+class DistributedDataParallelConfig;
+} // namespace nn::parallel
 } // namespace infini_train
 
 namespace infini_train::nn::parallel {
 
 class DistributedDataParallel : public nn::Module {
 public:
     DistributedDataParallel(std::shared_ptr<nn::Module> module, int thread_rank,
-                            DistributedDataParallelConfig ddp_config = DistributedDataParallelConfig());
+                            DistributedDataParallelConfig ddp_config);
 
     std::vector<std::shared_ptr<Tensor>> Forward(const std::vector<std::shared_ptr<Tensor>> &input_tensors) override;
 
 
@@ -47,16 +47,19 @@ class DistributedDataParallelConfig {
     bool average_in_collective = true;
 
     // Whether to check NaNs/Infs/unusually large in gradients before collectives.
+    // TODO(zbl): Unused by now, to be implemented in ParamAndGradBucketGroup::StartGradSync()
     bool check_for_nan_in_grad = false;
     bool check_for_large_grads = false;
 
     // Number of DistributedOptimizer instances.
     // Multiple DistOpt is used for building hierarchical collective groups for param/grad.
+    // TODO(zbl): Unused by now, to be implemented in ParamAndGradBucketGroup
     int num_distributed_optimizer_instances = 1;
 
     // Maximum number of parameters in each ParamAndGradBucket.
-    // This is distinct from DDP Reducer's MB-based bucket caps.
-    size_t bucket_size_in_elements = std::numeric_limits<size_t>::max();
+    // NOTE(zbl): This is distinct from DDP Reducer's MB-based bucket caps.
+    // TODO(zbl): To unify the definition of bucket_size argument for users
+    size_t bucket_size_in_elements = 40000000;
 
     // Whether to pad bucket sizes to improve NCCL bus bandwidth utilization.
     bool pad_buckets_for_high_nccl_busbw = false;
 
@@ -5,18 +5,24 @@
 #include <unordered_map>
 #include <vector>
 
-#include "infini_train/include/nn/parallel/param_and_grad_buffer.h"
 #include "infini_train/include/optimizer.h"
 
+namespace infini_train::nn {
+class Module;
+namespace parallel {
+class ParamAndGradBuffer;
+class ParamAndGradBucketGroup;
+} // namespace parallel
+} // namespace infini_train::nn
+
 namespace infini_train::nn::parallel {
 
 class DistributedOptimizer final : public infini_train::Optimizer {
 public:
-    DistributedOptimizer(OptimizerCreator inner_optimizer_creator,
+    DistributedOptimizer(OptimizerCreator base_optimizer_creator,
                          const std::vector<std::shared_ptr<Tensor>> &full_params,
-                         const std::vector<std::shared_ptr<ParamAndGradBuffer>> &buffers,
-                         const std::vector<std::shared_ptr<ParamAndGradBucketGroup>> &bucket_groups,
-                         const ProcessGroup *dp_pg, size_t dp_world_size, size_t ddp_rank);
+                         const std::vector<std::shared_ptr<Module>> &model_chunks, size_t dp_world_size,
+                         size_t dp_rank);
 
     void Step() override;
 
@@ -37,15 +43,13 @@ class DistributedOptimizer final : public infini_train::Optimizer {
     std::vector<std::shared_ptr<ParamAndGradBucketGroup>> bucket_groups_;
 
     // DP info
-    const ProcessGroup *dp_pg_;
     size_t dp_world_size_;
     size_t dp_rank_;
 
     // shard params
     std::vector<std::shared_ptr<Tensor>> shard_params_;
 
     // Base optimizer (SGD, Adam and etc.)
-    OptimizerCreator creator_;
     std::shared_ptr<Optimizer> base_optimizer_;
 };
 
 
@@ -8,8 +8,7 @@
 #include <vector>
 
 #include "infini_train/include/datatype.h"
-#include "infini_train/include/device.h"
-#include "infini_train/include/nn/parallel/distributed_data_parallel_config.h"
+#include "infini_train/include/nn/parallel/ddp/distributed_data_parallel_config.h"
 
 namespace infini_train {
 class Tensor;
@@ -135,14 +134,17 @@ class ParamAndGradBuffer {
 
     void ScaleGradients(float scaling_factor);
 
-    void Reset();
+    void Reset(bool need_rebind = true);
+
+    void RebindGradViews();
 
 private:
     void BuildBuckets(DataType param_dtype, DataType grad_dtype);
 
 private:
     DistributedDataParallelConfig ddp_config_;
     std::vector<std::shared_ptr<Tensor>> params_;
+    std::vector<std::shared_ptr<Tensor>> grads_;
     std::shared_ptr<Tensor> param_buffer_;
     std::shared_ptr<Tensor> grad_buffer_;
 
@@ -153,6 +155,8 @@ class ParamAndGradBuffer {
     size_t ddp_world_size_ = 1;
     std::vector<std::shared_ptr<ParamAndGradBucket>> buckets_;
 
+    bool need_rebind_grad_views_ = true;
+
     std::vector<std::pair<size_t, size_t>> bucket_indices_;
     // Param to (start, end, bucket_id)
     std::unordered_map<Tensor *, std::tuple<size_t, size_t, size_t>> param_index_map_;
 
@@ -6,7 +6,7 @@
 #include <vector>
 
 #include "infini_train/include/datatype.h"
-#include "infini_train/include/nn/parallel/distributed_data_parallel_config.h"
+#include "infini_train/include/nn/parallel/ddp/distributed_data_parallel_config.h"
 #include "infini_train/include/nn/parallel/parallel_functional.h"
 
 namespace infini_train {
@@ -55,7 +55,7 @@ class Reducer : public std::enable_shared_from_this<Reducer> {
      * @param ddp_config DDP related options, see definition of DistributedDataParallelConfig
      */
     explicit Reducer(std::vector<std::shared_ptr<Tensor>> parameters, std::vector<std::vector<size_t>> bucket_indices,
-                     const DistributedDataParallelConfig ddp_config = DistributedDataParallelConfig());
+                     const DistributedDataParallelConfig ddp_config);
 
     // Attach PostAllReduceHooks to params
     void AttachHooksToParameters();
 
@@ -63,7 +63,7 @@ class Tensor : public std::enable_shared_from_this<Tensor> {
 
     Tensor(const Tensor &tensor, size_t offset, const std::vector<int64_t> &dims);
 
-    void SetData(const Tensor &tensor, size_t offset, bool overwrite = false);
+    void SetData(const Tensor &tensor, size_t offset, bool preserve_data = false);
 
     Tensor(const float *data, const std::vector<int64_t> &dims, DataType dtype, const Device *device);
     Tensor(const float *data, const std::vector<int64_t> &dims, DataType dtype)
@@ -205,9 +205,6 @@ class Tensor : public std::enable_shared_from_this<Tensor> {
     std::shared_ptr<Tensor> grad() const;
     void set_grad(const std::shared_ptr<Tensor> &grad);
 
-    std::shared_ptr<Tensor> main_grad() const;
-    void set_main_grad(const std::shared_ptr<Tensor> &grad);
-
     bool requires_grad() const;
     void set_requires_grad(bool requires_grad);
 
@@ -236,8 +233,6 @@ class Tensor : public std::enable_shared_from_this<Tensor> {
 
 private:
     std::shared_ptr<Tensor> grad_ = nullptr;
-    // Points to a view in flat buffer constantly
-    std::shared_ptr<Tensor> main_grad_ = nullptr;
     bool requires_grad_ = false;
     bool is_leaf_ = true;
     std::shared_ptr<autograd::Function> grad_fn_ = nullptr;
 
@@ -1,4 +1,4 @@
-#include "infini_train/include/nn/parallel/distributed_data_parallel.h"
+#include "infini_train/include/nn/parallel/ddp/distributed_data_parallel.h"
 
 #include <map>
 #include <memory>
@@ -147,14 +147,6 @@ void DistributedDataParallel::OnGradReady(const std::shared_ptr<Tensor> &param)
             CHECK(param->grad()) << "param.grad being None is not safe when overlap_grad_reduce is True";
         }
 
-        if (param->grad()) {
-            // Add to main_grad(buffer)
-            auto kernel = Dispatcher::Instance().GetKernel({param->GetDevice()->Type(), "AccumulateGrad"});
-            kernel.Call<void>(param->grad(), 1.f, param->main_grad());
-        }
-        // Can safely set grad to null because grad has already been added to main_grad(buffer)
-        param->set_grad(nullptr);
-
         if (ddp_config_.overlap_grad_reduce) {
             it->second->RegisterGradReady(param);
         }
@@ -167,6 +159,9 @@ DistributedDataParallel::Forward(const std::vector<std::shared_ptr<Tensor>> &inp
     if (reducer_) {
         reducer_->PrepareForBackward();
     }
+    if (ddp_config_.use_distributed_optimizer) {
+        for (auto buffer : param_grad_buffers_) { buffer->RebindGradViews(); }
+    }
     return outputs;
 }
 } // namespace infini_train::nn::parallel
@@ -1,43 +1,33 @@
-#include "infini_train/include/nn/parallel/distributed_optimizer.h"
+#include "infini_train/include/nn/parallel/ddp/distributed_optimizer.h"
 
 #include "glog/logging.h"
 
-#include "infini_train/include/device.h"
+#include "infini_train/include/nn/parallel/ddp/distributed_data_parallel.h"
 #include "infini_train/include/tensor.h"
 
 namespace infini_train::nn::parallel {
-
-namespace {
-std::shared_ptr<Tensor> GetShardView(const std::shared_ptr<Tensor> &buffer, size_t world_size, size_t rank) {
-
-    CHECK(buffer);
-    CHECK_GT(world_size, 0);
-    CHECK_LT(rank, world_size);
-    CHECK_EQ(buffer->NumElements() % world_size, 0);
-
-    const size_t shard_numel = buffer->NumElements() / world_size;
-    const size_t offset_bytes = shard_numel * rank * kDataTypeToSize.at(buffer->Dtype());
-
-    return std::make_shared<Tensor>(*buffer, offset_bytes, std::vector<int64_t>{static_cast<int64_t>(shard_numel)});
-}
-
-} // namespace
-
 DistributedOptimizer::DistributedOptimizer(OptimizerCreator creator,
                                            const std::vector<std::shared_ptr<Tensor>> &full_params,
-                                           const std::vector<std::shared_ptr<ParamAndGradBuffer>> &buffers,
-                                           const std::vector<std::shared_ptr<ParamAndGradBucketGroup>> &bucket_groups,
-                                           const ProcessGroup *dp_pg, size_t dp_world_size, size_t dp_rank)
-    : Optimizer(full_params), param_grad_buffers_(buffers), bucket_groups_(bucket_groups), dp_pg_(dp_pg),
-      dp_world_size_(dp_world_size), dp_rank_(dp_rank), creator_(std::move(creator)) {
+                                           const std::vector<std::shared_ptr<Module>> &model_chunks,
+                                           size_t dp_world_size, size_t dp_rank)
+    : Optimizer(full_params), dp_world_size_(dp_world_size), dp_rank_(dp_rank) {
 
-    CHECK(dp_pg_);
     CHECK(dp_world_size_ > 1) << "DistributedOptimizer: dp_world_size must be greater than 1.";
 
+    for (size_t i = 0; i < model_chunks.size(); ++i) {
+        auto ddp_chunk = std::dynamic_pointer_cast<DistributedDataParallel>(model_chunks[i]);
+        CHECK(ddp_chunk) << "DistributedOptimizer: model_chunks[" << i << "] is not a DDP model.";
+
+        param_grad_buffers_.insert(param_grad_buffers_.end(), ddp_chunk->param_grad_buffers().begin(),
+                                   ddp_chunk->param_grad_buffers().end());
+        bucket_groups_.insert(bucket_groups_.end(), ddp_chunk->bucket_groups().begin(),
+                              ddp_chunk->bucket_groups().end());
+    }
+
     BuildShardParamsAndBindGrads();
 
     // Build base optimizer
-    base_optimizer_ = creator_(shard_params_);
+    base_optimizer_ = creator(shard_params_);
     CHECK(base_optimizer_) << "DistributedOptimizer: failed to create base optimizer.";
 }
 
@@ -110,11 +100,18 @@ void DistributedOptimizer::FinishParamSync(bool skip_next_bucket_dispatch) {
 }
 
 void DistributedOptimizer::ZeroGrad(bool set_to_none) {
-    // Zero main_grad buffer and clear BucketGroup state
-    for (auto &buffer : param_grad_buffers_) { buffer->Reset(); }
+    // Clear BucketGroup state and reset buffer:
+    // If set_to_none is true:
+    //   1) buffers will not be zeroed,
+    //   2) each of full_params's tensor->grad() will be set to nullptr
+    // If set_to_none is false:
+    //   1) buffers will be zeroed,
+    //   2) do not perform Fill(0) for each param
+    for (auto &buffer : param_grad_buffers_) { buffer->Reset(set_to_none); }
     for (auto &group : bucket_groups_) { group->Reset(); }
-    // Call base class's method: Zero each param's grad to guarantee consistency
-    infini_train::Optimizer::ZeroGrad(set_to_none);
+    if (set_to_none) {
+        for (auto param : params_) { param->ZeroGrad(set_to_none); }
+    }
 }
 
 void DistributedOptimizer::Step() {