InfiniTensor
diff --git a/‎infini_train/include/common/maca/common_maca.h‎
Lines changed: 1 addition & 1 deletion b/‎infini_train/include/common/maca/common_maca.h‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎infini_train/include/common/maca/kernel_helper.cuh‎
Lines changed: 4 additions & 2 deletions b/‎infini_train/include/common/maca/kernel_helper.cuh‎
Lines changed: 4 additions & 2 deletions
diff --git a/‎infini_train/src/core/ccl/maca/mccl_common.cc‎
Lines changed: 35 additions & 0 deletions b/‎infini_train/src/core/ccl/maca/mccl_common.cc‎
Lines changed: 35 additions & 0 deletions
diff --git a/‎infini_train/src/core/ccl/maca/mccl_common.h‎
Lines changed: 37 additions & 0 deletions b/‎infini_train/src/core/ccl/maca/mccl_common.h‎
Lines changed: 37 additions & 0 deletions
diff --git a/‎infini_train/src/core/ccl/maca/mccl_impl.cc‎
Lines changed: 160 additions & 0 deletions b/‎infini_train/src/core/ccl/maca/mccl_impl.cc‎
Lines changed: 160 additions & 0 deletions
diff --git a/‎infini_train/src/core/ccl/maca/mccl_impl.h‎
Lines changed: 51 additions & 0 deletions b/‎infini_train/src/core/ccl/maca/mccl_impl.h‎
Lines changed: 51 additions & 0 deletions
diff --git a/‎infini_train/src/kernels/maca/cast.maca‎
Lines changed: 56 additions & 0 deletions b/‎infini_train/src/kernels/maca/cast.maca‎
Lines changed: 56 additions & 0 deletions
@@ -1,8 +1,8 @@
 #pragma once
 
+#include <mcblas/mcblas.h>
 #include <mcr/mc_runtime.h>
 #include <mcr/mc_runtime_api.h>
-#include <mcblas/mcblas.h>
 
 #ifdef USE_MCCL
 #include <mccl.h>
 
@@ -65,9 +65,11 @@ template <typename DST, typename SRC> __host__ __device__ DST Cast(SRC &&x) {
     // Fallback for all other conversions
     if constexpr (std::is_same_v<DST_base, __maca_bfloat16> || std::is_same_v<DST_base, __half>
                   || std::is_same_v<SRC_base, __maca_bfloat16> || std::is_same_v<SRC_base, __half>) {
-        return (DST)(static_cast<float>(std::forward<SRC>(x)));;
+        return (DST)(static_cast<float>(std::forward<SRC>(x)));
+        ;
     } else {
-        return static_cast<DST>(std::forward<SRC>(x));;
+        return static_cast<DST>(std::forward<SRC>(x));
+        ;
     }
 }
 
 
@@ -0,0 +1,35 @@
+#include "infini_train/src/core/ccl/maca/mccl_common.h"
+
+#include <cstring>
+
+#include "glog/logging.h"
+
+namespace infini_train::core {
+
+McclComm::McclComm() = default;
+
+McclComm::McclComm(mcclComm_t comm) : mccl_comm_(comm) {}
+
+mcclComm_t McclComm::mccl_comm() const { return mccl_comm_; }
+
+void McclComm::set_mccl_comm(mcclComm_t comm) { mccl_comm_ = comm; }
+
+McclUniqueId::McclUniqueId() = default;
+
+McclUniqueId::McclUniqueId(const mcclUniqueId &id) : id_(id) {}
+
+size_t McclUniqueId::Size() const { return sizeof(id_); }
+
+const void *McclUniqueId::Data() const { return &id_; }
+
+void McclUniqueId::Load(const void *src, size_t size) {
+    CHECK_NOTNULL(src);
+    CHECK_EQ(size, sizeof(id_));
+    std::memcpy(&id_, src, sizeof(id_));
+}
+
+mcclUniqueId *McclUniqueId::mccl_unique_id() { return &id_; }
+
+const mcclUniqueId *McclUniqueId::mccl_unique_id() const { return &id_; }
+
+} // namespace infini_train::core
@@ -0,0 +1,37 @@
+#pragma once
+
+#include <mccl.h>
+
+#include "infini_train/include/core/ccl/ccl_common.h"
+
+namespace infini_train::core {
+
+class McclComm final : public CclComm {
+public:
+    McclComm();
+    explicit McclComm(mcclComm_t comm);
+
+    mcclComm_t mccl_comm() const;
+    void set_mccl_comm(mcclComm_t comm);
+
+private:
+    mcclComm_t mccl_comm_ = nullptr;
+};
+
+class McclUniqueId final : public CclUniqueId {
+public:
+    McclUniqueId();
+    explicit McclUniqueId(const mcclUniqueId &id);
+
+    size_t Size() const override;
+    const void *Data() const override;
+    void Load(const void *src, size_t size) override;
+
+    mcclUniqueId *mccl_unique_id();
+    const mcclUniqueId *mccl_unique_id() const;
+
+private:
+    mcclUniqueId id_;
+};
+
+} // namespace infini_train::core
@@ -0,0 +1,160 @@
+#include "infini_train/src/core/ccl/maca/mccl_impl.h"
+
+#include <mccl.h>
+#include <vector>
+
+#include "glog/logging.h"
+
+#include "infini_train/include/common/maca/common_maca.h"
+#include "infini_train/include/core/runtime/runtime_common.h"
+#include "infini_train/include/device.h"
+
+#include "infini_train/src/core/ccl/maca/mccl_common.h"
+#include "infini_train/src/core/runtime/maca/maca_runtime_common.h"
+
+namespace infini_train::core::maca {
+namespace {
+
+inline const std::unordered_map<DataType, mcclDataType_t> kMcclDtypeMap = {
+    {DataType::kUINT8, mcclUint8},       {DataType::kINT8, mcclInt8},     {DataType::kUINT32, mcclUint32},
+    {DataType::kINT32, mcclInt32},       {DataType::kUINT64, mcclUint64}, {DataType::kINT64, mcclInt64},
+    {DataType::kBFLOAT16, mcclBfloat16}, {DataType::kFLOAT16, mcclHalf},  {DataType::kFLOAT32, mcclFloat32},
+    {DataType::kFLOAT64, mcclFloat64},
+};
+
+inline const std::unordered_map<nn::parallel::function::ReduceOpType, mcclRedOp_t> kMcclReduceOpMap = {
+    {nn::parallel::function::ReduceOpType::kSum, mcclSum}, {nn::parallel::function::ReduceOpType::kProd, mcclProd},
+    {nn::parallel::function::ReduceOpType::kMin, mcclMin}, {nn::parallel::function::ReduceOpType::kMax, mcclMax},
+    {nn::parallel::function::ReduceOpType::kAvg, mcclAvg},
+};
+
+inline mcclComm_t GetMcclComm(const CclComm *comm) {
+    auto *mccl_comm = dynamic_cast<const McclComm *>(comm);
+    CHECK_NOTNULL(mccl_comm);
+    return mccl_comm->mccl_comm();
+}
+
+inline void SetMcclComm(CclComm *comm, mcclComm_t mccl_comm) {
+    auto *typed_comm = dynamic_cast<McclComm *>(comm);
+    CHECK_NOTNULL(typed_comm);
+    typed_comm->set_mccl_comm(mccl_comm);
+}
+
+inline const mcclUniqueId &GetMcclUniqueId(const CclUniqueId &unique_id) {
+    auto *mccl_unique_id = dynamic_cast<const McclUniqueId *>(&unique_id);
+    CHECK_NOTNULL(mccl_unique_id);
+    return *mccl_unique_id->mccl_unique_id();
+}
+
+inline mcStream_t GetMacaStream(Stream *stream) {
+    auto *maca_stream = dynamic_cast<MacaStream *>(stream);
+    CHECK_NOTNULL(maca_stream);
+    return maca_stream->maca_stream();
+}
+
+} // namespace
+
+Device::DeviceType McclImpl::Type() const { return Device::DeviceType::kMACA; }
+
+void McclImpl::GroupStart() const { MCCL_CHECK(mcclGroupStart()); }
+
+void McclImpl::GroupEnd() const { MCCL_CHECK(mcclGroupEnd()); }
+
+void McclImpl::GetAsyncError(const CclComm *comm, CclStatus *async_error) const {
+    mcclResult_t mccl_async_error = mcclSuccess;
+    MCCL_CHECK(mcclCommGetAsyncError(GetMcclComm(comm), &mccl_async_error));
+    if (async_error != nullptr) {
+        *async_error = (mccl_async_error == mcclSuccess) ? CclStatus::kSuccess : CclStatus::kError;
+    }
+}
+
+void McclImpl::GetUniqueId(CclUniqueId **unique_id) const {
+    CHECK_NOTNULL(unique_id);
+    if (*unique_id == nullptr) {
+        *unique_id = new McclUniqueId();
+    }
+    auto *mccl_unique_id = dynamic_cast<McclUniqueId *>(*unique_id);
+    CHECK_NOTNULL(mccl_unique_id);
+    MCCL_CHECK(mcclGetUniqueId(mccl_unique_id->mccl_unique_id()));
+}
+
+void McclImpl::CommInitAll(CclComm **comms, int ndev, const int *devlist) const {
+    CHECK_NOTNULL(comms);
+    CHECK_GT(ndev, 0);
+    CHECK_NOTNULL(devlist);
+
+    std::vector<mcclComm_t> mccl_comms(static_cast<size_t>(ndev), nullptr);
+    MCCL_CHECK(mcclCommInitAll(mccl_comms.data(), ndev, devlist));
+    for (int i = 0; i < ndev; ++i) {
+        if (comms[i] == nullptr) {
+            comms[i] = new McclComm();
+        }
+        SetMcclComm(comms[i], mccl_comms[static_cast<size_t>(i)]);
+    }
+}
+
+void McclImpl::CommInitRank(CclComm **comm, int nranks, const CclUniqueId &unique_id, int rank) const {
+    CHECK_NOTNULL(comm);
+    CHECK_GT(nranks, 0);
+
+    if (*comm == nullptr) {
+        *comm = new McclComm();
+    }
+
+    mcclComm_t mccl_comm = nullptr;
+    MCCL_CHECK(mcclCommInitRank(&mccl_comm, nranks, GetMcclUniqueId(unique_id), rank));
+    SetMcclComm(*comm, mccl_comm);
+}
+
+void McclImpl::CommDestroy(CclComm *comm) const {
+    if (comm == nullptr) {
+        return;
+    }
+    MCCL_CHECK(mcclCommDestroy(GetMcclComm(comm)));
+    SetMcclComm(comm, nullptr);
+}
+
+void McclImpl::AllReduce(const void *sendbuff, void *recvbuff, size_t count, DataType dtype,
+                         nn::parallel::function::ReduceOpType reduce_op, const CclComm *comm, Stream *stream) const {
+    MCCL_CHECK(mcclAllReduce(sendbuff, recvbuff, count, kMcclDtypeMap.at(dtype), kMcclReduceOpMap.at(reduce_op),
+                             GetMcclComm(comm), GetMacaStream(stream)));
+}
+
+void McclImpl::Broadcast(const void *sendbuff, void *recvbuff, size_t count, DataType dtype, int root,
+                         const CclComm *comm, Stream *stream) const {
+    MCCL_CHECK(mcclBroadcast(sendbuff, recvbuff, count, kMcclDtypeMap.at(dtype), root, GetMcclComm(comm),
+                             GetMacaStream(stream)));
+}
+
+void McclImpl::Reduce(const void *sendbuff, void *recvbuff, size_t count, DataType dtype,
+                      nn::parallel::function::ReduceOpType reduce_op, int root, const CclComm *comm,
+                      Stream *stream) const {
+    MCCL_CHECK(mcclReduce(sendbuff, recvbuff, count, kMcclDtypeMap.at(dtype), kMcclReduceOpMap.at(reduce_op), root,
+                          GetMcclComm(comm), GetMacaStream(stream)));
+}
+
+void McclImpl::AllGather(const void *sendbuff, void *recvbuff, size_t count, DataType dtype, const CclComm *comm,
+                         Stream *stream) const {
+    MCCL_CHECK(
+        mcclAllGather(sendbuff, recvbuff, count, kMcclDtypeMap.at(dtype), GetMcclComm(comm), GetMacaStream(stream)));
+}
+
+void McclImpl::ReduceScatter(const void *sendbuff, void *recvbuff, size_t recv_count, DataType dtype,
+                             nn::parallel::function::ReduceOpType reduce_op, const CclComm *comm,
+                             Stream *stream) const {
+    MCCL_CHECK(mcclReduceScatter(sendbuff, recvbuff, recv_count, kMcclDtypeMap.at(dtype),
+                                 kMcclReduceOpMap.at(reduce_op), GetMcclComm(comm), GetMacaStream(stream)));
+}
+
+void McclImpl::Send(const void *buff, size_t count, DataType dtype, int peer, const CclComm *comm,
+                    Stream *stream) const {
+    MCCL_CHECK(mcclSend(buff, count, kMcclDtypeMap.at(dtype), peer, GetMcclComm(comm), GetMacaStream(stream)));
+}
+
+void McclImpl::Recv(void *buff, size_t count, DataType dtype, int peer, const CclComm *comm, Stream *stream) const {
+    MCCL_CHECK(mcclRecv(buff, count, kMcclDtypeMap.at(dtype), peer, GetMcclComm(comm), GetMacaStream(stream)));
+}
+
+INFINI_TRAIN_REGISTER_CCL_IMPL(Device::DeviceType::kMACA, McclImpl)
+
+} // namespace infini_train::core::maca
@@ -0,0 +1,51 @@
+#pragma once
+
+#include <string>
+#include <unordered_map>
+
+#include "infini_train/include/core/ccl/ccl.h"
+
+namespace infini_train::core::maca {
+
+class McclImpl final : public CclImpl {
+public:
+    Device::DeviceType Type() const override;
+
+    void GroupStart() const override;
+
+    void GroupEnd() const override;
+
+    void GetAsyncError(const CclComm *comm, CclStatus *async_error) const override;
+
+    void GetUniqueId(CclUniqueId **unique_id) const override;
+
+    void CommInitAll(CclComm **comms, int ndev, const int *devlist) const override;
+
+    void CommInitRank(CclComm **comm, int nranks, const CclUniqueId &unique_id, int rank) const override;
+
+    void CommDestroy(CclComm *comm) const override;
+
+    void AllReduce(const void *sendbuff, void *recvbuff, size_t count, DataType dtype,
+                   nn::parallel::function::ReduceOpType reduce_op, const CclComm *comm, Stream *stream) const override;
+
+    void Broadcast(const void *sendbuff, void *recvbuff, size_t count, DataType dtype, int root, const CclComm *comm,
+                   Stream *stream) const override;
+
+    void Reduce(const void *sendbuff, void *recvbuff, size_t count, DataType dtype,
+                nn::parallel::function::ReduceOpType reduce_op, int root, const CclComm *comm,
+                Stream *stream) const override;
+
+    void AllGather(const void *sendbuff, void *recvbuff, size_t count, DataType dtype, const CclComm *comm,
+                   Stream *stream) const override;
+
+    void ReduceScatter(const void *sendbuff, void *recvbuff, size_t recv_count, DataType dtype,
+                       nn::parallel::function::ReduceOpType reduce_op, const CclComm *comm,
+                       Stream *stream) const override;
+
+    void Send(const void *buff, size_t count, DataType dtype, int peer, const CclComm *comm,
+              Stream *stream) const override;
+
+    void Recv(void *buff, size_t count, DataType dtype, int peer, const CclComm *comm, Stream *stream) const override;
+};
+
+} // namespace infini_train::core::maca
@@ -0,0 +1,56 @@
+#include <memory>
+
+#include "infini_train/include/common/common.h"
+#include "infini_train/include/common/maca/kernel_helper.cuh"
+#include "infini_train/include/core/runtime/device_guard.h"
+#include "infini_train/include/datatype.h"
+#include "infini_train/include/device.h"
+#include "infini_train/include/dispatcher.h"
+#include "infini_train/include/tensor.h"
+
+#include "infini_train/src/core/runtime/maca/maca_runtime_common.h"
+
+namespace infini_train::kernels::maca {
+
+template <typename Tdst, typename Tsrc>
+__global__ void CastKernel(Tdst *dst, const Tsrc *src, size_t num_elements, size_t offset) {
+    size_t idx = blockIdx.x * blockDim.x + threadIdx.x + offset;
+
+    if (idx < num_elements) {
+        dst[idx] = common::maca::Cast<Tdst>(src[idx]);
+    }
+}
+
+std::shared_ptr<Tensor> Cast(std::shared_ptr<Tensor> input, DataType dtype) {
+    auto dst_tensor = std::make_shared<Tensor>(input->Dims(), dtype, input->GetDevice());
+    auto device = input->GetDevice();
+    const auto &maca_stream = dynamic_cast<infini_train::core::maca::MacaStream *>(
+                                  infini_train::core::GetDeviceGuardImpl(device.type())->GetStream(device))
+                                  ->maca_stream();
+
+    const size_t num_elements = input->NumElements();
+    dim3 block_dims(256);
+    dim3 grid_dims(CEIL_DIV(num_elements, block_dims.x));
+    const size_t step = grid_dims.x * block_dims.x;
+
+    DispatchFunc<DataTypeList<INFINI_ALL_TYPES>, DataTypeList<INFINI_ALL_TYPES>>(
+        {dtype, input->Dtype()},
+        [=]<typename Tdst, typename Tsrc>() {
+            auto dst = static_cast<Tdst *>(dst_tensor->DataPtr());
+            auto src = static_cast<const Tsrc *>(input->DataPtr());
+            for (size_t offset = 0; offset < num_elements; offset += step) {
+                CastKernel<<<grid_dims, block_dims, 0, maca_stream>>>(dst, src, num_elements, offset);
+            }
+        },
+        "MACA Cast");
+
+    return {dst_tensor};
+}
+} // namespace infini_train::kernels::maca
+
+#define REGISTER_MACA_CAST_KERNEL(kernel_name)                                                                         \
+    REGISTER_KERNEL(infini_train::Device::DeviceType::kMACA, kernel_name, infini_train::kernels::maca::kernel_name)
+
+REGISTER_MACA_CAST_KERNEL(Cast)
+
+#undef REGISTER_MACA_CAST_KERNEL
Original file line number	Diff line number	Diff line change
`@@ -65,9 +65,11 @@ template <typename DST, typename SRC> __host__ __device__ DST Cast(SRC &&x) {`
`65`	`65`	`// Fallback for all other conversions`
`66`	`66`	`if constexpr (std::is_same_v<DST_base, __maca_bfloat16> \|\| std::is_same_v<DST_base, __half>`
`67`	`67`	`\|\| std::is_same_v<SRC_base, __maca_bfloat16> \|\| std::is_same_v<SRC_base, __half>) {`
`68`		`- return (DST)(static_cast<float>(std::forward<SRC>(x)));;`
	`68`	`+ return (DST)(static_cast<float>(std::forward<SRC>(x)));`
	`69`	`+ ;`
`69`	`70`	`} else {`
`70`		`- return static_cast<DST>(std::forward<SRC>(x));;`
	`71`	`+ return static_cast<DST>(std::forward<SRC>(x));`
	`72`	`+ ;`
`71`	`73`	`}`
`72`	`74`	`}`
`73`	`75`