InfiniTensor
diff --git a/‎include/infinicore/ops/asum.hpp‎
Lines changed: 4 additions & 8 deletions b/‎include/infinicore/ops/asum.hpp‎
Lines changed: 4 additions & 8 deletions
diff --git a/‎include/infinicore/ops/blas_amax.hpp‎
Lines changed: 4 additions & 8 deletions b/‎include/infinicore/ops/blas_amax.hpp‎
Lines changed: 4 additions & 8 deletions
diff --git a/‎include/infinicore/ops/blas_amin.hpp‎
Lines changed: 4 additions & 8 deletions b/‎include/infinicore/ops/blas_amin.hpp‎
Lines changed: 4 additions & 8 deletions
diff --git a/‎include/infinicore/ops/blas_copy.hpp‎
Lines changed: 3 additions & 7 deletions b/‎include/infinicore/ops/blas_copy.hpp‎
Lines changed: 3 additions & 7 deletions
diff --git a/‎include/infinicore/ops/swap.hpp‎
Lines changed: 2 additions & 6 deletions b/‎include/infinicore/ops/swap.hpp‎
Lines changed: 2 additions & 6 deletions
diff --git a/‎python/infinicore/ops/asum.py‎
Lines changed: 2 additions & 1 deletion b/‎python/infinicore/ops/asum.py‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎python/infinicore/ops/blas_amax.py‎
Lines changed: 2 additions & 1 deletion b/‎python/infinicore/ops/blas_amax.py‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎python/infinicore/ops/blas_amin.py‎
Lines changed: 2 additions & 1 deletion b/‎python/infinicore/ops/blas_amin.py‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎src/infinicore/ops/asum/asum.cc‎
Lines changed: 13 additions & 13 deletions b/‎src/infinicore/ops/asum/asum.cc‎
Lines changed: 13 additions & 13 deletions
diff --git a/‎src/infinicore/ops/asum/asum_infiniop.cc‎
Lines changed: 34 additions & 40 deletions b/‎src/infinicore/ops/asum/asum_infiniop.cc‎
Lines changed: 34 additions & 40 deletions
@@ -1,18 +1,14 @@
 #pragma once
 
 #include "../device.hpp"
+#include "../graph/graph.hpp"
 #include "common/op.hpp"
 
 namespace infinicore::op {
 
-class Asum {
-public:
-    using schema = void (*)(Tensor, Tensor);
-    static void execute(Tensor result, Tensor x);
-    static common::OpDispatcher<schema> &dispatcher();
-};
+INFINICORE_GRAPH_OP_CLASS(Asum, const Tensor &, Tensor);
 
-Tensor asum(Tensor x);
-void asum_(Tensor result, Tensor x);
+Tensor asum(const Tensor &x);
+void asum_(const Tensor &x, Tensor result);
 
 } // namespace infinicore::op
@@ -1,18 +1,14 @@
 #pragma once
 
 #include "../device.hpp"
+#include "../graph/graph.hpp"
 #include "common/op.hpp"
 
 namespace infinicore::op {
 
-class BlasAmax {
-public:
-    using schema = void (*)(Tensor, Tensor);
-    static void execute(Tensor result, Tensor x);
-    static common::OpDispatcher<schema> &dispatcher();
-};
+INFINICORE_GRAPH_OP_CLASS(BlasAmax, const Tensor &, Tensor);
 
-Tensor blas_amax(Tensor x);
-void blas_amax_(Tensor result, Tensor x);
+Tensor blas_amax(const Tensor &x);
+void blas_amax_(const Tensor &x, Tensor result);
 
 } // namespace infinicore::op
@@ -1,18 +1,14 @@
 #pragma once
 
 #include "../device.hpp"
+#include "../graph/graph.hpp"
 #include "common/op.hpp"
 
 namespace infinicore::op {
 
-class BlasAmin {
-public:
-    using schema = void (*)(Tensor, Tensor);
-    static void execute(Tensor result, Tensor x);
-    static common::OpDispatcher<schema> &dispatcher();
-};
+INFINICORE_GRAPH_OP_CLASS(BlasAmin, const Tensor &, Tensor);
 
-Tensor blas_amin(Tensor x);
-void blas_amin_(Tensor result, Tensor x);
+Tensor blas_amin(const Tensor &x);
+void blas_amin_(const Tensor &x, Tensor result);
 
 } // namespace infinicore::op
@@ -1,17 +1,13 @@
 #pragma once
 
 #include "../device.hpp"
+#include "../graph/graph.hpp"
 #include "common/op.hpp"
 
 namespace infinicore::op {
 
-class BlasCopy {
-public:
-    using schema = void (*)(Tensor, Tensor);
-    static void execute(Tensor x, Tensor y);
-    static common::OpDispatcher<schema> &dispatcher();
-};
+INFINICORE_GRAPH_OP_CLASS(BlasCopy, const Tensor &, Tensor);
 
-void blas_copy_(Tensor x, Tensor y);
+void blas_copy_(const Tensor &x, Tensor y);
 
 } // namespace infinicore::op
@@ -1,16 +1,12 @@
 #pragma once
 
 #include "../device.hpp"
+#include "../graph/graph.hpp"
 #include "common/op.hpp"
 
 namespace infinicore::op {
 
-class Swap {
-public:
-    using schema = void (*)(Tensor, Tensor);
-    static void execute(Tensor x, Tensor y);
-    static common::OpDispatcher<schema> &dispatcher();
-};
+INFINICORE_GRAPH_OP_CLASS(Swap, Tensor, Tensor);
 
 void swap_(Tensor x, Tensor y);
 
 
@@ -6,5 +6,6 @@ def asum(x: Tensor, *, out=None):
     if out is None:
         return Tensor(_infinicore.asum(x._underlying))
 
-    _infinicore.asum_(out._underlying, x._underlying)
+    _infinicore.asum_(x._underlying, out._underlying)
+
     return out
@@ -6,5 +6,6 @@ def blas_amax(x: Tensor, *, out=None):
     if out is None:
         return Tensor(_infinicore.blas_amax(x._underlying))
 
-    _infinicore.blas_amax_(out._underlying, x._underlying)
+    _infinicore.blas_amax_(x._underlying, out._underlying)
+
     return out
@@ -6,5 +6,6 @@ def blas_amin(x: Tensor, *, out=None):
     if out is None:
         return Tensor(_infinicore.blas_amin(x._underlying))
 
-    _infinicore.blas_amin_(out._underlying, x._underlying)
+    _infinicore.blas_amin_(x._underlying, out._underlying)
+
     return out
@@ -4,25 +4,25 @@
 
 namespace infinicore::op {
 
-common::OpDispatcher<Asum::schema> &Asum::dispatcher() {
-    static common::OpDispatcher<Asum::schema> dispatcher_;
-    return dispatcher_;
-};
-
-void Asum::execute(Tensor result, Tensor x) {
-    INFINICORE_ASSERT_TENSORS_SAME_DEVICE(result, x);
-    infinicore::context::setDevice(result->device());
-    dispatcher().lookup(result->device().getType())(result, x);
+INFINICORE_GRAPH_OP_DISPATCHERS_IMPL(Asum);
+
+Asum::Asum(const Tensor &x, Tensor result) {
+    INFINICORE_ASSERT_TENSORS_SAME_DEVICE(x, result);
+    INFINICORE_GRAPH_OP_DISPATCH(result->device().getType(), x, result);
+}
+
+void Asum::execute(const Tensor &x, Tensor result) {
+    INFINICORE_GRAPH_OP_RECORD_OR_RUN(Asum, x, result);
 }
 
-Tensor asum(Tensor x) {
+Tensor asum(const Tensor &x) {
     auto result = Tensor::empty({}, x->dtype(), x->device());
-    asum_(result, x);
+    asum_(x, result);
     return result;
 }
 
-void asum_(Tensor result, Tensor x) {
-    Asum::execute(result, x);
+void asum_(const Tensor &x, Tensor result) {
+    Asum::execute(x, result);
 }
 
 } // namespace infinicore::op
@@ -1,56 +1,50 @@
-#include "../../utils.hpp"
-#include "infinicore/common/hash.hpp"
 #include "infinicore/ops/asum.hpp"
-#include "infinicore/ops/common/cache.hpp"
-#include <infiniop.h>
+
+#include "../infiniop_impl.hpp"
 
 namespace infinicore::op::asum_impl::infiniop {
 
-thread_local common::OpCache<size_t, infiniopAsumDescriptor_t> caches(
-    100, // capacity
-    [](infiniopAsumDescriptor_t &desc) {
-        if (desc != nullptr) {
-            INFINICORE_CHECK_ERROR(infiniopDestroyAsumDescriptor(desc));
-            desc = nullptr;
-        }
-    });
+INFINIOP_CACHABLE_DESCRIPTOR(Descriptor, Asum, 100);
 
-void calculate(Tensor result, Tensor x) {
-    size_t seed = hash_combine(result, x);
+struct PlannedMeta {
+    std::shared_ptr<Descriptor> descriptor;
+    graph::GraphTensor workspace, x, result;
+};
 
-    auto device_type = context::getDevice().getType();
-    auto device_index = context::getDevice().getIndex();
+void *plan(const Tensor &x, Tensor result) {
+    size_t seed = hash_combine(x, result);
 
-    auto &cache = caches.getCache(device_type, device_index);
+    INFINIOP_CACHABLE_DESCRIPTOR_GET_OR_CREATE(
+        Descriptor, descriptor, Asum,
+        seed,
+        x->desc(), result->desc());
 
-    auto desc_opt = cache.get(seed);
-    infiniopAsumDescriptor_t desc = nullptr;
+    INFINIOP_WORKSPACE_TENSOR(workspace, Asum, descriptor);
 
-    if (!desc_opt) {
-        INFINICORE_CHECK_ERROR(infiniopCreateAsumDescriptor(
-            context::getInfiniopHandle(result->device()), &desc,
-            x->desc(), result->desc()));
-        cache.put(seed, desc);
-    } else {
-        desc = *desc_opt;
-    }
+    return new PlannedMeta{
+        descriptor,
+        graph::GraphTensor(workspace),
+        graph::GraphTensor(x),
+        graph::GraphTensor(result)};
+}
 
-    size_t workspace_size = 0;
-    INFINICORE_CHECK_ERROR(infiniopGetAsumWorkspaceSize(desc, &workspace_size));
-    std::shared_ptr<Memory> workspace = context::allocateMemory(workspace_size);
+void run(void *planned_meta) {
+    auto planned = reinterpret_cast<PlannedMeta *>(planned_meta);
 
     INFINICORE_CHECK_ERROR(infiniopAsum(
-        desc, workspace->data(), workspace_size,
-        x->data(), result->data(), context::getStream()));
+        planned->descriptor->desc,
+        planned->workspace->data(),
+        planned->workspace->numel(),
+        planned->x->data(),
+        planned->result->data(),
+        context::getStream()));
+}
+
+void cleanup(void **planned_meta_ptr) {
+    delete *reinterpret_cast<PlannedMeta **>(planned_meta_ptr);
+    *planned_meta_ptr = nullptr;
 }
 
-static bool registered = []() {
-    Asum::dispatcher().registerDevice({Device::Type::CPU,
-                                       Device::Type::CAMBRICON,
-                                       Device::Type::METAX},
-                                      &calculate,
-                                      false);
-    return true;
-}();
+INFINICORE_GRAPH_OP_REGISTER_ALLDEVICE(Asum, &plan, &run, &cleanup);
 
 } // namespace infinicore::op::asum_impl::infiniop