InfiniTensor
diff --git a/‎include/infinicore/ops.hpp‎
Lines changed: 7 additions & 0 deletions b/‎include/infinicore/ops.hpp‎
Lines changed: 7 additions & 0 deletions
diff --git a/‎include/infinicore/ops/conv2d.hpp‎
Lines changed: 38 additions & 0 deletions b/‎include/infinicore/ops/conv2d.hpp‎
Lines changed: 38 additions & 0 deletions
diff --git a/‎include/infinicore/ops/gelu.hpp‎
Lines changed: 16 additions & 0 deletions b/‎include/infinicore/ops/gelu.hpp‎
Lines changed: 16 additions & 0 deletions
diff --git a/‎include/infinicore/ops/gelutanh.hpp‎
Lines changed: 16 additions & 0 deletions b/‎include/infinicore/ops/gelutanh.hpp‎
Lines changed: 16 additions & 0 deletions
diff --git a/‎include/infinicore/ops/quickgelu.hpp‎
Lines changed: 16 additions & 0 deletions b/‎include/infinicore/ops/quickgelu.hpp‎
Lines changed: 16 additions & 0 deletions
diff --git a/‎include/infinicore/ops/relu.hpp‎
Lines changed: 16 additions & 0 deletions b/‎include/infinicore/ops/relu.hpp‎
Lines changed: 16 additions & 0 deletions
diff --git a/‎include/infinicore/ops/softmax.hpp‎
Lines changed: 16 additions & 0 deletions b/‎include/infinicore/ops/softmax.hpp‎
Lines changed: 16 additions & 0 deletions
diff --git a/‎src/infinicore/ops/conv2d/conv2d.cc‎
Lines changed: 67 additions & 0 deletions b/‎src/infinicore/ops/conv2d/conv2d.cc‎
Lines changed: 67 additions & 0 deletions
diff --git a/‎src/infinicore/ops/conv2d/conv2d_infiniop.cc‎
Lines changed: 69 additions & 0 deletions b/‎src/infinicore/ops/conv2d/conv2d_infiniop.cc‎
Lines changed: 69 additions & 0 deletions
diff --git a/‎src/infinicore/ops/gelu/gelu.cc‎
Lines changed: 37 additions & 0 deletions b/‎src/infinicore/ops/gelu/gelu.cc‎
Lines changed: 37 additions & 0 deletions
@@ -14,27 +14,34 @@
 #include "ops/binary_cross_entropy_with_logits.hpp"
 #include "ops/causal_softmax.hpp"
 #include "ops/cdist.hpp"
+#include "ops/conv2d.hpp"
 #include "ops/cross_entropy.hpp"
 #include "ops/embedding.hpp"
 #include "ops/flash_attention.hpp"
 #include "ops/fmin.hpp"
 #include "ops/fmod.hpp"
+#include "ops/gelu.hpp"
+#include "ops/gelutanh.hpp"
 #include "ops/hardswish.hpp"
 #include "ops/hardtanh.hpp"
 #include "ops/kv_caching.hpp"
 #include "ops/layer_norm.hpp"
+#include "ops/linear.hpp"
 #include "ops/matmul.hpp"
 #include "ops/ones.hpp"
 #include "ops/paged_attention.hpp"
 #include "ops/paged_attention_prefill.hpp"
 #include "ops/paged_caching.hpp"
 #include "ops/per_tensor_dequant_i8.hpp"
 #include "ops/per_tensor_quant_i8.hpp"
+#include "ops/quickgelu.hpp"
 #include "ops/random_sample.hpp"
 #include "ops/rearrange.hpp"
 #include "ops/reciprocal.hpp"
+#include "ops/relu.hpp"
 #include "ops/rms_norm.hpp"
 #include "ops/rope.hpp"
 #include "ops/silu.hpp"
 #include "ops/silu_and_mul.hpp"
+#include "ops/softmax.hpp"
 #include "ops/swiglu.hpp"
@@ -0,0 +1,38 @@
+#pragma once
+
+#include "../device.hpp"
+#include "common/op.hpp"
+
+#include <cstddef>
+#include <vector>
+
+namespace infinicore::op {
+class Conv2d {
+public:
+    using schema = void (*)(Tensor, Tensor, Tensor, Tensor,
+                            const size_t *, const size_t *, const size_t *, size_t);
+    static void execute(Tensor output,
+                        Tensor input,
+                        Tensor weight,
+                        Tensor bias,
+                        const size_t *pads,
+                        const size_t *strides,
+                        const size_t *dilations,
+                        size_t n);
+    static common::OpDispatcher<schema> &dispatcher();
+};
+
+Tensor conv2d(Tensor input,
+              Tensor weight,
+              Tensor bias,
+              const std::vector<size_t> &pads,
+              const std::vector<size_t> &strides,
+              const std::vector<size_t> &dilations);
+void conv2d_(Tensor output,
+             Tensor input,
+             Tensor weight,
+             Tensor bias,
+             const std::vector<size_t> &pads,
+             const std::vector<size_t> &strides,
+             const std::vector<size_t> &dilations);
+} // namespace infinicore::op
@@ -0,0 +1,16 @@
+#pragma once
+
+#include "../device.hpp"
+#include "common/op.hpp"
+
+namespace infinicore::op {
+class Gelu {
+public:
+    using schema = void (*)(Tensor, Tensor);
+    static void execute(Tensor output, Tensor input);
+    static common::OpDispatcher<schema> &dispatcher();
+};
+
+Tensor gelu(Tensor input);
+void gelu_(Tensor output, Tensor input);
+} // namespace infinicore::op
@@ -0,0 +1,16 @@
+#pragma once
+
+#include "../device.hpp"
+#include "common/op.hpp"
+
+namespace infinicore::op {
+class GeluTanh {
+public:
+    using schema = void (*)(Tensor, Tensor);
+    static void execute(Tensor output, Tensor input);
+    static common::OpDispatcher<schema> &dispatcher();
+};
+
+Tensor gelu_tanh(Tensor input);
+void gelu_tanh_(Tensor output, Tensor input);
+} // namespace infinicore::op
@@ -0,0 +1,16 @@
+#pragma once
+
+#include "../device.hpp"
+#include "common/op.hpp"
+
+namespace infinicore::op {
+class QuickGelu {
+public:
+    using schema = void (*)(Tensor, Tensor);
+    static void execute(Tensor output, Tensor input);
+    static common::OpDispatcher<schema> &dispatcher();
+};
+
+Tensor quick_gelu(Tensor input);
+void quick_gelu_(Tensor output, Tensor input);
+} // namespace infinicore::op
@@ -0,0 +1,16 @@
+#pragma once
+
+#include "../device.hpp"
+#include "common/op.hpp"
+
+namespace infinicore::op {
+class Relu {
+public:
+    using schema = void (*)(Tensor, Tensor);
+    static void execute(Tensor output, Tensor input);
+    static common::OpDispatcher<schema> &dispatcher();
+};
+
+Tensor relu(Tensor input);
+void relu_(Tensor output, Tensor input);
+} // namespace infinicore::op
@@ -0,0 +1,16 @@
+#pragma once
+
+#include "../device.hpp"
+#include "common/op.hpp"
+
+namespace infinicore::op {
+class Softmax {
+public:
+    using schema = void (*)(Tensor, Tensor, int);
+    static void execute(Tensor output, Tensor input, int axis);
+    static common::OpDispatcher<schema> &dispatcher();
+};
+
+Tensor softmax(Tensor input, int axis = -1);
+void softmax_(Tensor output, Tensor input, int axis = -1);
+} // namespace infinicore::op
@@ -0,0 +1,67 @@
+#include "infinicore/ops/conv2d.hpp"
+
+#include "../../utils.hpp"
+
+#include <stdexcept>
+
+namespace infinicore::op {
+
+common::OpDispatcher<Conv2d::schema> &Conv2d::dispatcher() {
+    static common::OpDispatcher<Conv2d::schema> dispatcher_;
+    return dispatcher_;
+};
+
+void Conv2d::execute(Tensor output,
+                     Tensor input,
+                     Tensor weight,
+                     Tensor bias,
+                     const size_t *pads,
+                     const size_t *strides,
+                     const size_t *dilations,
+                     size_t n) {
+    INFINICORE_ASSERT_TENSORS_SAME_DEVICE(output, input, weight, bias);
+    infinicore::context::setDevice(output->device());
+    auto device_type = output->device().getType();
+    auto func = dispatcher().lookup(device_type);
+
+    if (func == nullptr) {
+        throw std::runtime_error("No Conv2d implementation found for device type: " + std::to_string(static_cast<int>(device_type)));
+    }
+
+    func(output, input, weight, bias, pads, strides, dilations, n);
+}
+
+Tensor conv2d(Tensor input,
+              Tensor weight,
+              Tensor bias,
+              const std::vector<size_t> &pads,
+              const std::vector<size_t> &strides,
+              const std::vector<size_t> &dilations) {
+    // Output shape should be pre-computed by caller; allocate a conservative placeholder.
+    // This helper is rarely used in performance-critical paths.
+    Shape shape = input->shape();
+    auto output = Tensor::empty(shape, input->dtype(), input->device());
+    conv2d_(output, input, weight, bias, pads, strides, dilations);
+    return output;
+}
+
+void conv2d_(Tensor output,
+             Tensor input,
+             Tensor weight,
+             Tensor bias,
+             const std::vector<size_t> &pads,
+             const std::vector<size_t> &strides,
+             const std::vector<size_t> &dilations) {
+    if (pads.size() != strides.size() || pads.size() != dilations.size()) {
+        throw std::runtime_error("conv2d_: pads/strides/dilations must have the same size");
+    }
+    Conv2d::execute(output,
+                    input,
+                    weight,
+                    bias,
+                    pads.data(),
+                    strides.data(),
+                    dilations.data(),
+                    pads.size());
+}
+} // namespace infinicore::op
@@ -0,0 +1,69 @@
+#include "../../utils.hpp"
+#include "infinicore/common/hash.hpp"
+#include "infinicore/ops/common/cache.hpp"
+#include "infinicore/ops/conv2d.hpp"
+#include <infiniop.h>
+
+namespace infinicore::op::conv2d_impl::infiniop {
+
+thread_local common::OpCache<size_t, infiniopConvDescriptor_t> caches(
+    100, // capacity
+    [](infiniopConvDescriptor_t &desc) {
+        if (desc != nullptr) {
+            INFINICORE_CHECK_ERROR(infiniopDestroyConvDescriptor(desc));
+            desc = nullptr;
+        }
+    });
+
+void calculate(Tensor output,
+               Tensor input,
+               Tensor weight,
+               Tensor bias,
+               const size_t *pads,
+               const size_t *strides,
+               const size_t *dilations,
+               size_t n) {
+    size_t seed = hash_combine(output, input, weight, bias, n);
+    for (size_t i = 0; i < n; ++i) {
+        hash_combine(seed, pads[i], strides[i], dilations[i]);
+    }
+
+    auto device = context::getDevice();
+    auto &cache = caches.getCache(device);
+
+    auto desc_opt = cache.get(seed);
+    infiniopConvDescriptor_t desc = nullptr;
+
+    if (!desc_opt) {
+        INFINICORE_CHECK_ERROR(infiniopCreateConvDescriptor(
+            context::getInfiniopHandle(device), &desc,
+            output->desc(), input->desc(), weight->desc(),
+            bias ? bias->desc() : nullptr,
+            const_cast<size_t *>(pads),
+            const_cast<size_t *>(strides),
+            const_cast<size_t *>(dilations),
+            n));
+        cache.put(seed, desc);
+    } else {
+        desc = *desc_opt;
+    }
+
+    size_t workspace_size = 0;
+    INFINICORE_CHECK_ERROR(infiniopGetConvWorkspaceSize(desc, &workspace_size));
+    std::shared_ptr<Memory> workspace = context::allocateMemory(workspace_size);
+
+    INFINICORE_CHECK_ERROR(infiniopConv(
+        desc, workspace->data(), workspace_size,
+        output->data(),
+        input->data(),
+        weight->data(),
+        bias ? bias->data() : nullptr,
+        context::getStream()));
+}
+
+static bool registered = []() {
+    Conv2d::dispatcher().registerAll(&calculate, false);
+    return true;
+}();
+
+} // namespace infinicore::op::conv2d_impl::infiniop
@@ -0,0 +1,37 @@
+#include "infinicore/ops/gelu.hpp"
+
+#include "../../utils.hpp"
+
+#include <stdexcept>
+
+namespace infinicore::op {
+
+common::OpDispatcher<Gelu::schema> &Gelu::dispatcher() {
+    static common::OpDispatcher<Gelu::schema> dispatcher_;
+    return dispatcher_;
+};
+
+void Gelu::execute(Tensor output, Tensor input) {
+    INFINICORE_ASSERT_TENSORS_SAME_DEVICE(output, input);
+    infinicore::context::setDevice(output->device());
+    auto device_type = output->device().getType();
+    auto func = dispatcher().lookup(device_type);
+
+    if (func == nullptr) {
+        throw std::runtime_error("No Gelu implementation found for device type: " + std::to_string(static_cast<int>(device_type)));
+    }
+
+    func(output, input);
+}
+
+Tensor gelu(Tensor input) {
+    Shape shape = input->shape();
+    auto output = Tensor::empty(shape, input->dtype(), input->device());
+    gelu_(output, input);
+    return output;
+}
+
+void gelu_(Tensor output, Tensor input) {
+    Gelu::execute(output, input);
+}
+} // namespace infinicore::op