InfiniTensor
diff --git a/‎include/infiniop.h‎
Lines changed: 5 additions & 0 deletions b/‎include/infiniop.h‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎include/infiniop/ops/erf.h‎
Lines changed: 24 additions & 0 deletions b/‎include/infiniop/ops/erf.h‎
Lines changed: 24 additions & 0 deletions
diff --git a/‎include/infiniop/ops/erfc.h‎
Lines changed: 24 additions & 0 deletions b/‎include/infiniop/ops/erfc.h‎
Lines changed: 24 additions & 0 deletions
diff --git a/‎include/infiniop/ops/erfinv.h‎
Lines changed: 24 additions & 0 deletions b/‎include/infiniop/ops/erfinv.h‎
Lines changed: 24 additions & 0 deletions
diff --git a/‎include/infiniop/ops/matrix_power.h‎
Lines changed: 25 additions & 0 deletions b/‎include/infiniop/ops/matrix_power.h‎
Lines changed: 25 additions & 0 deletions
diff --git a/‎include/infiniop/ops/pixel_shuffle.h‎
Lines changed: 25 additions & 0 deletions b/‎include/infiniop/ops/pixel_shuffle.h‎
Lines changed: 25 additions & 0 deletions
diff --git a/‎src/infiniop/ops/erf/cpu/erf_cpu.cc‎
Lines changed: 52 additions & 0 deletions b/‎src/infiniop/ops/erf/cpu/erf_cpu.cc‎
Lines changed: 52 additions & 0 deletions
diff --git a/‎src/infiniop/ops/erf/cpu/erf_cpu.h‎
Lines changed: 20 additions & 0 deletions b/‎src/infiniop/ops/erf/cpu/erf_cpu.h‎
Lines changed: 20 additions & 0 deletions
diff --git a/‎src/infiniop/ops/erf/cuda/kernel.cuh‎
Lines changed: 33 additions & 0 deletions b/‎src/infiniop/ops/erf/cuda/kernel.cuh‎
Lines changed: 33 additions & 0 deletions
diff --git a/‎src/infiniop/ops/erf/erf.h‎
Lines changed: 8 additions & 0 deletions b/‎src/infiniop/ops/erf/erf.h‎
Lines changed: 8 additions & 0 deletions
@@ -36,6 +36,9 @@
 #include "infiniop/ops/dot.h"
 #include "infiniop/ops/embedding.h"
 #include "infiniop/ops/equal.h"
+#include "infiniop/ops/erf.h"
+#include "infiniop/ops/erfc.h"
+#include "infiniop/ops/erfinv.h"
 #include "infiniop/ops/flash_attention.h"
 #include "infiniop/ops/flipud.h"
 #include "infiniop/ops/float_power.h"
@@ -70,13 +73,15 @@
 #include "infiniop/ops/logdet.h"
 #include "infiniop/ops/lp_norm.h"
 #include "infiniop/ops/masked_select.h"
+#include "infiniop/ops/matrix_power.h"
 #include "infiniop/ops/mul.h"
 #include "infiniop/ops/multi_margin_loss.h"
 #include "infiniop/ops/ones.h"
 #include "infiniop/ops/pad.h"
 #include "infiniop/ops/paged_attention.h"
 #include "infiniop/ops/paged_attention_prefill.h"
 #include "infiniop/ops/paged_caching.h"
+#include "infiniop/ops/pixel_shuffle.h"
 #include "infiniop/ops/quant/per_channel_quant_int8.h"
 #include "infiniop/ops/quant/per_tensor_quant_int8.h"
 #include "infiniop/ops/random_sample.h"
 
@@ -0,0 +1,24 @@
+#ifndef __INFINIOP_ERF_API_H__
+#define __INFINIOP_ERF_API_H__
+
+#include "../operator_descriptor.h"
+
+typedef struct InfiniopDescriptor *infiniopErfDescriptor_t;
+
+__INFINI_C __export infiniStatus_t infiniopCreateErfDescriptor(infiniopHandle_t handle,
+                                                               infiniopErfDescriptor_t *desc_ptr,
+                                                               infiniopTensorDescriptor_t y,
+                                                               infiniopTensorDescriptor_t x);
+
+__INFINI_C __export infiniStatus_t infiniopGetErfWorkspaceSize(infiniopErfDescriptor_t desc, size_t *size);
+
+__INFINI_C __export infiniStatus_t infiniopErf(infiniopErfDescriptor_t desc,
+                                               void *workspace,
+                                               size_t workspace_size,
+                                               void *y,
+                                               const void *x,
+                                               void *stream);
+
+__INFINI_C __export infiniStatus_t infiniopDestroyErfDescriptor(infiniopErfDescriptor_t desc);
+
+#endif
@@ -0,0 +1,24 @@
+#ifndef __INFINIOP_ERFC_API_H__
+#define __INFINIOP_ERFC_API_H__
+
+#include "../operator_descriptor.h"
+
+typedef struct InfiniopDescriptor *infiniopErfcDescriptor_t;
+
+__INFINI_C __export infiniStatus_t infiniopCreateErfcDescriptor(infiniopHandle_t handle,
+                                                                infiniopErfcDescriptor_t *desc_ptr,
+                                                                infiniopTensorDescriptor_t y,
+                                                                infiniopTensorDescriptor_t x);
+
+__INFINI_C __export infiniStatus_t infiniopGetErfcWorkspaceSize(infiniopErfcDescriptor_t desc, size_t *size);
+
+__INFINI_C __export infiniStatus_t infiniopErfc(infiniopErfcDescriptor_t desc,
+                                                void *workspace,
+                                                size_t workspace_size,
+                                                void *y,
+                                                const void *x,
+                                                void *stream);
+
+__INFINI_C __export infiniStatus_t infiniopDestroyErfcDescriptor(infiniopErfcDescriptor_t desc);
+
+#endif
@@ -0,0 +1,24 @@
+#ifndef __INFINIOP_ERFINV_API_H__
+#define __INFINIOP_ERFINV_API_H__
+
+#include "../operator_descriptor.h"
+
+typedef struct InfiniopDescriptor *infiniopErfinvDescriptor_t;
+
+__INFINI_C __export infiniStatus_t infiniopCreateErfinvDescriptor(infiniopHandle_t handle,
+                                                                  infiniopErfinvDescriptor_t *desc_ptr,
+                                                                  infiniopTensorDescriptor_t y,
+                                                                  infiniopTensorDescriptor_t x);
+
+__INFINI_C __export infiniStatus_t infiniopGetErfinvWorkspaceSize(infiniopErfinvDescriptor_t desc, size_t *size);
+
+__INFINI_C __export infiniStatus_t infiniopErfinv(infiniopErfinvDescriptor_t desc,
+                                                  void *workspace,
+                                                  size_t workspace_size,
+                                                  void *y,
+                                                  const void *x,
+                                                  void *stream);
+
+__INFINI_C __export infiniStatus_t infiniopDestroyErfinvDescriptor(infiniopErfinvDescriptor_t desc);
+
+#endif
@@ -0,0 +1,25 @@
+#ifndef __INFINIOP_MATRIX_POWER_API_H__
+#define __INFINIOP_MATRIX_POWER_API_H__
+
+#include "../operator_descriptor.h"
+
+typedef struct InfiniopDescriptor *infiniopMatrixPowerDescriptor_t;
+
+__INFINI_C __export infiniStatus_t infiniopCreateMatrixPowerDescriptor(infiniopHandle_t handle,
+                                                                       infiniopMatrixPowerDescriptor_t *desc_ptr,
+                                                                       infiniopTensorDescriptor_t y,
+                                                                       infiniopTensorDescriptor_t x,
+                                                                       int n);
+
+__INFINI_C __export infiniStatus_t infiniopGetMatrixPowerWorkspaceSize(infiniopMatrixPowerDescriptor_t desc, size_t *size);
+
+__INFINI_C __export infiniStatus_t infiniopMatrixPower(infiniopMatrixPowerDescriptor_t desc,
+                                                       void *workspace,
+                                                       size_t workspace_size,
+                                                       void *y,
+                                                       const void *x,
+                                                       void *stream);
+
+__INFINI_C __export infiniStatus_t infiniopDestroyMatrixPowerDescriptor(infiniopMatrixPowerDescriptor_t desc);
+
+#endif
@@ -0,0 +1,25 @@
+#ifndef __INFINIOP_PIXEL_SHUFFLE_API_H__
+#define __INFINIOP_PIXEL_SHUFFLE_API_H__
+
+#include "../operator_descriptor.h"
+
+typedef struct InfiniopDescriptor *infiniopPixelShuffleDescriptor_t;
+
+__INFINI_C __export infiniStatus_t infiniopCreatePixelShuffleDescriptor(infiniopHandle_t handle,
+                                                                        infiniopPixelShuffleDescriptor_t *desc_ptr,
+                                                                        infiniopTensorDescriptor_t y,
+                                                                        infiniopTensorDescriptor_t x,
+                                                                        int upscale_factor);
+
+__INFINI_C __export infiniStatus_t infiniopGetPixelShuffleWorkspaceSize(infiniopPixelShuffleDescriptor_t desc, size_t *size);
+
+__INFINI_C __export infiniStatus_t infiniopPixelShuffle(infiniopPixelShuffleDescriptor_t desc,
+                                                        void *workspace,
+                                                        size_t workspace_size,
+                                                        void *y,
+                                                        const void *x,
+                                                        void *stream);
+
+__INFINI_C __export infiniStatus_t infiniopDestroyPixelShuffleDescriptor(infiniopPixelShuffleDescriptor_t desc);
+
+#endif
@@ -0,0 +1,52 @@
+#include "erf_cpu.h"
+
+namespace op::erf::cpu {
+
+Descriptor::~Descriptor() = default;
+
+infiniStatus_t Descriptor::create(
+    infiniopHandle_t handle_,
+    Descriptor **desc_ptr,
+    infiniopTensorDescriptor_t out_desc,
+    std::vector<infiniopTensorDescriptor_t> input_desc_vec) {
+
+    auto handle = reinterpret_cast<device::cpu::Handle *>(handle_);
+    auto dtype = out_desc->dtype();
+
+    const auto &input_desc = input_desc_vec.at(0);
+    const auto &output_shape = out_desc->shape();
+    const auto &input_shape = input_desc->shape();
+
+    CHECK_DTYPE(dtype, INFINI_DTYPE_BF16, INFINI_DTYPE_F16, INFINI_DTYPE_F32, INFINI_DTYPE_F64);
+
+    CHECK_SAME_SHAPE(output_shape, input_shape);
+
+    CREATE_ELEMENTWISE_CPU_DESCRIPTOR(handle, dtype, out_desc, input_desc_vec);
+
+    return INFINI_STATUS_SUCCESS;
+}
+
+infiniStatus_t Descriptor::calculate(
+    void *workspace,
+    size_t workspace_size,
+    void *output,
+    std::vector<const void *> inputs,
+    void *stream) const {
+
+    switch (_dtype) {
+    case INFINI_DTYPE_BF16:
+        return _device_info->calculate<ErfOp, bf16_t>(_info, output, inputs, stream);
+    case INFINI_DTYPE_F16:
+        return _device_info->calculate<ErfOp, fp16_t>(_info, output, inputs, stream);
+    case INFINI_DTYPE_F32:
+        return _device_info->calculate<ErfOp, float>(_info, output, inputs, stream);
+    case INFINI_DTYPE_F64:
+        return _device_info->calculate<ErfOp, double>(_info, output, inputs, stream);
+    default:
+        return INFINI_STATUS_BAD_TENSOR_DTYPE;
+    }
+
+    return INFINI_STATUS_SUCCESS;
+}
+
+} // namespace op::erf::cpu
@@ -0,0 +1,20 @@
+#ifndef __ERF_CPU_H__
+#define __ERF_CPU_H__
+
+#include "../../../elementwise/cpu/elementwise_cpu.h"
+#include <cmath>
+
+ELEMENTWISE_DESCRIPTOR(erf, cpu)
+
+namespace op::erf::cpu {
+typedef struct ErfOp {
+public:
+    static constexpr size_t num_inputs = 1;
+    template <typename T>
+    T operator()(const T &x) const {
+        return std::erf(x);
+    }
+} ErfOp;
+} // namespace op::erf::cpu
+
+#endif // __ERF_CPU_H__
@@ -0,0 +1,33 @@
+#pragma once
+#include <cmath>
+#include <type_traits>
+
+namespace op::cuda {
+
+struct ErfOp {
+    static constexpr size_t num_inputs = 1;
+
+    template <typename T>
+    __device__ __forceinline__ T operator()(T x) const {
+        if constexpr (std::is_same_v<T, float>) {
+            return erff(x);
+        } else if constexpr (std::is_same_v<T, double>) {
+            return ::erf(x);
+        } else {
+            // For F16/BF16: promote to float, compute, then cast back
+            float xf;
+            if constexpr (std::is_same_v<T, half>) {
+                xf = __half2float(x);
+                return __float2half_rn(erff(xf));
+            } else if constexpr (std::is_same_v<T, cuda_bfloat16>) {
+                xf = __bfloat162float(x);
+                return __float2bfloat16_rn(erff(xf));
+            } else {
+                xf = static_cast<float>(x);
+                return static_cast<T>(erff(xf));
+            }
+        }
+    }
+};
+
+} // namespace op::cuda
@@ -0,0 +1,8 @@
+#ifndef __ERF_H__
+#define __ERF_H__
+
+#include "../../elementwise/elementwise.h"
+
+#define DESCRIPTOR(NAMESPACE) ELEMENTWISE_DESCRIPTOR(erf, NAMESPACE)
+
+#endif // __ERF_H__