fix rebased

Ceng23333 · Ceng23333 · commit 9c4d48669289 · 2026-04-03T12:34:31.000+08:00
Signed-off-by: Ceng23333 &lt;441651826@qq.com&gt;
diff --git a/include/infinicore/adaptor/aten_adaptor.hpp b/include/infinicore/adaptor/aten_adaptor.hpp
@@ -5,7 +5,7 @@
 
 #include <ATen/ATen.h>
 
-#if defined(ENABLE_NVIDIA_API) || defined(ENABLE_METAX_API)
+#if defined(ENABLE_NVIDIA_API) || defined(ENABLE_METAX_API) || defined(ENABLE_QY_API)
 #include <c10/cuda/CUDAStream.h>
 #endif
 
@@ -32,7 +32,9 @@ inline at::ScalarType to_at_dtype(DataType dtype) {
 }
 
 inline at::Device to_at_device(const Device &device) {
-    if (device.getType() == Device::Type::NVIDIA || device.getType() == Device::Type::METAX) {
+    // PyTorch ATen only exposes standard device types (e.g. kCPU/kCUDA).
+    // Treat MetaX/QY devices as CUDA devices for ATen tensor interoperability.
+    if (device.getType() == Device::Type::NVIDIA || device.getType() == Device::Type::METAX || device.getType() == Device::Type::QY) {
         return at::Device(at::kCUDA, device.getIndex());
     } else if (device.getType() == Device::Type::CPU) {
         return at::Device(at::kCPU);
@@ -43,7 +45,7 @@ inline at::Device to_at_device(const Device &device) {
 
 at::Tensor to_aten_tensor(const infinicore::Tensor &t);
 
-#if defined(ENABLE_NVIDIA_API) || defined(ENABLE_METAX_API)
+#if defined(ENABLE_NVIDIA_API) || defined(ENABLE_METAX_API) || defined(ENABLE_QY_API)
 c10::cuda::CUDAStream get_cuda_stream();
 #endif
 } // namespace infinicore::adaptor
diff --git a/src/infinicore/adaptor/aten_adaptor.cc b/src/infinicore/adaptor/aten_adaptor.cc
@@ -32,7 +32,7 @@ at::Tensor to_aten_tensor(const infinicore::Tensor &t) {
         options);
 }
 
-#if defined(ENABLE_NVIDIA_API) || defined(ENABLE_METAX_API)
+#if defined(ENABLE_NVIDIA_API) || defined(ENABLE_METAX_API) || defined(ENABLE_QY_API)
 c10::cuda::CUDAStream get_cuda_stream() {
     return c10::cuda::getStreamFromExternal(
         cudaStream_t(infinicore::context::getStream()), infinicore::context::getDevice().getIndex());
diff --git a/src/infinicore/ops/mha_kvcache/mha_kvcache_flashattn.cc b/src/infinicore/ops/mha_kvcache/mha_kvcache_flashattn.cc
@@ -52,17 +52,22 @@ void run(void *planned_meta) {
 #endif
     auto *p = reinterpret_cast<PlannedMeta *>(planned_meta);
 
-    // FlashAttention kernels expect standard dense layout (contiguous last dimension).
+    // Paged KV caches must be contiguous for flash-attn; avoid extra copies for q/metadata when already dense.
     auto out_at = infinicore::adaptor::to_aten_tensor(p->out);
     const bool out_need_copy_back = !out_at.is_contiguous();
     auto out_tensor = out_need_copy_back ? out_at.contiguous() : out_at;
-    auto q = infinicore::adaptor::to_aten_tensor(p->q).contiguous();
+    auto q = infinicore::adaptor::to_aten_tensor(p->q);
+#if defined(ENABLE_NVIDIA_API)
+    auto k_cache = infinicore::adaptor::to_aten_tensor(p->k_cache);
+    auto v_cache = infinicore::adaptor::to_aten_tensor(p->v_cache);
+#elif defined(ENABLE_QY_API) || defined(ENABLE_METAX_API)
     auto k_cache = infinicore::adaptor::to_aten_tensor(p->k_cache).contiguous();
     auto v_cache = infinicore::adaptor::to_aten_tensor(p->v_cache).contiguous();
-    auto seqlens_k = std::optional<const at::Tensor>(infinicore::adaptor::to_aten_tensor(p->seqlens_k).contiguous());
-    auto block_table = std::optional<at::Tensor>(infinicore::adaptor::to_aten_tensor(p->block_table).contiguous());
+#endif
+    auto seqlens_k = std::optional<const at::Tensor>(infinicore::adaptor::to_aten_tensor(p->seqlens_k));
+    auto block_table = std::optional<at::Tensor>(infinicore::adaptor::to_aten_tensor(p->block_table));
     auto alibi_slopes = p->alibi_slopes
-                          ? std::optional<at::Tensor>(infinicore::adaptor::to_aten_tensor(*p->alibi_slopes).contiguous())
+                          ? std::optional<at::Tensor>(infinicore::adaptor::to_aten_tensor(*p->alibi_slopes))
                           : std::nullopt;
 
     std::optional<const at::Tensor> k_new = std::nullopt;
diff --git a/src/infiniop/ops/equal/metax/equal_metax.maca b/src/infiniop/ops/equal/metax/equal_metax.maca
@@ -1,22 +1,10 @@
 #include "equal_metax.h"
 
 #include "../../../elementwise/metax/elementwise_metax.h"
-#include <type_traits>
 
-namespace op::equal::metax {
-
-struct EqualOp {
-    static constexpr size_t num_inputs = 2;
+#include "../cuda/kernel.cuh"
 
-    template <typename Tout, typename Tin0, typename Tin1>
-    __device__ __forceinline__ bool operator()(const Tin0 &a, const Tin1 &b) const {
-        if constexpr (std::is_same_v<Tin0, Tin1>) {
-            return static_cast<Tout>(a == b);
-        } else {
-            return false;
-        }
-    }
-};
+namespace op::equal::metax {
 
 Descriptor::~Descriptor() = default;
 
@@ -25,54 +13,44 @@ infiniStatus_t Descriptor::create(
     Descriptor **desc_ptr,
     infiniopTensorDescriptor_t out_desc,
     std::vector<infiniopTensorDescriptor_t> input_desc_vec) {
-
     auto handle = reinterpret_cast<device::metax::Handle *>(handle_);
-
     const auto &a_desc = input_desc_vec.at(0);
     auto compute_dtype = a_desc->dtype();
     auto out_dtype = out_desc->dtype();
-
     const auto &b_desc = input_desc_vec.at(1);
     const auto &c_shape = out_desc->shape();
     const auto &a_shape = a_desc->shape();
     const auto &b_shape = b_desc->shape();
-
     CHECK_DTYPE(compute_dtype, INFINI_DTYPE_F16, INFINI_DTYPE_F32, INFINI_DTYPE_BF16,
                 INFINI_DTYPE_I32, INFINI_DTYPE_I64, INFINI_DTYPE_F64);
-
     CHECK_DTYPE(out_dtype, INFINI_DTYPE_BOOL);
-
     CHECK_SAME_SHAPE(c_shape, a_shape, b_shape);
-
     CREATE_ELEMENTWISE_METAX_DESCRIPTOR(handle, compute_dtype, out_desc, input_desc_vec)
-
     return INFINI_STATUS_SUCCESS;
 }
-
 infiniStatus_t Descriptor::calculate(
     void *workspace,
     size_t workspace_size,
     void *output,
     std::vector<const void *> inputs,
     void *stream) const {
-
     if (workspace_size < _workspace_size) {
         return INFINI_STATUS_INSUFFICIENT_WORKSPACE;
     }
 
     switch (_dtype) {
     case INFINI_DTYPE_F16:
-        return _device_info->calculate<256, EqualOp, bool, half, half>(_info, workspace, output, inputs, stream);
+        return _device_info->calculate<256, cuda::EqualOp, bool, half, half>(_info, workspace, output, inputs, stream);
     case INFINI_DTYPE_BF16:
-        return _device_info->calculate<256, EqualOp, bool, cuda_bfloat16, cuda_bfloat16>(_info, workspace, output, inputs, stream);
+        return _device_info->calculate<256, cuda::EqualOp, bool, cuda_bfloat16, cuda_bfloat16>(_info, workspace, output, inputs, stream);
     case INFINI_DTYPE_F32:
-        return _device_info->calculate<256, EqualOp, bool, float, float>(_info, workspace, output, inputs, stream);
+        return _device_info->calculate<256, cuda::EqualOp, bool, float, float>(_info, workspace, output, inputs, stream);
     case INFINI_DTYPE_I32:
-        return _device_info->calculate<256, EqualOp, bool, int32_t, int32_t>(_info, workspace, output, inputs, stream);
+        return _device_info->calculate<256, cuda::EqualOp, bool, int32_t, int32_t>(_info, workspace, output, inputs, stream);
     case INFINI_DTYPE_I64:
-        return _device_info->calculate<256, EqualOp, bool, int64_t, int64_t>(_info, workspace, output, inputs, stream);
+        return _device_info->calculate<256, cuda::EqualOp, bool, int64_t, int64_t>(_info, workspace, output, inputs, stream);
     case INFINI_DTYPE_F64:
-        return _device_info->calculate<256, EqualOp, bool, double, double>(_info, workspace, output, inputs, stream);
+        return _device_info->calculate<256, cuda::EqualOp, bool, double, double>(_info, workspace, output, inputs, stream);
     default:
         return INFINI_STATUS_BAD_TENSOR_DTYPE;
     }
diff --git a/src/infiniop/ops/hardswish/cuda/kernel.cuh b/src/infiniop/ops/hardswish/cuda/kernel.cuh
@@ -2,15 +2,6 @@
 #define __HARDSWISH_CUDA_H__
 
 #include <cmath>
-#if defined(ENABLE_METAX_API)
-#include <hcr/hc_runtime_api.h>
-#elif defined(__MACACC__)
-#include <maca_bfloat16.h>
-#include <maca_fp16.h>
-#else
-#include <cuda_bf16.h>
-#include <cuda_fp16.h>
-#endif
 
 namespace op::hardswish::cuda {
 
diff --git a/src/infiniop/ops/hardtanh/cuda/kernel.cuh b/src/infiniop/ops/hardtanh/cuda/kernel.cuh
@@ -1,15 +1,6 @@
 #ifndef __HARDTANH_CUDA_H__
 #define __HARDTANH_CUDA_H__
 
-#if defined(ENABLE_METAX_API)
-#include <hcr/hc_runtime_api.h>
-#elif defined(__MACACC__)
-#include <maca_bfloat16.h>
-#include <maca_fp16.h>
-#else
-#include <cuda_bf16.h>
-#include <cuda_fp16.h>
-#endif
 #include <type_traits>
 
 namespace op::hardtanh::cuda {

Original file line number	Diff line number	Diff line change
`@@ -32,7 +32,7 @@ at::Tensor to_aten_tensor(const infinicore::Tensor &t) {`
`32`	`32`	`options);`
`33`	`33`	`}`
`34`	`34`
`35`		`-#if defined(ENABLE_NVIDIA_API) \|\| defined(ENABLE_METAX_API)`
	`35`	`+#if defined(ENABLE_NVIDIA_API) \|\| defined(ENABLE_METAX_API) \|\| defined(ENABLE_QY_API)`
`36`	`36`	`c10::cuda::CUDAStream get_cuda_stream() {`
`37`	`37`	`return c10::cuda::getStreamFromExternal(`
`38`	`38`	`cudaStream_t(infinicore::context::getStream()), infinicore::context::getDevice().getIndex());`