issue/1118: success w4 kernel

xgqdut2016 · xgqdut2016 · commit 8349915fdb31 · 2026-04-14T13:58:53.000+08:00
diff --git a/src/infiniop/ops/gptq_qyblas_gemm/info.h b/src/infiniop/ops/gptq_qyblas_gemm/info.h
@@ -6,16 +6,37 @@
 #include <optional>
 #include <vector>
 
+inline void prepare_matrix_for_cublas(
+    infiniopTensorDescriptor_t tensor,
+    bool &transpose_tensor) {
+
+    auto strides = tensor->strides();
+    auto sizes = tensor->shape();
+
+    if ((strides[0] == 1) && (strides[1] >= std::max<int64_t>(1, sizes[0]))) {
+
+        transpose_tensor = false;
+        return;
+    }
+    if ((strides[1] == 1) && (strides[0] >= std::max<int64_t>(1, sizes[1]))) {
+
+        transpose_tensor = true;
+        return;
+    }
+    transpose_tensor = true;
+}
+
 namespace op::gptq_qyblas_gemm {
 
 class GptqQyblasGemmInfo {
     GptqQyblasGemmInfo() = default;
 
 public:
-    infiniDtype_t dtype, weight_dtype, scales_dtype, zeros_dtype;
+    infiniDtype_t dtype, weight_dtype, scales_dtype, zeros_dtype, out_dtype;
     size_t M, K, N, scales_size_0, scales_size_1;
     ptrdiff_t lda, ldb, result_ld;
-    bool transpose_mat_1, transpose_mat_2, transpose_result;
+    bool transpose_result;
+    char transa, transb;
 
     static utils::Result<GptqQyblasGemmInfo> createGptqQyblasGemmInfo(
         infiniopTensorDescriptor_t out_desc,
@@ -27,17 +48,38 @@ class GptqQyblasGemmInfo {
         auto dtype = a_desc->dtype();
 
         CHECK_DTYPE(dtype, INFINI_DTYPE_F16, INFINI_DTYPE_BF16);
-        CHECK_DTYPE(dtype, out_desc->dtype());
+        auto out_dtype = out_desc->dtype();
+        CHECK_DTYPE(dtype, out_dtype);
 
         const infiniDtype_t weight_dtype = b_desc->dtype();
-        CHECK_DTYPE(weight_dtype, INFINI_DTYPE_F8, INFINI_DTYPE_U8, INFINI_DTYPE_I8);
+        // CHECK_DTYPE(weight_dtype, INFINI_DTYPE_F8, INFINI_DTYPE_U8, INFINI_DTYPE_I8);
 
         const infiniDtype_t scales_dtype = b_scales_desc->dtype();
         const infiniDtype_t zeros_dtype = b_zeros_desc->dtype();
 
-        size_t M = out_desc->shape()[0];
-        size_t N = out_desc->shape()[1];
-        size_t K = a_desc->shape()[1];
+        bool transpose_result = false;
+        bool transpose_mat_1 = false;
+        bool transpose_mat_2 = false;
+
+        prepare_matrix_for_cublas(out_desc, transpose_result);
+
+        auto mata = (transpose_result ? b_desc : a_desc);
+        prepare_matrix_for_cublas(transpose_result ? b_desc : a_desc, transpose_mat_1);
+        auto matb = (transpose_result ? a_desc : b_desc);
+        prepare_matrix_for_cublas(transpose_result ? a_desc : b_desc, transpose_mat_2);
+
+        auto mat1_sizes = a_desc->shape();
+        auto mat2_sizes = b_desc->shape();
+        if (transpose_result) {
+            transpose_mat_1 = !transpose_mat_1;
+            transpose_mat_2 = !transpose_mat_2;
+            mat1_sizes = mata->shape();
+            mat2_sizes = matb->shape();
+        }
+
+        size_t M = mat1_sizes[transpose_result ? 1 : 0];
+        size_t K = mat1_sizes[transpose_result ? 0 : 1];
+        size_t N = mat2_sizes[transpose_result ? 0 : 1];
 
         size_t scales_size_0 = b_scales_desc->shape()[0];
         size_t scales_size_1 = b_scales_desc->shape()[1];
@@ -50,40 +92,23 @@ class GptqQyblasGemmInfo {
                             && b_zeros_desc->ndim() == ndim,
                         INFINI_STATUS_BAD_TENSOR_SHAPE);
 
-        bool transpose_result = false;
-        if (out_desc->strides()[0] == 1 && out_desc->strides()[1] >= std::max<int64_t>(1, out_desc->shape()[0])) {
-            transpose_result = true;
-        } else if (out_desc->strides()[1] == 1 && out_desc->strides()[0] >= std::max<int64_t>(1, out_desc->shape()[1])) {
-            transpose_result = false;
-        } else {
-            transpose_result = false;
-        }
-        bool transpose_mat_1 = false;
-        if (a_desc->strides()[0] == 1 && a_desc->strides()[1] >= std::max<int64_t>(1, a_desc->shape()[0])) {
-            transpose_mat_1 = true;
-        } else if (a_desc->strides()[1] == 1 && a_desc->strides()[0] >= std::max<int64_t>(1, a_desc->shape()[1])) {
-            transpose_mat_1 = false;
-        } else {
-            transpose_mat_1 = false;
-        }
-        bool transpose_mat_2 = false;
-        if (b_desc->strides()[0] == 1 && b_desc->strides()[1] >= std::max<int64_t>(1, b_desc->shape()[0])) {
-            transpose_mat_2 = true;
-        } else if (b_desc->strides()[1] == 1 && b_desc->strides()[0] >= std::max<int64_t>(1, b_desc->shape()[1])) {
-            transpose_mat_2 = false;
-        } else {
-            transpose_mat_2 = false;
-        }
+        ptrdiff_t lda = mata->strides()[(transpose_mat_1 == transpose_result)
+                                            ? 1
+                                            : 0];
+        ptrdiff_t ldb = matb->strides()[(transpose_mat_2 == transpose_result)
+                                            ? 1
+                                            : 0];
+        ptrdiff_t result_ld = out_desc->strides()[transpose_result ? 0 : 1];
 
-        ptrdiff_t lda = a_desc->strides()[transpose_mat_1 ? 1 : 0];
-        ptrdiff_t ldb = b_desc->strides()[transpose_mat_2 ? 1 : 0];
-        ptrdiff_t result_ld = out_desc->strides()[transpose_result ? 1 : 0];
+        char transa = transpose_mat_1 ? 't' : 'n';
+        char transb = transpose_mat_2 ? 't' : 'n';
 
         return utils::Result<GptqQyblasGemmInfo>(GptqQyblasGemmInfo{
-            dtype, weight_dtype, scales_dtype, zeros_dtype,
+            dtype, weight_dtype, scales_dtype, zeros_dtype, out_dtype,
             M, K, N, scales_size_0, scales_size_1,
             lda, ldb, result_ld,
-            transpose_mat_1, transpose_mat_2, transpose_result});
+            transpose_result,
+            transa, transb});
     }
 };
 
diff --git a/src/infiniop/ops/gptq_qyblas_gemm/nvidia/gptq_qyblas_gemm_nvidia.cu b/src/infiniop/ops/gptq_qyblas_gemm/nvidia/gptq_qyblas_gemm_nvidia.cu
@@ -3,6 +3,36 @@
 #include "dlblas_ext.h"
 #include "gptq_qyblas_gemm_nvidia.cuh"
 
+inline cudaDataType_t ScalarTypeToCudaDataType(
+    infiniDtype_t scalar_type) {
+    switch (scalar_type) {
+    case INFINI_DTYPE_U8:
+        return CUDA_R_8U;
+    case INFINI_DTYPE_I8:
+        return CUDA_R_8I;
+    case INFINI_DTYPE_I32:
+        return CUDA_R_32I;
+    case INFINI_DTYPE_F16:
+        return CUDA_R_16F;
+    case INFINI_DTYPE_F32:
+        return CUDA_R_32F;
+    case INFINI_DTYPE_F64:
+        return CUDA_R_64F;
+    case INFINI_DTYPE_I16:
+        return CUDA_R_16I;
+    case INFINI_DTYPE_I64:
+        return CUDA_R_64I;
+    case INFINI_DTYPE_BF16:
+        return CUDA_R_16BF;
+    case INFINI_DTYPE_F8:
+        return (cudaDataType_t)CUDA_R_8F_E4M3;
+    default:
+        fprintf(stderr,
+                "Cannot convert ScalarType %d\n",
+                (int)scalar_type);
+        abort();
+    }
+}
 namespace op::gptq_qyblas_gemm::nvidia {
 
 struct Descriptor::Opaque {
@@ -47,17 +77,14 @@ infiniStatus_t Descriptor::calculate(void *workspace,
 
     cudaDataType_t computeType_ = (cudaDataType_t)CUDA_R_32F;
     cudaDataType_t kernel_Atype_, kernel_Btype_, kernel_Ctype_, kernel_Stype_, kernel_Ztype_;
-
-    switch (_info.dtype) {
-    case INFINI_DTYPE_F16:
-        kernel_Atype_ = CUDA_R_16F;
-        break;
-    case INFINI_DTYPE_BF16:
-        kernel_Atype_ = CUDA_R_16BF;
-        break;
-    default:
-        return INFINI_STATUS_BAD_TENSOR_DTYPE;
+    auto dtype = _info.dtype;
+    auto weight_dtype = _info.weight_dtype;
+    if (_info.transpose_result) {
+        std::swap(a, b);
+        std::swap(dtype, weight_dtype);
     }
+    kernel_Atype_ = ScalarTypeToCudaDataType(dtype);
+    kernel_Btype_ = ScalarTypeToCudaDataType(weight_dtype);
 
     if (quant_type == 0) {
         if (8 == bit) {
@@ -66,66 +93,21 @@ infiniStatus_t Descriptor::calculate(void *workspace,
 
         if (4 == bit) {
             kernel_Atype_ = (cudaDataType_t)CUDA_R_4U;
+            K = K * 2;
         }
     }
 
-    switch (_info.weight_dtype) {
-    case INFINI_DTYPE_F8:
-        kernel_Btype_ = (cudaDataType_t)CUDA_R_8F_E4M3;
-        break;
-    case INFINI_DTYPE_U8:
-        kernel_Btype_ = CUDA_R_8U;
-        break;
-    case INFINI_DTYPE_I8:
-        kernel_Btype_ = CUDA_R_8I;
-        break;
-    default:
-        return INFINI_STATUS_BAD_TENSOR_DTYPE;
-    }
-
-    kernel_Ctype_ = kernel_Atype_;
-
-    switch (_info.scales_dtype) {
-    case INFINI_DTYPE_F32:
-        kernel_Stype_ = CUDA_R_32F;
-        break;
-    case INFINI_DTYPE_F16:
-        kernel_Stype_ = CUDA_R_16F;
-        break;
-    case INFINI_DTYPE_BF16:
-        kernel_Stype_ = CUDA_R_16BF;
-        break;
-    default:
-        return INFINI_STATUS_BAD_TENSOR_DTYPE;
-    }
-
-    switch (_info.zeros_dtype) {
-    case INFINI_DTYPE_F32:
-        kernel_Ztype_ = CUDA_R_32F;
-        break;
-    case INFINI_DTYPE_F16:
-        kernel_Ztype_ = CUDA_R_16F;
-        break;
-    case INFINI_DTYPE_BF16:
-        kernel_Ztype_ = CUDA_R_16BF;
-        break;
-    default:
-        return INFINI_STATUS_BAD_TENSOR_DTYPE;
-    }
+    kernel_Ctype_ = ScalarTypeToCudaDataType(_info.out_dtype);
+    kernel_Stype_ = ScalarTypeToCudaDataType(_info.scales_dtype);
+    kernel_Ztype_ = ScalarTypeToCudaDataType(_info.zeros_dtype);
 
     float alpha = 1.0f;
     float beta = 0.0f;
 
-    bool transpose_mat_1 = _info.transpose_mat_1;
-    bool transpose_mat_2 = _info.transpose_mat_2;
-
     int64_t M = static_cast<int64_t>(_info.M);
     int64_t N = static_cast<int64_t>(_info.N);
     int64_t lda = static_cast<int64_t>(_info.lda);
-    int64_t ldb = ((bit == 4 && transpose_mat_2) ? 2 * static_cast<int64_t>(_info.ldb) : static_cast<int64_t>(_info.ldb));
-
-    cublasOperation_t transa = transpose_mat_2 ? CUBLAS_OP_T : CUBLAS_OP_N;
-    cublasOperation_t transb = transpose_mat_1 ? CUBLAS_OP_T : CUBLAS_OP_N;
+    int64_t ldb = static_cast<int64_t>(_info.ldb);
 
     int64_t scales_size_0 = static_cast<int64_t>(_info.scales_size_0);
     int64_t scales_size_1 = static_cast<int64_t>(_info.scales_size_1);
@@ -135,7 +117,7 @@ infiniStatus_t Descriptor::calculate(void *workspace,
     dlblasExtQuantParametersV2_t extParameters;
 
     if (quant_type == 0) {
-        extParameters.a_group_size_m = N / scales_size_1;
+        extParameters.a_group_size_m = M / scales_size_1;
         extParameters.a_group_size_k = K / scales_size_0;
         extParameters.a_zeropoints_type = kernel_Ztype_;
         extParameters.a_zeropoints = b_zeros;
@@ -151,13 +133,13 @@ infiniStatus_t Descriptor::calculate(void *workspace,
     } else if (quant_type == 2 || quant_type == 3) {
         // calculate block_shape according weight/scales shape
         int block_shape = 128;
-        while ((N + block_shape - 1) / block_shape < scales_size_0) {
+        while ((M + block_shape - 1) / block_shape < scales_size_0) {
             block_shape /= 2;
             if (block_shape < 32) {
                 fprintf(stderr,
                         "INTERNAL ASSERT FAILED: block_shape >= 32\n"
                         "Invalid fp blockwise linear arguments. Weight: [%d, %d]. Scales: [%d, %d].\n",
-                        (int)N, (int)K, (int)scales_size_0, (int)scales_size_1);
+                        (int)M, (int)K, (int)scales_size_0, (int)scales_size_1);
                 abort();
             }
         }
@@ -172,12 +154,11 @@ infiniStatus_t Descriptor::calculate(void *workspace,
         extParameters.a_zeropoints = nullptr;
         extParameters.a_scales = b_scales;
     }
-    printf("a=%s, b=%s, c=%s\n",
-           _info.transpose_mat_1 ? "true" : "false",
-           _info.transpose_mat_2 ? "true" : "false",
-           _info.transpose_result ? "true" : "false");
-    printf("M-K-N:[%ld, %ld, %ld], lda-ldb-ldc:[%ld, %ld, %ld]\n", M, K, N, lda, ldb, result_ld);
-    printf("quant type:%ld, bit:%ld\n", quant_type, bit);
+    bool transpose_mat_1 = _info.transa == 't';
+    bool transpose_mat_2 = _info.transb == 't';
+    cublasOperation_t transa = transpose_mat_1 ? CUBLAS_OP_T : CUBLAS_OP_N;
+    cublasOperation_t transb = transpose_mat_2 ? CUBLAS_OP_T : CUBLAS_OP_N;
+
     if (_info.dtype == INFINI_DTYPE_F16 || _info.dtype == INFINI_DTYPE_BF16) {
         CHECK_STATUS(_opaque->internal->useCublas(
             (cudaStream_t)stream,
@@ -186,16 +167,16 @@ infiniStatus_t Descriptor::calculate(void *workspace,
                     dlblasGemmExV2(handle,
                                    transa,
                                    transb,
-                                   N,
                                    M,
+                                   N,
                                    K,
                                    &alpha,
-                                   b,
-                                   kernel_Btype_,
-                                   ldb,
                                    a,
                                    kernel_Atype_,
                                    lda,
+                                   b,
+                                   kernel_Btype_,
+                                   ldb,
                                    &beta,
                                    out,
                                    kernel_Ctype_,
diff --git a/test/infiniop/gptq_qyblas_gemm.py b/test/infiniop/gptq_qyblas_gemm.py