Resolving comments

vlserov · vlserov · commit a7455c64cc40 · 2026-04-02T07:34:28.000+03:00
diff --git a/csrc/lora/op_host/sgemmc_expand.cpp b/csrc/lora/op_host/sgemmc_expand.cpp
@@ -55,19 +55,16 @@ HOST_API at::Tensor sgemmc_expand(at::Tensor &x, at::Tensor &weight, at::Tensor
 
     uint32_t block_dim;
     uint32_t workspace_size;
-    int64_t num_tokens_per_core = 0;
-    int input_hidden_token = 0;
 
-    at::Tensor tiling_tensor = GenerateTiling(block_dim, workspace_size, batch_size, input_hidden_token, max_lora_rank,
+    at::Tensor tiling_tensor = GenerateTiling(block_dim, workspace_size, batch_size, max_lora_rank, output_full_dim,
                                               TorchNpuHelper::ConvertDataType(scalar_type));
     auto workspace_tensor =
         at::empty({workspace_size}, at::TensorOptions().dtype(at::kByte).device(x.options().device()));
 
     /* launch the kernel function via torch */
     EXEC_KERNEL_CMD(sgemmc_expand, block_dim, x_ptr, weight_ptr, lora_indices_ptr, lora_indices_size, seq_len_ptr,
                     seq_len_size, lora_ranks_ptr, lora_ranks_size, slice_offsets_ptr, slice_offsets_size, y_ptr,
-                    y_out_ptr, batch_size, num_tokens_per_core, max_lora_rank, output_full_dim, workspace_tensor,
-                    tiling_tensor);
+                    y_out_ptr, batch_size, max_lora_rank, output_full_dim, workspace_tensor, tiling_tensor);
 
     return y_out;
 }
diff --git a/csrc/lora/op_host/sgemmc_shrink.cpp b/csrc/lora/op_host/sgemmc_shrink.cpp
@@ -53,8 +53,6 @@ HOST_API void sgemmc_shrink(at::Tensor &x, at::Tensor &weight, at::Tensor &lora_
 
     uint32_t block_dim;
     uint32_t workspace_size;
-    int64_t total_extend_tokens = 0;
-    int64_t num_tokens_per_core = 0;
 
     at::Tensor tiling_tensor = GenerateTiling(block_dim, workspace_size, batch_size, input_hidden_token, max_lora_rank,
                                               TorchNpuHelper::ConvertDataType(scalar_type));
@@ -64,7 +62,7 @@ HOST_API void sgemmc_shrink(at::Tensor &x, at::Tensor &weight, at::Tensor &lora_
     /* launch the kernel function via torch */
     EXEC_KERNEL_CMD(sgemmc_shrink, block_dim, x_ptr, weight_ptr, lora_indices_ptr, lora_indices_size, seq_len_ptr,
                     seq_len_size, lora_ranks_ptr, lora_ranks_size, lora_scales_ptr, lora_scales_size, y_ptr, batch_size,
-                    num_tokens_per_core, input_hidden_token, max_lora_rank, workspace_tensor, tiling_tensor);
+                    input_hidden_token, max_lora_rank, workspace_tensor, tiling_tensor);
     return;
 }
 
diff --git a/csrc/lora/op_host/tiling/sgemmc_tiling.cpp b/csrc/lora/op_host/tiling/sgemmc_tiling.cpp
@@ -35,23 +35,19 @@ matmul_tiling::DataType ConvertToMatMulTypes(host_utils::DataType data_type)
     return matmul_tiling::DataType::DT_FLOAT16;
 }
 
-at::Tensor GenerateTiling(uint32_t &block_dim, uint32_t &workspace_size, uint32_t batch_size, uint32_t hidden_size,
-                          uint32_t max_lora_rank, const host_utils::DataType type)
+at::Tensor GenerateTiling(uint32_t &block_dim, uint32_t &workspace_size, uint32_t batch_size, uint32_t inner_size,
+                          uint32_t output_size, const host_utils::DataType type)
 {
     auto ascendc_platform = *platform_ascendc::PlatformAscendCManager::GetInstance();
-    uint32_t aiv_num = ascendcPlatform.GetCoreNumAiv();
-    uint32_t aic_num = ascendcPlatform.GetCoreNumAic();
-    workspace_size = ascendcPlatform.GetLibApiWorkSpaceSize();
+    uint32_t aiv_num = ascendc_platform.GetCoreNumAiv();
+    uint32_t aic_num = ascendc_platform.GetCoreNumAic();
+    workspace_size = ascendc_platform.GetLibApiWorkSpaceSize();
 
     auto tilingBuffer = at::empty({sizeof(SGEMMCTilingData)}, at::TensorOptions().dtype(at::kByte).device(at::kCPU));
     SGEMMCTilingData *tiling_data = reinterpret_cast<SGEMMCTilingData *>(tilingBuffer.data_ptr());
 
     matmul_tiling::MultiCoreMatmulTiling cubeTiling(ascendc_platform);
 
-    uint32_t M = batch_size;
-    uint32_t N = hidden_size;
-    uint32_t K = max_lora_rank;
-
     const matmul_tiling::DataType data_type = ConvertToMatMulTypes(type);
 
     cubeTiling.EnableBias(false);
@@ -60,11 +56,11 @@ at::Tensor GenerateTiling(uint32_t &block_dim, uint32_t &workspace_size, uint32_
     cubeTiling.SetCType(matmul_tiling::TPosition::VECIN, matmul_tiling::CubeFormat::ND,
                         matmul_tiling::DataType::DT_FLOAT);
     cubeTiling.SetBiasType(matmul_tiling::TPosition::GM, matmul_tiling::CubeFormat::ND, data_type);
-
+    cubeTiling.EnableMultiCoreSplitK(false);
     cubeTiling.SetDim(aic_num);
 
-    cubeTiling.SetOrgShape(1, hidden_size, max_lora_rank);
-    cubeTiling.SetShape(1, hidden_size, max_lora_rank);
+    cubeTiling.SetOrgShape(1, inner_size, output_size);
+    cubeTiling.SetShape(1, inner_size, output_size);
     cubeTiling.SetBufferSpace(-1, -1, -1);
 
     if (cubeTiling.GetTiling(tiling_data->cubeTiling) == -1) {
@@ -73,8 +69,9 @@ at::Tensor GenerateTiling(uint32_t &block_dim, uint32_t &workspace_size, uint32_
     }
 
     tiling_data->batch = batch_size;
+    tiling_data->dataType = (type == host_utils::DataType::DT_BFLOAT16);
 
-    block_dim = batch * tiling_data->cubeTiling.usedCoreNum;
+    block_dim = batch_size * tiling_data->cubeTiling.usedCoreNum;
 
     return tilingBuffer;
 }
diff --git a/csrc/lora/op_kernel/sgemmc_expand_kernel.cpp b/csrc/lora/op_kernel/sgemmc_expand_kernel.cpp
@@ -47,13 +47,12 @@ class SGEMMCExpand
     __aicore__ inline void Init(GM_ADDR x, GM_ADDR weight, GM_ADDR loraIndices, uint32_t loraIndicesSize,
                                 GM_ADDR seqLen, uint32_t seqLenSize, GM_ADDR loraRanks, uint32_t loraRanksSize,
                                 GM_ADDR sliceOffsets, uint32_t sliceOffsetsSize, GM_ADDR yIn, GM_ADDR yOut,
-                                uint32_t batchSize, uint32_t numBlocksPerCore, uint32_t maxLoRARank,
-                                uint32_t outputFullDim, GM_ADDR workspace, TCubeTiling &tiling)
+                                uint32_t batchSize, uint32_t maxLoRARank, uint32_t outputFullDim, GM_ADDR workspace,
+                                TCubeTiling &tiling)
     {
         this->tiling = tiling;
 
         batchSize_ = batchSize;
-        numBlocksPerCore_ = numBlocksPerCore;
         maxLoRARank_ = maxLoRARank;
         sliceCount_ = sliceOffsetsSize - 1;
         outputFullDim_ = outputFullDim;
@@ -78,15 +77,11 @@ class SGEMMCExpand
         int64_t blocks = AscendC::GetBlockNum();
         int64_t blockIdx = AscendC::GetBlockIdx();
 
-        int64_t startIdx = blockIdx * numBlocksPerCore_;
-        int64_t endIdx = startIdx + numBlocksPerCore_;
-
         AscendC::WaitPreTaskEnd();
 
-        int64_t batchIdx = 0;
         int64_t requestBlock = 0;
         lora_common::BlockIterator blockIterator(seqLenGm_);
-        requestBlock = blockIterator.GetBlockIdx(batchIdx);
+        requestBlock = blockIterator.GetBlockIdx(blockIdx);
         if (requestBlock < 0) {
             return;
         }
@@ -178,7 +173,6 @@ class SGEMMCExpand
 
     uint32_t batchSize_;
     uint32_t sliceCount_;
-    uint32_t numBlocksPerCore_;
     uint32_t maxLoRARank_;
     uint32_t outputHiddenDim_;
     uint32_t sliceOffset_;
@@ -197,8 +191,8 @@ extern "C" __global__ __aicore__ void sgemmc_expand(GM_ADDR x, GM_ADDR weight, G
                                                     uint32_t loraIndicesSize, GM_ADDR seqLen, uint32_t seqLenSize,
                                                     GM_ADDR loraRanks, uint32_t loraRanksSize, GM_ADDR sliceOffsets,
                                                     uint32_t sliceOffsetsSize, GM_ADDR yIn, GM_ADDR yOut,
-                                                    uint32_t batchSize, uint32_t numBlocksPerCore, uint32_t maxLoRARank,
-                                                    uint32_t outputFullDim, GM_ADDR workspace, GM_ADDR tiling)
+                                                    uint32_t batchSize, uint32_t maxLoRARank, uint32_t outputFullDim,
+                                                    GM_ADDR workspace, GM_ADDR tiling)
 {
     KERNEL_TASK_TYPE_DEFAULT(KERNEL_TYPE_MIX_AIC_1_1);
 
@@ -209,14 +203,12 @@ extern "C" __global__ __aicore__ void sgemmc_expand(GM_ADDR x, GM_ADDR weight, G
     if (tilingData.dataType == 1) {
         SGEMMCExpand<bfloat16_t, float> op(&pipe);
         op.Init(x, weight, loraIndices, loraIndicesSize, seqLen, seqLenSize, loraRanks, loraRanksSize, sliceOffsets,
-                sliceOffsetsSize, yIn, yOut, batchSize, numBlocksPerCore, maxLoRARank, outputFullDim, workspace,
-                tilingData.cubeTiling);
+                sliceOffsetsSize, yIn, yOut, batchSize, maxLoRARank, outputFullDim, workspace, tilingData.cubeTiling);
         op.Process();
     } else {
         SGEMMCExpand<half, float> op(&pipe);
         op.Init(x, weight, loraIndices, loraIndicesSize, seqLen, seqLenSize, loraRanks, loraRanksSize, sliceOffsets,
-                sliceOffsetsSize, yIn, yOut, batchSize, numBlocksPerCore, maxLoRARank, outputFullDim, workspace,
-                tilingData.cubeTiling);
+                sliceOffsetsSize, yIn, yOut, batchSize, maxLoRARank, outputFullDim, workspace, tilingData.cubeTiling);
         op.Process();
     }
 }
diff --git a/csrc/lora/op_kernel/sgemmc_shrink_kernel.cpp b/csrc/lora/op_kernel/sgemmc_shrink_kernel.cpp
@@ -47,13 +47,11 @@ class SGEMMCShrink
     __aicore__ inline void Init(GM_ADDR x, GM_ADDR weight, GM_ADDR loraIndices, uint32_t loraIndicesSize,
                                 GM_ADDR seqLen, uint32_t seqLenSize, GM_ADDR loraRanks, uint32_t loraRanksSize,
                                 GM_ADDR loraScales, uint32_t loraScalesSize, GM_ADDR y, uint32_t batchSize,
-                                uint32_t numBlocksPerCore, uint32_t inputHiddenDim, uint32_t maxLoRARank,
-                                GM_ADDR workspace, TCubeTiling &tiling)
+                                uint32_t inputHiddenDim, uint32_t maxLoRARank, GM_ADDR workspace, TCubeTiling &tiling)
     {
         this->tiling = tiling;
 
         batchSize_ = batchSize;
-        numBlocksPerCore_ = numBlocksPerCore;
         inputHiddenDim_ = inputHiddenDim;
         maxLoRARank_ = maxLoRARank;
         singleLoRAWeightLen_ = inputHiddenDim_ * maxLoRARank_;
@@ -76,9 +74,6 @@ class SGEMMCShrink
         int64_t blocks = AscendC::GetBlockNum();
         int64_t blockIdx = AscendC::GetBlockIdx();
 
-        int64_t startIdx = blockIdx * numBlocksPerCore_;
-        int64_t endIdx = startIdx + numBlocksPerCore_;
-
         AscendC::WaitPreTaskEnd();
 
         int64_t batchIdx = 0;
@@ -165,7 +160,6 @@ class SGEMMCShrink
     AscendC::TBuf<AscendC::QuePosition::VECCALC> vectorCalcBuf;
 
     uint32_t batchSize_;
-    uint32_t numBlocksPerCore_;
     uint32_t inputHiddenDim_;
     uint32_t maxLoRARank_;
     uint32_t singleLoRAWeightLen_;
@@ -179,8 +173,8 @@ extern "C" __global__ __aicore__ void sgemmc_shrink(GM_ADDR x, GM_ADDR weight, G
                                                     uint32_t loraIndicesSize, GM_ADDR seqLen, uint32_t seqLenSize,
                                                     GM_ADDR loraRanks, uint32_t loraRanksSize, GM_ADDR loraScales,
                                                     uint32_t loraScalesSize, GM_ADDR y, uint32_t batchSize,
-                                                    uint32_t numBlocksPerCore, uint32_t inputHiddenDim,
-                                                    uint32_t maxLoRARank, GM_ADDR workspace, GM_ADDR tiling)
+                                                    uint32_t inputHiddenDim, uint32_t maxLoRARank, GM_ADDR workspace,
+                                                    GM_ADDR tiling)
 {
     KERNEL_TASK_TYPE_DEFAULT(KERNEL_TYPE_MIX_AIC_1_1);
 
@@ -191,14 +185,12 @@ extern "C" __global__ __aicore__ void sgemmc_shrink(GM_ADDR x, GM_ADDR weight, G
     if (tilingData.dataType == 1) {
         SGEMMCShrink<bfloat16_t, float> op(&pipe);
         op.Init(x, weight, loraIndices, loraIndicesSize, seqLen, seqLenSize, loraRanks, loraRanksSize, loraScales,
-                loraScalesSize, y, batchSize, numBlocksPerCore, inputHiddenDim, maxLoRARank, workspace,
-                tilingData.cubeTiling);
+                loraScalesSize, y, batchSize, inputHiddenDim, maxLoRARank, workspace, tilingData.cubeTiling);
         op.Process();
     } else {
         SGEMMCShrink<half, float> op(&pipe);
         op.Init(x, weight, loraIndices, loraIndicesSize, seqLen, seqLenSize, loraRanks, loraRanksSize, loraScales,
-                loraScalesSize, y, batchSize, numBlocksPerCore, inputHiddenDim, maxLoRARank, workspace,
-                tilingData.cubeTiling);
+                loraScalesSize, y, batchSize, inputHiddenDim, maxLoRARank, workspace, tilingData.cubeTiling);
         op.Process();
     }
 }