save code

xiaolil1 · xiaolil1 · commit bc45998b1e09 · 2025-09-08T06:44:27.000Z
diff --git a/csrc/xpu_cutlass_fusion.cpp b/csrc/xpu_cutlass_fusion.cpp
@@ -208,7 +208,7 @@ class gemm_4bit_cutlass_kernel {
     Tensor tCgA = thr_mma.partition_A(gA);
     Tensor tCgB = thr_mma.partition_B(gB); //values for each_thread (FrgV,(RestN,RestK),*)
 
-#if 1
+#if 0
     Tensor mma_A_a = make_tensor<ElementMMA>(make_fragment_layout(params.tiled_copy_a, tCgA(_,_,_,0).shape()));
     Tensor mma_B_a = make_tensor<ElementMMA>(make_fragment_layout(params.tiled_copy_b, tCgB(_,_,_,0).shape()));
 	  Tensor dequant_frag_a = make_tensor<ElementB>(mma_B_a.layout());
@@ -239,26 +239,39 @@ class gemm_4bit_cutlass_kernel {
     auto layout_A = make_fragment_layout(params.tiled_copy_a, tCgA(_,_,_,0).shape());
     Tensor mma_A = make_tensor<ElementMMA>(cute::make_layout(cute::append(layout_A.shape(), Int<2>{}), cute::append(layout_A.stride(), Int<0>{})));
 #else
-    auto layout_A = make_fragment_layout(params.tiled_copy_a, tCgA(_,_,_,0).shape()); 
-    auto layout_B = make_fragment_layout(params.tiled_copy_b, tCgB(_,_,_,0).shape());
-    
-    Tensor mma_A = make_tensor<ElementMMA>(cute::make_layout(cute::append(layout_A.shape(), cute::make_shape(Int<2>{})), cute::make_stride(layout_A.stride(), 0)));
-    Tensor mma_B = make_tensor<ElementMMA>(cute::make_layout(cute::append(layout_B.shape(), cute::make_shape(Int<2>{})), cute::make_stride(layout_B.stride(), 0)));
-    Tensor dequant_frag = make_tensor<ElementB>(cute::make_layout(cute::append(layout_B.shape(), cute::make_shape(Int<2>{})), cute::make_stride(layout_B.stride(), 0)));
-    
+    Tensor mma_A_a = make_tensor<ElementMMA>(make_fragment_layout(params.tiled_copy_a, tCgA(_,_,_,0).shape()));
+    Tensor mma_B_a = make_tensor<ElementMMA>(make_fragment_layout(params.tiled_copy_b, tCgB(_,_,_,0).shape()));
+    Tensor dequant_frag_a = make_tensor<ElementB>(mma_B_a.layout());
+
+    Tensor mma_A_b = make_tensor<ElementMMA>(make_fragment_layout(params.tiled_copy_a, tCgA(_,_,_,0).shape()));
+    Tensor mma_B_b = make_tensor<ElementMMA>(make_fragment_layout(params.tiled_copy_b, tCgB(_,_,_,0).shape()));
+    Tensor dequant_frag_b = make_tensor<ElementB>(mma_B_b.layout());
+
     static constexpr auto scale_shape_t = decltype(size(typename GmemTiledCopyScale::BlockShape{}))::value / DispatchPolicy::SubgroupSize;
     static constexpr auto scale_shape_n = SG_QNT_WIDTH / decltype(size<1>(typename GmemTiledCopyScale::BlockShape{}))::value;
     static constexpr auto scale_shape_k = BLK_K / GROUP_SIZE < 1 ? 1 : BLK_K / GROUP_SIZE;
-    using FragScaleLayout = Layout<Shape<Int<scale_shape_t>, Int<scale_shape_n>, Int<scale_shape_k>>>;
-    Tensor fragment_scale = make_tensor<ElementScale>(cute::make_layout(cute::append(FragScaleLayout{}.shape(), cute::make_shape(Int<2>{})), cute::make_stride(FragScaleLayout{}.stride(), 0)));
-    
-    auto single_layout_A = thr_copy_A.retile_D(cute::make_tensor(mma_A.data(), layout_A)).layout();
-    auto single_layout_B = thr_copy_B.retile_D(cute::make_tensor(dequant_frag.data(), layout_B)).layout();
-    auto single_layout_Scale = thr_copy_scale.retile_D(cute::make_tensor(fragment_scale.data(), FragScaleLayout{})).layout();
-    
-    Tensor frag_copy_A = make_tensor<ElementMMA>(cute::make_layout(cute::append(single_layout_A.shape(), cute::make_shape(Int<2>{})), cute::make_stride(single_layout_A.stride(), 0)));
-    Tensor frag_copy_B = make_tensor<ElementB>(cute::make_layout(cute::append(single_layout_B.shape(), cute::make_shape(Int<2>{})), cute::make_stride(single_layout_B.stride(), 0)));
-    Tensor frag_copy_Scale = make_tensor<float>(cute::make_layout(cute::append(single_layout_Scale.shape(), cute::make_shape(Int<2>{})), cute::make_stride(single_layout_Scale.stride(), 0)));
+    using FragScaleLayout = Layout<Shape<Int<scale_shape_t>, Int<scale_shape_n>, Int<scale_shape_k>>>; //[1, dequant_N, block_num]
+    Tensor fragment_scale_a = make_tensor<ElementScale>(FragScaleLayout{});
+    Tensor fragment_scale_b = make_tensor<ElementScale>(FragScaleLayout{});
+
+    Tensor frag_copy_A_a = thr_copy_A.retile_D(mma_A_a);
+    Tensor frag_copy_B_a = thr_copy_B.retile_D(dequant_frag_a);
+    Tensor frag_copy_Scale_a = thr_copy_scale.retile_D(fragment_scale_a);
+
+    Tensor frag_copy_A_b = thr_copy_A.retile_D(mma_A_b);
+    Tensor frag_copy_B_b = thr_copy_B.retile_D(dequant_frag_b);
+    Tensor frag_copy_Scale_b = thr_copy_scale.retile_D(fragment_scale_b);
+
+    cute::tuple<decltype(mma_A_a), decltype(mma_A_b)> mma_A(mma_A_a, mma_A_b);
+    cute::tuple<decltype(mma_B_a), decltype(mma_B_b)> mma_B(mma_B_a, mma_B_b);
+    cute::tuple<decltype(dequant_frag_a), decltype(dequant_frag_b)> dequant_frag(dequant_frag_a, dequant_frag_b);
+    cute::tuple<decltype(fragment_scale_a), decltype(fragment_scale_b)> fragment_scale(fragment_scale_a, fragment_scale_b);
+    cute::tuple<decltype(frag_copy_A_a), decltype(frag_copy_A_b)> frag_copy_A(frag_copy_A_a, frag_copy_A_b);
+    cute::tuple<decltype(frag_copy_B_a), decltype(frag_copy_B_b)> frag_copy_B(frag_copy_B_a, frag_copy_B_b);
+    cute::tuple<decltype(frag_copy_Scale_a), decltype(frag_copy_Scale_b)> frag_copy_Scale(frag_copy_Scale_a, frag_copy_Scale_b);
+//auto& mma_A_0 = cute::get<0>(mma_A_tuple);  // 引用 mma_A_a
+//auto& mma_A_1 = cute::get<1>(mma_A_tuple);  // 引用 mma_A_b
+
 #endif    
     Tensor tAgA = thr_copy_A.retile_S(tCgA);
     Tensor tBgB = thr_copy_B.retile_S(tCgB);
@@ -293,8 +306,8 @@ class gemm_4bit_cutlass_kernel {
 
     int start_lut_id = sg_idx % LUT_NUM;
 
-#if 0
-    auto dequant = [&](int start_lut_id, int buffer_idx) {
+#if 1
+    auto dequant = [&](int start_lut_id, const int buffer_idx) {
       constexpr int N = decltype(cute::size<1>(mma_B))::value;
       constexpr int K = decltype(cute::size(mma_B))::value / N;
   
@@ -309,14 +322,6 @@ class gemm_4bit_cutlass_kernel {
       constexpr int dst_vec_size = 4;
       constexpr int dst_loop_num = K / dst_vec_size / dst_compress_size;
   
-      size_t dequant_offset = buffer_idx * dequant_frag.size() / 2;
-      size_t scale_offset = buffer_idx * fragment_scale.size() / 2;
-      size_t mma_offset = buffer_idx * mma_B.size() / 2;
-  
-      auto* dequant_ptr = cute::raw_pointer_cast(dequant_frag.data()) + dequant_offset;
-      auto* scale_ptr = cute::raw_pointer_cast(fragment_scale.data()) + scale_offset;
-      auto* mma_ptr = cute::raw_pointer_cast(mma_B.data()) + mma_offset;
-  
       ElementMMA dst[dst_loop_num * dst_compress_size * dst_vec_size];
   
       int lut_id = start_lut_id;
@@ -328,13 +333,13 @@ class gemm_4bit_cutlass_kernel {
 
           #pragma unroll
           for (int v = 0; v < src_vec_size; v++) {
-            src_compress_type src_value = reinterpret_cast<sycl::vec<src_compress_type, src_vec_size>*>(dequant_ptr)[n*src_loop_num + l][v];
+            src_compress_type src_value = reinterpret_cast<sycl::vec<src_compress_type, src_vec_size>*>(cute::raw_pointer_cast(cute::get<buffer_idx>(dequant_frag).data()))[n*src_loop_num + l][v];
             int dst_base_idx = l * src_vec_size * src_compress_size + v * src_compress_size;
   
             #pragma unroll
             for (int c = 0; c < src_compress_size; c++) {
               uint8_t bit_value = (src_value >> (4 * (((c + 1) & 1) + (c >> 1) * 2))) & 0xF;
-              float scale_value = *reinterpret_cast<float*>(scale_ptr + ((n * BLK_K + dst_base_idx + c) >> (31 - std::countl_zero<unsigned int>(GROUP_SIZE))));
+              float scale_value = cute::get<buffer_idx>(fragment_scale_a)((n * BLK_K  + dst_base_idx + c) >> (31 - std::countl_zero<unsigned int>(GROUP_SIZE))); 
   
               dst[dst_base_idx + c] = static_cast<ElementMMA>(quant_map_[lut_id][bit_value] * scale_value);
               lut_id = (lut_id + 1) % LUT_NUM;
@@ -344,14 +349,14 @@ class gemm_4bit_cutlass_kernel {
   
         #pragma unroll
         for (int l = 0; l < dst_loop_num; l++) {
-          reinterpret_cast<sycl::vec<dst_compress_type, dst_vec_size>*>(mma_ptr)[n * dst_loop_num + l] = reinterpret_cast<sycl::vec<dst_compress_type, dst_vec_size>*>(dst)[l];
+          reinterpret_cast<sycl::vec<dst_compress_type, dst_vec_size>*>(cute::raw_pointer_cast(cute::get<buffer_idx>(mma_B_a).data()))[n * dst_loop_num + l] = reinterpret_cast<sycl::vec<dst_compress_type, dst_vec_size>*>(dst)[l];
         }
       }
     };
 
-    copy(params.tiled_copy_b, tBgB(_,_,_,k_start_idx), frag_copy_B(_,_,_,0));
-    copy(params.tiled_copy_scale, tSgS(_,_,_,k_start_idx * BLK_K/params.group_size), frag_copy_Scale(_,_,_,0));
-    copy(params.tiled_copy_a, tAgA(_,_,_,k_start_idx), frag_copy_A(_,_,_,0));
+    copy(params.tiled_copy_b, tBgB(_,_,_,k_start_idx), cute::get<0>(frag_copy_B)); 
+    copy(params.tiled_copy_scale, tSgS(_,_,_,k_start_idx * BLK_K/params.group_size), cute::get<0>(frag_copy_Scale));
+    copy(params.tiled_copy_a, tAgA(_,_,_,k_start_idx), cute::get<0>(frag_copy_A));
     
     if (prefetch_k < k_tile_count) {
       prefetch(tiled_prefetch_a, pAgA(_,_,_,prefetch_k));
@@ -360,24 +365,27 @@ class gemm_4bit_cutlass_kernel {
     prefetch_k++;
     
     for (int k_tile = k_start_idx + 1, k_s = 1; k_tile < k_tile_count; k_tile++, k_s++, prefetch_k++) {
-      const int buf_idx = k_tile % 2;
+      constexpr int buf_idx = k_tile % 2;
     
       dequant(start_lut_id, buf_idx);
     
-      copy(params.tiled_copy_b, tBgB(_,_,_,k_tile), frag_copy_B(_,_,_,buf_idx));
-      copy(params.tiled_copy_scale, tSgS(_,_,_,(k_start_idx+k_s)*BLK_K/params.group_size), frag_copy_Scale(_,_,_,buf_idx));
-      copy(params.tiled_copy_a, tAgA(_,_,_,k_tile), frag_copy_A(_,_,_,buf_idx));
+      copy(params.tiled_copy_b, tBgB(_,_,_,k_tile), cute::get<buf_idx>(frag_copy_B));
+      copy(params.tiled_copy_scale, tSgS(_,_,_,(k_start_idx+k_s)*BLK_K/params.group_size), cute::get<buf_idx>(frag_copy_Scale));
+      copy(params.tiled_copy_a, tAgA(_,_,_,k_tile), cute::get<buf_idx>(frag_copy_A));
     
       if (prefetch_k < k_tile_count) {
         prefetch(tiled_prefetch_a, pAgA(_,_,_,prefetch_k));
         prefetch(tiled_prefetch_b, pBgB(_,_,_,prefetch_k));
       }
-    
-      cute::gemm(tiled_mma, frag_copy_A(_,_,_,1-buf_idx), frag_copy_B(_,_,_,1-buf_idx), accumulators);
+   
+      constexpr int idx = 1 - buf_idx;
+      cute::gemm(tiled_mma, cute::get<idx>(frag_copy_A), cute::get<idx>(frag_copy_B), accumulators);
       barrier_wait(3);
     }
-    cute::gemm(tiled_mma, frag_copy_A(_,_,_,1), frag_copy_B(_,_,_,1), accumulators);
+    cute::gemm(tiled_mma, cute::get<1>(frag_copy_A), cute::get<1>(frag_copy_B), accumulators);
+
 #else
+
     auto dequant_a = [&] (int start_lut_id){
       constexpr int N = decltype(cute::size<1>(mma_B_a))::value;
       constexpr int K = decltype(cute::size(mma_B_a))::value / N;