add more debug logs

xiaolil1 · xiaolil1 · commit b148d2a46fce · 2025-08-03T10:49:04.000Z
diff --git a/csrc/xpu_cutlass_fusion.cpp b/csrc/xpu_cutlass_fusion.cpp
@@ -129,16 +129,13 @@ using CopyThreadShapeRev = decltype(cute::reverse(CopyThreadShape{}));
 
 using GmemTiledCopyA = XE_2D_U16x32x32_LD_N; //XE_2D_U16x16x32_LD_N;
 using StrideA = cutlass::gemm::TagToStrideA_t<cutlass::layout::RowMajor>;
-//using Copy_A = typename Copy_Traits<GmemTiledCopyA, StrideA>::template DefaultTiledCopy<ElementA>;
 using traits_load_A = Copy_Traits<GmemTiledCopyA, StrideA>;
 using atom_load_A = Copy_Atom<traits_load_A, ElementA>;
 using val_layout_load_A = decltype(make_layout(shape_div(typename traits_load_A::BlockShape{}, CopyThreadShape{})));
 using Copy_A = decltype(make_tiled_copy(atom_load_A{}, Layout<CopyThreadShape>{}, val_layout_load_A{}));
 
 using GmemTiledCopyB = XE_2D_U4x32x16_LD_T; 
 using StrideB = cutlass::gemm::TagToStrideB_t<cutlass::layout::ColumnMajor>;
-//using StrideB = Stride<int64_t, int64_t, int64_t>;
-//using Copy_B = typename Copy_Traits<GmemTiledCopyB, StrideB>::template DefaultTiledCopy<ElementB>;
 using traits_load_B = Copy_Traits<GmemTiledCopyB, StrideB>;
 using atom_load_B = Copy_Atom<traits_load_B, ElementB>;
 using val_layout_load_B = decltype(make_layout(shape_div(typename traits_load_B::BlockShape{}, CopyThreadShape{})));
@@ -148,12 +145,6 @@ using Copy_B = decltype(make_tiled_copy(atom_load_B{}, Layout<CopyThreadShape>{}
 using GmemTiledCopyScale = XE_2D_U16x1x16_LD_N; 
 using StrideScale = cute::Stride<_1, int64_t, int64_t>; //dynamic stride
 using traits_load_scale = Copy_Traits<GmemTiledCopyScale, StrideScale>;
-//using AtomLayout = Layout<
-//    Shape<_16, _2>,     // 匹配 XE_2D_U16x1x32_LD_N 的 BlockShape
-//    Stride<_1, _16>     // 连续存储，步长 16
-//>;
-//using atom_load_scale = Copy_Atom<traits_load_scale, ElementScale, AtomLayout>;
-//using Copy_Scale = decltype(make_tiled_copy(atom_load_scale{}, Layout<CopyThreadShapeRev>{}, AtomLayout{})); //group-wise scale
 using atom_load_scale = Copy_Atom<traits_load_scale, ElementScale>;
 using val_layout_load_scale = decltype(make_layout(shape_div(typename traits_load_scale::BlockShape{}, CopyThreadShapeRev{}))); 
 using Copy_Scale = decltype(make_tiled_copy(atom_load_scale{}, Layout<CopyThreadShapeRev>{}, val_layout_load_scale{})); //group-wise scale
@@ -245,17 +236,20 @@ class kgemm_4bit_inference_cutlass_dequant {
     auto s_tensor = make_tensor((format_type*)(raw_pointer_cast(in.data())), Shape<Int<loop_cnt / scalar>, Int<N>>{});
     auto d_tensor = make_tensor(out.data(), Shape<Int<vec_size>, Int<splits>, Int<N>>{});
 
+    CUTLASS_PRAGMA_UNROLL
     for (int n = 0; n < N; n++) {
       const auto ts = tCrS_input(n);
 
       auto& src = *(cute::array<format_type, loop_cnt / scalar>*)(s_tensor(_, n).data());
 
+      CUTLASS_PRAGMA_UNROLL
       for (int s = 0; s < splits; s++) {
         auto idx =  vec_size * s / scalar;
         auto format_data = src[idx];
 
         auto& dst = *(cute::array<DstType, vec_size>*)(d_tensor(_, s, n).data());
 
+        CUTLASS_PRAGMA_UNROLL
         for (int i = 0; i < vec_size; i++) {
           uint8_t value = (format_data >> (src_bits * i)) & 0xf;
           if(i % 2 != 0) { //1,3, high_4bit
@@ -271,27 +265,18 @@ class kgemm_4bit_inference_cutlass_dequant {
   CUTLASS_DEVICE
   void operator()(Params const& params, char* smem_buf) {
     //if(cute::thread0()) printf("this is fusion kernel...........\n"); 
-
     int M = params.m;
     int N = params.n;
     int K = params.k;
     int L = 1;
-
-    const int BLK_M = 256;
-    const int BLK_N = 256;
-    const int BLK_K = 32;
     
-    const int ATOM_M = 8;
-    const int ATOM_N = 4;
-    const int ATOM_K = 1;
-    
-    const int SG_M = ceil_div(BLK_M, ATOM_M);
-    const int SG_N = ceil_div(BLK_N, ATOM_N);
-    const int SG_K = ceil_div(BLK_K, ATOM_K);
-    
-    const int Num_SGs = ATOM_N * ATOM_M * ATOM_K;
+    //Total Threads number
+    static constexpr auto Num_SGs = ATOM_N * ATOM_M * ATOM_K; //32 //2
+
     static constexpr auto SG_QNT_WIDTH = Int<SG_N>{};
 
+    if(cute::thread0()) printf("BLK_M = %d, BLK_N = %d, BLK_K = %d, ATOM_M = %d, ATOM_N = %d, ATOM_K = %d, SG_M = %d, SG_N = %d, SG_K = %d, Num_SGs = %d, SG_QNT_WIDTH = %d\n", static_cast<int>(BLK_M), static_cast<int>(BLK_N), static_cast<int>(BLK_K), static_cast<int>(ATOM_M), static_cast<int>(ATOM_N), static_cast<int>(ATOM_K), static_cast<int>(SG_M), static_cast<int>(SG_N), static_cast<int>(SG_K), static_cast<int>(Num_SGs), static_cast<int>(SG_QNT_WIDTH));
+
     T* A = params.A;
     uint8_t* B = params.B;
     float* out = params.out;
@@ -401,14 +386,14 @@ class kgemm_4bit_inference_cutlass_dequant {
     auto pBgB = thr_prefetch_B.partition_S(gB);
 	
 // Run mainloop
-    auto copy_iter_s = [&](){
+    auto tSgS = [&](){
         return make_tensor(make_inttuple_iter(make_coord(n_coord, 0, l_coord)),
                           make_layout(make_shape(Int<scale_traits_size>{}, Int<scale_traits_num>{}, _1{}, k_tile_count),
                                       make_stride(E<0>{} * _16{}, E<0>{} * decltype(size<1>(typename GmemTiledCopyScale::BlockShape{}))::value, _0{}, E<1>{} * _1{})));
       
     }();
 
-#if 0
+#if 1
   #define PRINT(x) print(#x ": "); print(x); print("\n");
     if (cutlass::thread(LOG_THREAD, LOG_GROUP)) {
         print("\n\n======================= A: \n");
@@ -426,11 +411,17 @@ class kgemm_4bit_inference_cutlass_dequant {
         print("  frag_copy_B : "); print(frag_copy_B); print("\n");
         print("  dequant_frag : "); print(dequant_frag); print("\n");
 
-        print("=====================  D :\n");
-        print("  tiled_copy_scale : "); print(tiled_copy_scale); print("\n");
+        print("=====================  Scale :\n");
+        //print("  traits_load_scale::BlockShape{} : "); print(traits_load_scale::BlockShape{}); print("\n");
+        //print("  CopyThreadShapeRev{} : "); print(CopyThreadShapeRev{}); print("\n");
+        //print("  val_layout_load_scale{} : "); print(val_layout_load_scale{}); print("\n");
+        //print("  atom_load_scale{} : "); print(atom_load_scale{}); print("\n");
+        //print("  Layout<CopyThreadShapeRev>{} : "); print(Layout<CopyThreadShapeRev>{}); print("\n");
+        //print("  Copy_Scale{} : "); print(Copy_Scale{}); print("\n");
+        //print("  tiled_copy_scale : "); print(tiled_copy_scale); print("\n");
         print("  fragment_scale : "); print(fragment_scale); print("\n");
         print("  frag_copy_Scale : "); print(frag_copy_Scale); print("\n");
-        print("  copy_iter_s: "); print(copy_iter_s); print("\n");
+        print("  tSgS : "); print(tSgS); print("\n");
 
         print("=====================  D :\n");
         print("  accumulators : "); print(accumulators); print("\n");
@@ -439,9 +430,25 @@ class kgemm_4bit_inference_cutlass_dequant {
         print("  threads per workgroup : "); print(MaxThreadsPerBlock);  print("\n");
         print("  SubgroupTileShape     : "); print(SubgroupTileShape{}); print("\n");
 
+        print("=====================  Config: \n");
+        print("  tiled_mma     : "); print(tiled_mma); print("\n");
+
+        print("=====================  Config: \n");
+        print("  SubgroupTileShape     : "); print(SubgroupTileShape{}); print("\n");
+
+        print("=====================  Config: \n");
+        print("  thr_mma     : "); print(thr_mma); print("\n");
+
+        print("=====================  Config: \n");
         print("  tiled_prefetch_a :    "); print(tiled_prefetch_a); print("\n");
+
+        print("=====================  Config: \n");
         print("  tiled_prefetch_b :    "); print(tiled_prefetch_b); print("\n");
+
+        print("=====================  Config: \n");
         print("  pAgA :    "); print(pAgA); print("\n");
+
+        print("=====================  Config: \n");
         print("  pBgB :    "); print(pBgB); print("\n\n\n");
       }
   #undef PRINT
@@ -450,7 +457,7 @@ class kgemm_4bit_inference_cutlass_dequant {
     int prefetch_k = k_start_idx;
 
     const int k_reload_factor = ceil_div(params.group_size, BLK_K);
-    //if(cute::thread0()) printf("params.group_size = %d, BLK_K = %d, k_reload_factor = %f\n",params.group_size, BLK_K, k_reload_factor);
+    if(cute::thread0()) printf("params.group_size = %d, BLK_K = %d, k_reload_factor = %d\n",params.group_size, static_cast<int>(BLK_K), k_reload_factor);
 
     CUTLASS_PRAGMA_UNROLL
     for (int i = 0; i < DispatchPolicy::Stages; i++, prefetch_k++) {
@@ -465,9 +472,9 @@ class kgemm_4bit_inference_cutlass_dequant {
       copy(tiled_copy_a, tAgA(_,_,_,k_tile), frag_copy_A);
       copy(tiled_copy_b, tBgB(_,_,_,k_tile), frag_copy_B);
 
-      const int s_step = k_start_idx + (k_s / k_reload_factor);
-      //if(cute::thread0()) printf("k_start_idx = %d, k_s = %d, k_reload_factor = %f, s_step = %d\n",k_start_idx, k_s, k_reload_factor, s_step);
-      copy(tiled_copy_scale, copy_iter_s(_, _, _, s_step), frag_copy_Scale);
+      const int s_idx = (k_start_idx + k_s) / k_reload_factor;
+      if(cute::thread0()) printf("k_start_idx = %d, k_s = %d, k_reload_factor = %d, s_idx = %d\n",k_start_idx, k_s, k_reload_factor, s_idx);
+      copy(tiled_copy_scale, tSgS(_, _, _, s_idx), frag_copy_Scale);
 
       if(prefetch_k < k_tile_count) {
         prefetch(tiled_prefetch_a, pAgA(_,_,_,prefetch_k));
@@ -591,7 +598,7 @@ void gemm_4bit_inference_cutlass_dequant(int m, int n, int k, T *A, unsigned cha
   StrideC stride_C = cutlass::make_cute_packed_stride(StrideC{}, cute::make_shape(m, n, l));
   StrideD stride_D = cutlass::make_cute_packed_stride(StrideD{}, cute::make_shape(m, n, l));
 
-#if 0
+#if 1
   #define PRINT(x) print(#x ": "); print(x); print("\n");
     if (cutlass::thread(LOG_THREAD, LOG_GROUP)) {
         print("=====================  stride :\n");
diff --git a/include/cute/atom/copy_traits_xe.hpp b/include/cute/atom/copy_traits_xe.hpp
@@ -210,15 +210,13 @@ struct XE_2D_LD_Unpack {
   // It mean (M, N):(N, 1) convention if 'is_convention_MN' is true, (N, M):(1, N) convention otherwise.
   static constexpr bool is_convention_MN = !(is_need_reversed ^ is_column_major);
 
-  // 2d copy parameters
+// 2d copy parameters
   const void *base_ptr;
   uint32_t width;
   uint32_t height;
   uint32_t pitch;
   uint32_t stride_l = 0;
 
-
-
   XE_2D_LD_Unpack(const void *ptr, uint32_t y,
                  uint32_t x, uint32_t p = 0) : base_ptr(ptr) {
     if constexpr (is_need_reversed) {
@@ -235,6 +233,15 @@ struct XE_2D_LD_Unpack {
 
   template <class... TensorArgs>
   XE_2D_LD_Unpack(Tensor<TensorArgs...> const &tensor) {
+#if 1
+    if(cute::thread0()){
+      print("===============================\n");
+      print("is_column_major : "); print(is_column_major); print("\n");
+      print("is_need_reversed : "); print(is_need_reversed); print("\n");
+      print("is_convention_MN : "); print(is_convention_MN); print("\n");
+      print("===============================\n");
+    }
+#endif    
     base_ptr = raw_pointer_cast(tensor.data());
 
     if constexpr (is_need_reversed)
@@ -430,7 +437,25 @@ CUTE_HOST_DEVICE constexpr auto make_fragment_layout(TiledCopy &tiled_copy,
   auto order = std::conditional_t<TiledCopy::is_convention_MN,
                                   Step<Step<_0, _1>, Step<_2, _4>, Step<_3, _5>>,
                                   Step<Step<_0, _1>, Step<_3, _5>, Step<_2, _4>>>{};
-
+#if 1                                  
+  if(cute::thread0()){
+    print("========================make_fragment_layout: \n");
+    print("fragment_top_level_shape: "); print(fragment_top_level_shape); print("\n");
+    print("mma_atom_shape: "); print(mma_atom_shape); print("\n");
+    print("total_mma_atom_iters_M: "); print(total_mma_atom_iters_M); print("\n");
+    print("total_mma_atom_iters_N: "); print(total_mma_atom_iters_N); print("\n");
+    print("ThreadLayout_: "); print(ThreadLayout_{}); print("\n");
+    print("ThreadLayout: "); print(ThreadLayout{}); print("\n");
+    print("thread_copy_shape: "); print(thread_copy_shape); print("\n");
+    print("mma_atom_iters_in_copy_M: "); print(mma_atom_iters_in_copy_M); print("\n");
+    print("mma_atom_iters_in_copy_N: "); print(mma_atom_iters_in_copy_N); print("\n");
+    print("copy_iters_M: "); print(copy_iters_M); print("\n");
+    print("copy_iters_N: "); print(copy_iters_N); print("\n");
+    print("order: "); print(order); print("\n");
+    print("mma_atom_shape_2d: "); print(mma_atom_shape_2d); print("\n");
+    print("============================================== \n");
+  }
+#endif  
   return make_ordered_layout(make_shape(mma_atom_shape_2d,
                                         make_shape(mma_atom_iters_in_copy_M, copy_iters_M),
                                         make_shape(mma_atom_iters_in_copy_N, copy_iters_N)),
diff --git a/include/cute/atom/mma_atom.hpp b/include/cute/atom/mma_atom.hpp
@@ -313,7 +313,25 @@ struct TiledMMA : MMA_Atom
                               make_tile(make_layout(size<1>(thr_layout_vmnk_)),
                                         make_layout(size<3>(thr_layout_vmnk_))));
     auto thr_tensor = zipped_divide(tv_tensor, thr_tile);            // ((ThrV,(ThrM,ThrK)),(FrgV,(RestM,RestK)))
-
+#if 1 
+    if(cute::thread0()){
+      print("========================thrfrg_A: \n");
+      print("atensor: "); print(atensor); print("\n");
+      print("permutation_mnk<0>: "); print(permutation_mnk<0>()); print("\n");
+      print("permutation_mnk<2>: "); print(permutation_mnk<2>()); print("\n");
+      print("t_tile: "); print(t_tile); print("\n");
+      print("t_tensor: "); print(t_tensor); print("\n");
+      print("AtomShape_MNK: "); print(AtomShape_MNK{}); print("\n");
+      print("a_tile: "); print(a_tile); print("\n");
+      print("a_tensor: "); print(a_tensor); print("\n");
+      print("AtomLayoutA_TV: "); print(AtomLayoutA_TV{}); print("\n");
+      print("tv_tensor: "); print(tv_tensor); print("\n");
+      print("thr_layout_vmnk_: "); print(thr_layout_vmnk_); print("\n");
+      print("thr_tile: "); print(thr_tile); print("\n");
+      print("thr_tensor: "); print(thr_tensor); print("\n");
+      print("==================================== \n");
+    }
+#endif    
     return thr_tensor;
   }
 
@@ -352,7 +370,25 @@ struct TiledMMA : MMA_Atom
                               make_tile(make_layout(size<2>(thr_layout_vmnk_)),
                                         make_layout(size<3>(thr_layout_vmnk_))));
     auto thr_tensor = zipped_divide(tv_tensor, thr_tile);            // ((ThrV,(ThrN,ThrK)),(FrgV,(RestN,RestK)))
-
+#if 1    
+    if(cute::thread0()){
+      print("========================thrfrg_B: \n");
+      print("permutation_mnk<1>: "); print(permutation_mnk<1>()); print("\n");
+      print("permutation_mnk<2>: "); print(permutation_mnk<2>()); print("\n");
+      print("t_tile: "); print(t_tile); print("\n");
+      print("btensor: "); print(btensor); print("\n");
+      print("t_tensor: "); print(t_tensor); print("\n");
+      print("AtomShape_MNK: "); print(AtomShape_MNK{}); print("\n");
+      print("b_tile: "); print(b_tile); print("\n");
+      print("b_tensor: "); print(b_tensor); print("\n");
+      print("AtomLayoutB_TV: "); print(AtomLayoutB_TV{}); print("\n");
+      print("tv_tensor: "); print(tv_tensor); print("\n");
+      print("thr_layout_vmnk_: "); print(thr_layout_vmnk_); print("\n");
+      print("thr_tile: "); print(thr_tile); print("\n");
+      print("thr_tensor: "); print(thr_tensor); print("\n");
+      print("==================================== \n");
+    }
+#endif    
     return thr_tensor;
   }
 
@@ -523,6 +559,7 @@ struct ThrMMA : TiledMMA
     auto thr_tensor = make_tensor(static_cast<CTensor&&>(ctensor).data(), this->thrfrg_C(ctensor.layout()));
 
     auto thr_vmn = make_coord(get<0>(thr_vmnk_), make_coord(get<1>(thr_vmnk_), get<2>(thr_vmnk_)));
+    //if(cute::thread0()) printf("partition_C: get<0>(thr_vmnk_) = %d, get<1>(thr_vmnk_) = %d, get<2>(thr_vmnk_) = %d\n", static_cast<int>(get<0>(thr_vmnk_)),static_cast<int>(get<1>(thr_vmnk_)),static_cast<int>(get<2>(thr_vmnk_)));
     return thr_tensor(thr_vmn, make_coord(_, repeat<rank<1,1>(thr_tensor)>(_)));
   }
 
@@ -534,6 +571,7 @@ struct ThrMMA : TiledMMA
     auto thr_tensor = make_tensor(static_cast<ATensor&&>(atensor).data(), this->thrfrg_A(atensor.layout()));
 
     auto thr_vmk = make_coord(get<0>(thr_vmnk_), make_coord(get<1>(thr_vmnk_), get<3>(thr_vmnk_)));
+    //if(cute::thread0()) printf("partition_A: get<0>(thr_vmnk_) = %d, get<1>(thr_vmnk_) = %d, get<3>(thr_vmnk_) = %d\n", static_cast<int>(get<0>(thr_vmnk_)),static_cast<int>(get<1>(thr_vmnk_)),static_cast<int>(get<3>(thr_vmnk_)));
     return thr_tensor(thr_vmk, make_coord(_, repeat<rank<1,1>(thr_tensor)>(_)));
   }
 
@@ -545,6 +583,7 @@ struct ThrMMA : TiledMMA
     auto thr_tensor = make_tensor(static_cast<BTensor&&>(btensor).data(), this->thrfrg_B(btensor.layout()));
 
     auto thr_vnk = make_coord(get<0>(thr_vmnk_), make_coord(get<2>(thr_vmnk_), get<3>(thr_vmnk_)));
+    //if(cute::thread0()) printf("partition_B: get<0>(thr_vmnk_) = %d, get<2>(thr_vmnk_) = %d, get<3>(thr_vmnk_) = %d\n", static_cast<int>(get<0>(thr_vmnk_)),static_cast<int>(get<2>(thr_vmnk_)),static_cast<int>(get<3>(thr_vmnk_)));
     return thr_tensor(thr_vnk, make_coord(_, repeat<rank<1,1>(thr_tensor)>(_)));
   }
 
diff --git a/tests/test_xpu.py b/tests/test_xpu.py
@@ -83,12 +83,12 @@ def test_gemm_4bit(self, device, dim, dtype, storage_type, quant_storage, double
             double_quant=False
             block_size = 16
         elif kind == "fc1":
-            dim=4096
+            dim=256
             A = torch.randn(64, dim, dtype=dtype, device=device)
             #A = torch.arange(1, 32 * 256 + 1).reshape(32, 256).bfloat16().xpu()
             B = torch.randn(dim , dim, dtype=dtype, device=device)  / math.sqrt(dim)
             double_quant=False
-            block_size = 32
+            block_size = 64
         elif kind == "fc2":
             A = torch.randn(1, 4 * dim, dtype=dtype, device=device)
             B = torch.randn(dim, 4 * dim, dtype=dtype, device=device) / math.sqrt(dim)
@@ -144,7 +144,7 @@ def test_gemm_4bit(self, device, dim, dtype, storage_type, quant_storage, double
           #print("C3.sum() = ", C3.sum())
           #print("C2.sum() = ", C2.sum())
           diff = abs(C2-C3.bfloat16())
-          print("diff = ", diff[0])
+          print("diff/C2 = ", diff[0]/C2[0])
           print(C3[0])
           print(C2[0])
           #print(C3)