remove unused code from mask_s (#7961)

zhoutianzi666 · web-flow · commit b0e2e01c4941 · 2026-06-01T10:58:21.000+08:00
diff --git a/custom_ops/gpu_ops/append_attn/append_attention_func.cuh b/custom_ops/gpu_ops/append_attn/append_attention_func.cuh
@@ -1001,14 +1001,11 @@ __device__ __forceinline__ void compute_qk_c8(smem_t* q_smem,
 }
 
 template <typename T,
-          bool partition_kv,
           bool causal,
           uint32_t group_size,
           uint32_t num_warps,
           uint32_t num_frags_x,
-          uint32_t num_frags_y,
-          uint32_t num_frags_z,
-          bool IS_SYSTEM = false>
+          uint32_t num_frags_z>
 __device__ __forceinline__ void mask_s(const bool* attn_mask,
                                        const uint32_t qo_idx_base,
                                        const uint32_t kv_idx_base,
@@ -1027,74 +1024,55 @@ __device__ __forceinline__ void mask_s(const bool* attn_mask,
     for (uint32_t fz = 0; fz < num_frags_z; ++fz) {
 #pragma unroll
       for (uint32_t reg_id = 0; reg_id < 8; ++reg_id) {
-        if constexpr (!IS_SYSTEM) {
-          const uint32_t q_idx = (qo_idx_base + fx * 16 + tx / 4 +
-                                  8 * ((reg_id % 4) / 2)) /
-                                 group_size,
-                         kv_idx = kv_idx_base + fz * 16 + 2 * (tx % 4) +
-                                  8 * (reg_id / 4) + reg_id % 2;
-          bool out_of_boundary;
-          if (mask_offset) {
-            if (sliding_window > 0) {
-              int swa_part = mask_offset[q_idx * 2 + 1] - sliding_window;
-              if (swa_part < 0) swa_part = 0;
-              int sink_part =
-                  mask_offset[q_idx * 2] + sink_size;  // sink_size = 128
-              out_of_boundary =
-                  q_idx < qo_len ? (kv_idx >= mask_offset[q_idx * 2 + 1] ||
-                                    kv_idx < mask_offset[q_idx * 2] ||
-                                    (kv_idx >= sink_part && kv_idx < swa_part))
-                                 : true;
-            } else {
-              out_of_boundary = q_idx < qo_len
-                                    ? (kv_idx >= mask_offset[q_idx * 2 + 1] ||
-                                       kv_idx < mask_offset[q_idx * 2])
-                                    : true;
-            }
-          } else if (sliding_window > 0) {
-            bool out_of_window = int(kv_idx) <= (int)kv_len + (int)q_idx -
-                                                    (int)qo_len -
-                                                    sliding_window;
-            out_of_boundary = (causal ? (kv_idx > kv_len + q_idx - qo_len ||
-                                         out_of_window || (kv_idx >= chunk_end))
-                                      : kv_idx >= chunk_end);
+        const uint32_t q_idx = (qo_idx_base + fx * 16 + tx / 4 +
+                                8 * ((reg_id % 4) / 2)) /
+                               group_size,
+                       kv_idx = kv_idx_base + fz * 16 + 2 * (tx % 4) +
+                                8 * (reg_id / 4) + reg_id % 2;
+        bool out_of_boundary;
+        if (mask_offset) {
+          if (sliding_window > 0) {
+            int swa_part = mask_offset[q_idx * 2 + 1] - sliding_window;
+            if (swa_part < 0) swa_part = 0;
+            int sink_part =
+                mask_offset[q_idx * 2] + sink_size;  // sink_size = 128
+            out_of_boundary = q_idx < qo_len
+                                  ? (kv_idx >= mask_offset[q_idx * 2 + 1] ||
+                                     kv_idx < mask_offset[q_idx * 2] ||
+                                     (kv_idx >= sink_part && kv_idx < swa_part))
+                                  : true;
           } else {
-            out_of_boundary = (causal ? (kv_idx > kv_len + q_idx - qo_len ||
-                                         (kv_idx >= chunk_end))
-                                      : kv_idx >= chunk_end);
-            if (attn_mask != nullptr && kv_idx > kv_len - qo_len &&
-                kv_idx < chunk_end && q_idx < attn_mask_len) {
-              const int32_t mask_idx =
-                  q_idx * attn_mask_len + kv_idx - kv_len + qo_len;
-              bool mask = attn_mask[mask_idx];
-              out_of_boundary |= mask;
-            }
+            out_of_boundary = q_idx < qo_len
+                                  ? (kv_idx >= mask_offset[q_idx * 2 + 1] ||
+                                     kv_idx < mask_offset[q_idx * 2])
+                                  : true;
           }
-
-          if constexpr (std::is_same<T, half>::value) {
-            s_frag[fx][fz][reg_id] =
-                out_of_boundary ? -5e4f : s_frag[fx][fz][reg_id];
-          } else if constexpr (std::is_same<T, __nv_bfloat16>::value) {
-            s_frag[fx][fz][reg_id] =
-                out_of_boundary ? -3.0e+30f : s_frag[fx][fz][reg_id];
-          }
-
+        } else if (sliding_window > 0) {
+          bool out_of_window = int(kv_idx) <= (int)kv_len + (int)q_idx -
+                                                  (int)qo_len - sliding_window;
+          out_of_boundary = (causal ? (kv_idx > kv_len + q_idx - qo_len ||
+                                       out_of_window || (kv_idx >= chunk_end))
+                                    : kv_idx >= chunk_end);
         } else {
-          const uint32_t q_idx = qo_idx_base,
-                         kv_idx = kv_idx_base + fz * 16 + 2 * (tx % 4) +
-                                  8 * (reg_id / 4) + reg_id % 2;
-          const bool out_of_boundary =
-              (causal
-                   ? (kv_idx > kv_len + q_idx - qo_len || (kv_idx >= chunk_end))
-                   : kv_idx >= chunk_end);
-          if constexpr (std::is_same<T, half>::value) {
-            s_frag[fx][fz][reg_id] =
-                out_of_boundary ? -5e4f : s_frag[fx][fz][reg_id];
-          } else if constexpr (std::is_same<T, __nv_bfloat16>::value) {
-            s_frag[fx][fz][reg_id] =
-                out_of_boundary ? -3.0e+30f : s_frag[fx][fz][reg_id];
+          out_of_boundary = (causal ? (kv_idx > kv_len + q_idx - qo_len ||
+                                       (kv_idx >= chunk_end))
+                                    : kv_idx >= chunk_end);
+          if (attn_mask != nullptr && kv_idx > kv_len - qo_len &&
+              kv_idx < chunk_end && q_idx < attn_mask_len) {
+            const int32_t mask_idx =
+                q_idx * attn_mask_len + kv_idx - kv_len + qo_len;
+            bool mask = attn_mask[mask_idx];
+            out_of_boundary |= mask;
           }
         }
+
+        if constexpr (std::is_same<T, half>::value) {
+          s_frag[fx][fz][reg_id] =
+              out_of_boundary ? -5e4f : s_frag[fx][fz][reg_id];
+        } else if constexpr (std::is_same<T, __nv_bfloat16>::value) {
+          s_frag[fx][fz][reg_id] =
+              out_of_boundary ? -3.0e+30f : s_frag[fx][fz][reg_id];
+        }
       }
     }
   }
diff --git a/custom_ops/gpu_ops/append_attn/multiquery_attention_c16_impl.cuh b/custom_ops/gpu_ops/append_attn/multiquery_attention_c16_impl.cuh
@@ -253,24 +253,18 @@ __global__ void multi_query_append_attention_kernel(
         &qo_smem, &q_smem_offset_r, &k_smem, &k_smem_offset_r, s_frag);
     // mask according to kv_idx and q_idx
     if (iter >= mask_check_iteration || sliding_window > 0) {
-      mask_s<T,
-             partition_kv,
-             CAUSAL,
-             GROUP_SIZE,
-             NUM_WARPS,
-             num_frags_x,
-             num_frags_y,
-             num_frags_z>(nullptr,
-                          q_base_seq_id_this_block,
-                          kv_idx_base,
-                          q_len,
-                          kv_len,
-                          chunk_end,
-                          -1,
-                          s_frag,
-                          mask_offset_this_seq,
-                          sliding_window,
-                          sink_size);
+      mask_s<T, CAUSAL, GROUP_SIZE, NUM_WARPS, num_frags_x, num_frags_z>(
+          nullptr,
+          q_base_seq_id_this_block,
+          kv_idx_base,
+          q_len,
+          kv_len,
+          chunk_end,
+          -1,
+          s_frag,
+          mask_offset_this_seq,
+          sliding_window,
+          sink_size);
     }
 
     // update m,d
@@ -565,22 +559,22 @@ __global__ void multi_query_append_attention_warp1_4_kernel(
 
   const uint32_t num_iterations = div_up(
       CAUSAL
-          ? (min(chunk_len,
-                 sub_if_greater_or_zero(
-                     kv_len - q_len +
-                         div_up((tile_id + 1) * num_rows_per_block, GROUP_SIZE),
-                     chunk_start)))
+          ? min(chunk_len,
+                sub_if_greater_or_zero(
+                    kv_len - q_len +
+                        div_up((tile_id + 1) * num_rows_per_block, GROUP_SIZE),
+                    chunk_start))
           : chunk_len,
       BLOCK_SIZE);
   const uint32_t mask_check_iteration =
-      (CAUSAL        ? (min(chunk_len,
-                     sub_if_greater_or_zero(kv_len - q_len, chunk_start)))
+      (CAUSAL
+           ? min(chunk_len, sub_if_greater_or_zero(kv_len - q_len, chunk_start))
        : mask_offset ? 0
                      : chunk_len) /
-      (BLOCK_SIZE);
+      BLOCK_SIZE;
 
   uint32_t k_smem_offset_r = smem_t::get_permuted_offset<num_vecs_per_head>(
-      wid * num_frags_z * 16 + 8 * (tid / 16) + tid % 8, (tid % 16) / 8);
+      wid * num_frags_z * 16 + tid / 16 * 8 + tid % 8, tid % 16 / 8);
 
   uint32_t v_smem_offset_r = smem_t::get_permuted_offset<num_vecs_per_head>(
       wid * num_frags_z * 16 + tid % 16, tid / 16);
@@ -637,14 +631,7 @@ __global__ void multi_query_append_attention_warp1_4_kernel(
         &qo_smem, &q_smem_offset_r, &k_smem, &k_smem_offset_r, s_frag);
     // mask according to kv_idx and q_idx
     if (iter >= mask_check_iteration || sliding_window > 0) {
-      mask_s<T,
-             partition_kv,
-             CAUSAL,
-             GROUP_SIZE,
-             NUM_WARPS,
-             num_frags_x,
-             num_frags_y,
-             num_frags_z>(
+      mask_s<T, CAUSAL, GROUP_SIZE, NUM_WARPS, num_frags_x, num_frags_z>(
           attn_mask ? attn_mask + batch_id * attn_mask_len * attn_mask_len
                     : nullptr,
           q_base_seq_id_this_block,
diff --git a/custom_ops/gpu_ops/append_attn/multiquery_attention_c4_impl.cuh b/custom_ops/gpu_ops/append_attn/multiquery_attention_c4_impl.cuh
@@ -338,24 +338,18 @@ __global__ void multi_query_append_attention_c4_kernel(
         cache_k_zp_frag);
 
     if (iter >= mask_check_iteration || sliding_window > 0) {
-      mask_s<T,
-             partition_kv,
-             CAUSAL,
-             GROUP_SIZE,
-             NUM_WARPS,
-             num_frags_x,
-             num_frags_y,
-             num_frags_z>(nullptr,
-                          q_base_seq_id_this_block,
-                          kv_idx_base,
-                          q_len,
-                          kv_len,
-                          chunk_end,
-                          -1,
-                          s_frag,
-                          mask_offset_this_seq,
-                          sliding_window,
-                          sink_size);
+      mask_s<T, CAUSAL, GROUP_SIZE, NUM_WARPS, num_frags_x, num_frags_z>(
+          nullptr,
+          q_base_seq_id_this_block,
+          kv_idx_base,
+          q_len,
+          kv_len,
+          chunk_end,
+          -1,
+          s_frag,
+          mask_offset_this_seq,
+          sliding_window,
+          sink_size);
     }
 
     update_mdo_states<num_frags_x, num_frags_y, num_frags_z>(
@@ -837,14 +831,7 @@ __global__ void multi_query_append_attention_c4_warp1_4_kernel(
         cache_k_scale_frag,
         cache_k_zp_frag);
     if (iter >= mask_check_iteration || sliding_window > 0) {
-      mask_s<T,
-             partition_kv,
-             CAUSAL,
-             GROUP_SIZE,
-             NUM_WARPS,
-             num_frags_x,
-             num_frags_y,
-             num_frags_z>(
+      mask_s<T, CAUSAL, GROUP_SIZE, NUM_WARPS, num_frags_x, num_frags_z>(
           attn_mask ? attn_mask + batch_id * attn_mask_len * attn_mask_len
                     : nullptr,
           q_base_seq_id_this_block,
diff --git a/custom_ops/gpu_ops/append_attn/multiquery_attention_c8_impl.cuh b/custom_ops/gpu_ops/append_attn/multiquery_attention_c8_impl.cuh
@@ -354,24 +354,18 @@ __global__ void multi_query_append_attention_c8_kernel(
 
     // mask according to kv_idx and q_idx
     if (iter >= mask_check_iteration || sliding_window > 0) {
-      mask_s<T,
-             partition_kv,
-             CAUSAL,
-             GROUP_SIZE,
-             NUM_WARPS,
-             num_frags_x,
-             num_frags_y,
-             num_frags_z>(nullptr,
-                          q_base_seq_id_this_block,
-                          kv_idx_base,
-                          q_len,
-                          kv_len,
-                          chunk_end,
-                          -1,
-                          s_frag,
-                          mask_offset_this_seq,
-                          sliding_window,
-                          sink_size);
+      mask_s<T, CAUSAL, GROUP_SIZE, NUM_WARPS, num_frags_x, num_frags_z>(
+          nullptr,
+          q_base_seq_id_this_block,
+          kv_idx_base,
+          q_len,
+          kv_len,
+          chunk_end,
+          -1,
+          s_frag,
+          mask_offset_this_seq,
+          sliding_window,
+          sink_size);
     }
 
     // update m,d
@@ -903,14 +897,7 @@ __global__ void multi_query_append_attention_c8_warp1_4_kernel(
                                s_frag);
     // mask according to kv_idx and q_idx
     if (iter >= mask_check_iteration || sliding_window > 0) {
-      mask_s<T,
-             partition_kv,
-             CAUSAL,
-             GROUP_SIZE,
-             NUM_WARPS,
-             num_frags_x,
-             num_frags_y,
-             num_frags_z>(
+      mask_s<T, CAUSAL, GROUP_SIZE, NUM_WARPS, num_frags_x, num_frags_z>(
           attn_mask ? attn_mask + batch_id * attn_mask_len * attn_mask_len
                     : nullptr,
           q_base_seq_id_this_block,