Update (base update)

JulianCloudNTH · JulianCloudNTH · commit a1afd656bba0 · 2026-06-24T11:06:37.000-07:00
[ghstack-poisoned]
diff --git a/backends/webgpu/runtime/WebGPUUtils.h b/backends/webgpu/runtime/WebGPUUtils.h
@@ -18,6 +18,12 @@
 
 namespace executorch::backends::webgpu::utils {
 
+// Ceiling division for non-negative integers (mirrors Vulkan's utils::div_up).
+template <typename T>
+inline T div_up(T a, T b) {
+  return (a + b - 1) / b;
+}
+
 // Clamp workgroup size to device limit (SwiftShader caps at 128).
 inline uint32_t clamp_workgroup_size(WGPUDevice device, uint32_t desired) {
   WGPULimits limits = {};
@@ -34,7 +40,7 @@ inline uint32_t compute_1d_workgroup_count(
     uint32_t num_threads,
     uint32_t workgroup_size,
     const char* op_name) {
-  uint32_t count = (num_threads + workgroup_size - 1) / workgroup_size;
+  uint32_t count = div_up(num_threads, workgroup_size);
   WGPULimits limits = {};
   uint32_t max_count =
       wgpuDeviceGetLimits(device, &limits) == WGPUStatus_Success &&
diff --git a/backends/webgpu/runtime/ops/quantized_linear/QuantizedLinear.cpp b/backends/webgpu/runtime/ops/quantized_linear/QuantizedLinear.cpp
@@ -37,10 +37,6 @@ static_assert(sizeof(Q4gswParams) == 32, "Q4gswParams must be 32 bytes");
 // Register-tile dims; MUST match TM/TN in q4gsw_linear.wgsl.
 constexpr int64_t kQ4gswTileM = 4;
 constexpr int64_t kQ4gswTileN = 4;
-// ceil(a/b) for positive int64 (WebGPUUtils has no ceil-div helper).
-inline int64_t q4gsw_ceil_div(int64_t a, int64_t b) {
-  return (a + b - 1) / b;
-}
 
 // et_vk.linear_q4gsw args: [in, weight, scales, group_size, bias, out].
 void q4gsw_linear_impl(WebGPUGraph& graph, const std::vector<int>& args) {
@@ -96,8 +92,8 @@ void q4gsw_linear_impl(WebGPUGraph& graph, const std::vector<int>& args) {
   // Register-tiled GEMM: one thread per TM x TN tile; validate before alloc.
   const uint32_t wg_size =
       utils::clamp_workgroup_size(device, kQ4gswLinearWorkgroupSizeX);
-  const int64_t total_tiles =
-      q4gsw_ceil_div(M, kQ4gswTileM) * q4gsw_ceil_div(N, kQ4gswTileN);
+  const int64_t total_tiles = utils::div_up<int64_t>(M, kQ4gswTileM) *
+      utils::div_up<int64_t>(N, kQ4gswTileN);
   if (total_tiles > static_cast<int64_t>(UINT32_MAX)) {
     throw std::runtime_error(
         "WebGPU linear_q4gsw: tile count exceeds the 1D dispatch limit");
diff --git a/backends/webgpu/runtime/ops/quantized_linear/q4gsw_linear.wgsl b/backends/webgpu/runtime/ops/quantized_linear/q4gsw_linear.wgsl
@@ -21,12 +21,15 @@ override wg_size: u32 = 64u;
 // Register-tiled GEMM: dequant weight once per (n,k), reused across TM rows.
 const TM: u32 = 4u;
 const TN: u32 = 4u;
+const TILE_ELEMS: u32 = TM * TN; // accumulator size; keeps acc in sync with TM/TN
 
 @compute @workgroup_size(wg_size, 1, 1)
 fn main(@builtin(global_invocation_id) gid: vec3<u32>) {
   let nrt = (params.M + TM - 1u) / TM;
   let nct = (params.N + TN - 1u) / TN;
   let tiles = nrt * nct;
+  // M==0 or N==0 -> tiles==0 -> every thread returns here, so the M-1u/N-1u
+  // clamps below never underflow (the host also rejects M==0/N==0).
   if (gid.x >= tiles) {
     return;
   }
@@ -35,8 +38,8 @@ fn main(@builtin(global_invocation_id) gid: vec3<u32>) {
   let m0 = row_tile * TM;
   let n0 = col_tile * TN;
 
-  var acc: array<f32, 16>; // TM * TN
-  for (var i: u32 = 0u; i < TM * TN; i = i + 1u) {
+  var acc: array<f32, TILE_ELEMS>;
+  for (var i: u32 = 0u; i < TILE_ELEMS; i = i + 1u) {
     acc[i] = 0.0;
   }
 
@@ -45,6 +48,12 @@ fn main(@builtin(global_invocation_id) gid: vec3<u32>) {
     if (k >= params.K) {
       break;
     }
+    // Load the TM input values for column k once; reused across all TN columns.
+    var in_reg: array<f32, TM>;
+    for (var ml: u32 = 0u; ml < TM; ml = ml + 1u) {
+      let m_eff = min(m0 + ml, params.M - 1u);
+      in_reg[ml] = t_input[m_eff * params.K + k];
+    }
     for (var nl: u32 = 0u; nl < TN; nl = nl + 1u) {
       // Clamp to last valid column; overhang result is never stored.
       let n_eff = min(n0 + nl, params.N - 1u);
@@ -60,8 +69,7 @@ fn main(@builtin(global_invocation_id) gid: vec3<u32>) {
       let q = f32(i32(nib) - 8); // +8-shifted on pack; recover signed [-8,7]
       let dq = q * t_scales[(k / params.group_size) * params.padded_N + n_eff];
       for (var ml: u32 = 0u; ml < TM; ml = ml + 1u) {
-        let m_eff = min(m0 + ml, params.M - 1u);
-        acc[ml * TN + nl] = acc[ml * TN + nl] + t_input[m_eff * params.K + k] * dq;
+        acc[ml * TN + nl] = acc[ml * TN + nl] + in_reg[ml] * dq;
       }
     }
     k = k + 1u;
diff --git a/backends/webgpu/runtime/ops/quantized_linear/q4gsw_linear_wgsl.h b/backends/webgpu/runtime/ops/quantized_linear/q4gsw_linear_wgsl.h
@@ -13,7 +13,7 @@
 namespace executorch::backends::webgpu {
 
 // @generated from q4gsw_linear.wgsl - DO NOT EDIT.
-// wgsl-sha256: f0fd0371418fdacd3387645888689caf86a387a623ed08f8337610e30f844ede
+// wgsl-sha256: dc6a55014ae4543bd80e5e22c3fb52896aca96e0589f700803327d8121ada489
 inline constexpr const char* kQ4gswLinearWGSL = R"(
 @group(0) @binding(0) var<storage, read_write> t_out: array<f32>;
 @group(0) @binding(1) var<storage, read> t_input: array<f32>;
@@ -38,12 +38,15 @@ override wg_size: u32 = 64u;
 // Register-tiled GEMM: dequant weight once per (n,k), reused across TM rows.
 const TM: u32 = 4u;
 const TN: u32 = 4u;
+const TILE_ELEMS: u32 = TM * TN; // accumulator size; keeps acc in sync with TM/TN
 
 @compute @workgroup_size(wg_size, 1, 1)
 fn main(@builtin(global_invocation_id) gid: vec3<u32>) {
   let nrt = (params.M + TM - 1u) / TM;
   let nct = (params.N + TN - 1u) / TN;
   let tiles = nrt * nct;
+  // M==0 or N==0 -> tiles==0 -> every thread returns here, so the M-1u/N-1u
+  // clamps below never underflow (the host also rejects M==0/N==0).
   if (gid.x >= tiles) {
     return;
   }
@@ -52,8 +55,8 @@ fn main(@builtin(global_invocation_id) gid: vec3<u32>) {
   let m0 = row_tile * TM;
   let n0 = col_tile * TN;
 
-  var acc: array<f32, 16>; // TM * TN
-  for (var i: u32 = 0u; i < TM * TN; i = i + 1u) {
+  var acc: array<f32, TILE_ELEMS>;
+  for (var i: u32 = 0u; i < TILE_ELEMS; i = i + 1u) {
     acc[i] = 0.0;
   }
 
@@ -62,6 +65,12 @@ fn main(@builtin(global_invocation_id) gid: vec3<u32>) {
     if (k >= params.K) {
       break;
     }
+    // Load the TM input values for column k once; reused across all TN columns.
+    var in_reg: array<f32, TM>;
+    for (var ml: u32 = 0u; ml < TM; ml = ml + 1u) {
+      let m_eff = min(m0 + ml, params.M - 1u);
+      in_reg[ml] = t_input[m_eff * params.K + k];
+    }
     for (var nl: u32 = 0u; nl < TN; nl = nl + 1u) {
       // Clamp to last valid column; overhang result is never stored.
       let n_eff = min(n0 + nl, params.N - 1u);
@@ -77,8 +86,7 @@ fn main(@builtin(global_invocation_id) gid: vec3<u32>) {
       let q = f32(i32(nib) - 8); // +8-shifted on pack; recover signed [-8,7]
       let dq = q * t_scales[(k / params.group_size) * params.padded_N + n_eff];
       for (var ml: u32 = 0u; ml < TM; ml = ml + 1u) {
-        let m_eff = min(m0 + ml, params.M - 1u);
-        acc[ml * TN + nl] = acc[ml * TN + nl] + t_input[m_eff * params.K + k] * dq;
+        acc[ml * TN + nl] = acc[ml * TN + nl] + in_reg[ml] * dq;
       }
     }
     k = k + 1u;
diff --git a/backends/webgpu/runtime/ops/sdpa/Sdpa.cpp b/backends/webgpu/runtime/ops/sdpa/Sdpa.cpp
@@ -26,13 +26,6 @@ namespace executorch::backends::webgpu {
 
 namespace {
 
-// Register-tile dims; MUST match TM/TN in the reg WGSL kernels.
-constexpr int64_t kSdpaTileM = 4;
-constexpr int64_t kSdpaTileN = 4;
-inline int64_t sdpa_ceil_div(int64_t a, int64_t b) {
-  return (a + b - 1) / b;
-}
-
 // Uniform param structs (all 16-byte aligned, matching the WGSL Params).
 struct UpdateCacheParams {
   uint32_t numel;
@@ -471,16 +464,14 @@ void sdpa_with_kv_cache_impl(WebGPUGraph& graph, const std::vector<int>& args) {
       dynamic_pos,
       "update_cache(V)");
 
-  // --- Dispatch 3: QK -> attn_weights. One thread per TM x TN tile.
+  // --- Dispatch 3: QK -> attn_weights. One thread per (h,s,c) element.
   {
     if (aw_floats > UINT32_MAX) {
       throw std::runtime_error(
           "WebGPU sdpa: Hq*S*context_len exceeds uint32 max");
     }
-    const int64_t qk_tiles = Hq * sdpa_ceil_div(S, kSdpaTileM) *
-        sdpa_ceil_div(context_len, kSdpaTileN);
     const uint32_t wgc = utils::compute_1d_workgroup_count(
-        device, static_cast<uint32_t>(qk_tiles), qk_wg, "QK");
+        device, static_cast<uint32_t>(aw_floats), qk_wg, "QK");
     AttnWeightsParams p = make_attn_weights_params(
         S, Hq, Hkv, D, context_len, input_pos, g, scale);
     WGPUBuffer ubuf = make_uniform_buffer(graph, &p, sizeof(p));
@@ -524,12 +515,12 @@ void sdpa_with_kv_cache_impl(WebGPUGraph& graph, const std::vector<int>& args) {
     softmax_buf = ubuf;
   }
 
-  // --- Dispatch 5: AV -> out. One thread per TM x TN tile.
+  // --- Dispatch 5: AV -> out. One thread per (s,h,d) output element.
   {
-    const int64_t av_tiles =
-        Hq * sdpa_ceil_div(S, kSdpaTileM) * sdpa_ceil_div(D, kSdpaTileN);
+    const uint64_t out_floats = static_cast<uint64_t>(S) *
+        static_cast<uint64_t>(Hq) * static_cast<uint64_t>(D);
     const uint32_t wgc = utils::compute_1d_workgroup_count(
-        device, static_cast<uint32_t>(av_tiles), av_wg, "AV");
+        device, static_cast<uint32_t>(out_floats), av_wg, "AV");
     ComputeOutParams p = make_compute_out_params(S, Hq, Hkv, D, context_len, g);
     WGPUBuffer ubuf = make_uniform_buffer(graph, &p, sizeof(p));
     BufferBinding bindings[3] = {
@@ -600,11 +591,9 @@ void sdpa_with_kv_cache_impl(WebGPUGraph& graph, const std::vector<int>& args) {
           AttnWeightsParams qp =
               make_attn_weights_params(S, Hq, Hkv, D, ctx, pos, g, scale);
           wgpuQueueWriteBuffer(gr.queue(), qk_buf, 0, &qp, sizeof(qp));
-          const int64_t qk_tiles = Hq * sdpa_ceil_div(S, kSdpaTileM) *
-              sdpa_ceil_div(ctx, kSdpaTileN);
           const uint32_t qk_wgc = utils::compute_1d_workgroup_count(
               gr.device(),
-              static_cast<uint32_t>(qk_tiles),
+              static_cast<uint32_t>(aw_floats),
               qk_wg,
               "QK(resize)");
           gr.dispatch_at(qk_idx).workgroup_count_x = qk_wgc;
diff --git a/backends/webgpu/runtime/ops/sdpa/sdpa_compute_attn_weights.wgsl b/backends/webgpu/runtime/ops/sdpa/sdpa_compute_attn_weights.wgsl
@@ -19,102 +19,37 @@ const NEG_INF: f32 = -1.0e30;
 
 override wg_size: u32 = 64;
 
-const TM: u32 = 4u;
-const TN: u32 = 4u;
-
-fn load_q_vec4(s: u32, h: u32, d4: u32) -> vec4<f32> {
-  var r = vec4<f32>(0.0, 0.0, 0.0, 0.0);
-  if (s >= params.S) {
-    return r;
-  }
-  let base = s * params.Hq * params.D + h * params.D;
-  if (d4 + 0u < params.D) { r.x = t_q[base + d4 + 0u]; }
-  if (d4 + 1u < params.D) { r.y = t_q[base + d4 + 1u]; }
-  if (d4 + 2u < params.D) { r.z = t_q[base + d4 + 2u]; }
-  if (d4 + 3u < params.D) { r.w = t_q[base + d4 + 3u]; }
-  return r;
-}
-
-fn load_k_vec4(c: u32, kvh: u32, d4: u32) -> vec4<f32> {
-  var r = vec4<f32>(0.0, 0.0, 0.0, 0.0);
-  if (c >= params.context_len) {
-    return r;
-  }
-  let base = c * params.Hkv * params.D + kvh * params.D;
-  if (d4 + 0u < params.D) { r.x = t_k_cache[base + d4 + 0u]; }
-  if (d4 + 1u < params.D) { r.y = t_k_cache[base + d4 + 1u]; }
-  if (d4 + 2u < params.D) { r.z = t_k_cache[base + d4 + 2u]; }
-  if (d4 + 3u < params.D) { r.w = t_k_cache[base + d4 + 3u]; }
-  return r;
-}
-
-fn store_qk(s: u32, c: u32, h: u32, raw: f32) {
-  if (s >= params.S || c >= params.context_len) {
-    return;
-  }
-  var val = raw * params.scale;
-  // Causal mask: position c may not attend beyond s + input_pos.
-  if (c > s + params.input_pos) {
-    val = NEG_INF;
-  }
-  let idx = h * params.S * params.context_len + s * params.context_len + c;
-  t_attn_weights[idx] = val;
-}
-
 @compute @workgroup_size(wg_size, 1, 1)
 fn main(@builtin(global_invocation_id) gid: vec3<u32>) {
-  let nrt = (params.S + TM - 1u) / TM;
-  let nct = (params.context_len + TN - 1u) / TN;
-  let tiles = nrt * nct;
-  let total = tiles * params.Hq;
-  if (gid.x >= total) {
+  let total = params.Hq * params.S * params.context_len;
+  let idx = gid.x;
+  if (idx >= total) {
     return;
   }
+  let c = idx % params.context_len;
+  let s = (idx / params.context_len) % params.S;
+  let h = idx / (params.context_len * params.S);
 
-  let h = gid.x / tiles;
-  let rem = gid.x % tiles;
-  let row_tile = rem / nct;
-  let col_tile = rem % nct;
   let kvh = h / params.g;
-  let s0 = row_tile * TM;
-  let c0 = col_tile * TN;
 
-  var acc: array<vec4<f32>, 4>;
-  acc[0] = vec4<f32>(0.0, 0.0, 0.0, 0.0);
-  acc[1] = vec4<f32>(0.0, 0.0, 0.0, 0.0);
-  acc[2] = vec4<f32>(0.0, 0.0, 0.0, 0.0);
-  acc[3] = vec4<f32>(0.0, 0.0, 0.0, 0.0);
+  let q_base = s * params.Hq * params.D + h * params.D;
+  let k_base = c * params.Hkv * params.D + kvh * params.D;
 
-  var d4: u32 = 0u;
+  var acc: f32 = 0.0;
+  var d: u32 = 0u;
   loop {
-    if (d4 >= params.D) {
+    if (d >= params.D) {
       break;
     }
-    let q0 = load_q_vec4(s0 + 0u, h, d4);
-    let q1 = load_q_vec4(s0 + 1u, h, d4);
-    let q2 = load_q_vec4(s0 + 2u, h, d4);
-    let q3 = load_q_vec4(s0 + 3u, h, d4);
-    let k0 = load_k_vec4(c0 + 0u, kvh, d4);
-    let k1 = load_k_vec4(c0 + 1u, kvh, d4);
-    let k2 = load_k_vec4(c0 + 2u, kvh, d4);
-    let k3 = load_k_vec4(c0 + 3u, kvh, d4);
-    acc[0] += vec4<f32>(dot(q0, k0), dot(q0, k1), dot(q0, k2), dot(q0, k3));
-    acc[1] += vec4<f32>(dot(q1, k0), dot(q1, k1), dot(q1, k2), dot(q1, k3));
-    acc[2] += vec4<f32>(dot(q2, k0), dot(q2, k1), dot(q2, k2), dot(q2, k3));
-    acc[3] += vec4<f32>(dot(q3, k0), dot(q3, k1), dot(q3, k2), dot(q3, k3));
-    d4 = d4 + 4u;
+    acc = acc + t_q[q_base + d] * t_k_cache[k_base + d];
+    d = d + 1u;
   }
+  acc = acc * params.scale;
 
-  var m: u32 = 0u;
-  loop {
-    if (m >= TM) {
-      break;
-    }
-    let av = acc[m];
-    store_qk(s0 + m, c0 + 0u, h, av.x);
-    store_qk(s0 + m, c0 + 1u, h, av.y);
-    store_qk(s0 + m, c0 + 2u, h, av.z);
-    store_qk(s0 + m, c0 + 3u, h, av.w);
-    m = m + 1u;
+  // Causal mask: position c may not attend beyond s + input_pos.
+  if (c > s + params.input_pos) {
+    acc = NEG_INF;
   }
+
+  t_attn_weights[idx] = acc;
 }
diff --git a/backends/webgpu/runtime/ops/sdpa/sdpa_compute_attn_weights_wgsl.h b/backends/webgpu/runtime/ops/sdpa/sdpa_compute_attn_weights_wgsl.h
diff --git a/backends/webgpu/runtime/ops/sdpa/sdpa_compute_out.wgsl b/backends/webgpu/runtime/ops/sdpa/sdpa_compute_out.wgsl
diff --git a/backends/webgpu/runtime/ops/sdpa/sdpa_compute_out_wgsl.h b/backends/webgpu/runtime/ops/sdpa/sdpa_compute_out_wgsl.h