[ExecuTorch][WebGPU] Per-pass compute dispatch ordering for fused multi-dispatch ops

JulianCloudNTH · JulianCloudNTH · commit 6fa26d434962 · 2026-06-09T10:44:20.000-07:00
Pull Request resolved: pytorch#20072 WebGPU has no write->read ordering between dispatches in a single compute pass, so a fused multi-dispatch op (SDPA) can read stale writes. Record one compute pass per dispatch in `execute()` (both the full and ranged paths) -- the pass boundary is WebGPU's implicit barrier (there is no `vkCmdPipelineBarrier`). Single-dispatch ops are unchanged. Also flips this file to the C++17 nested namespace. Consumed by the fused SDPA op above. ghstack-source-id: 391378799 @exported-using-ghexport Differential Revision: [D107543258](https://our.internmc.facebook.com/intern/diff/D107543258/)
diff --git a/backends/webgpu/runtime/WebGPUGraph.cpp b/backends/webgpu/runtime/WebGPUGraph.cpp
@@ -18,9 +18,7 @@
 #include <cstring>
 #include <stdexcept>
 
-namespace executorch {
-namespace backends {
-namespace webgpu {
+namespace executorch::backends::webgpu {
 
 // vkgraph namespace is declared at global scope in the generated FlatBuffer
 // header
@@ -380,21 +378,20 @@ void WebGPUGraph::execute() {
     WGPUCommandEncoder encoder =
         wgpuDeviceCreateCommandEncoder(device_, &enc_desc);
 
-    WGPUComputePassDescriptor pass_desc = {};
-    WGPUComputePassEncoder pass =
-        wgpuCommandEncoderBeginComputePass(encoder, &pass_desc);
-
+    // One pass per dispatch: enforces storage RAW ordering across deps.
     for (const auto& dispatch : dispatches_) {
+      WGPUComputePassDescriptor pass_desc = {};
+      WGPUComputePassEncoder pass =
+          wgpuCommandEncoderBeginComputePass(encoder, &pass_desc);
       wgpuComputePassEncoderSetPipeline(pass, dispatch.pipeline);
       wgpuComputePassEncoderSetBindGroup(
           pass, 0, dispatch.bind_group, 0, nullptr);
       wgpuComputePassEncoderDispatchWorkgroups(
           pass, dispatch.workgroup_count_x, 1, 1);
+      wgpuComputePassEncoderEnd(pass);
+      wgpuComputePassEncoderRelease(pass);
     }
 
-    wgpuComputePassEncoderEnd(pass);
-    wgpuComputePassEncoderRelease(pass);
-
     for (const auto& copy : output_copies_) {
       wgpuCommandEncoderCopyBufferToBuffer(
           encoder, copy.src_buffer, 0, copy.staging_buffer, 0, copy.nbytes);
@@ -423,21 +420,19 @@ void WebGPUGraph::execute() {
     WGPUCommandEncoder encoder =
         wgpuDeviceCreateCommandEncoder(device_, &enc_desc);
 
-    WGPUComputePassDescriptor pass_desc = {};
-    WGPUComputePassEncoder pass =
-        wgpuCommandEncoderBeginComputePass(encoder, &pass_desc);
-
     for (size_t i = start; i < end; i++) {
+      WGPUComputePassDescriptor pass_desc = {};
+      WGPUComputePassEncoder pass =
+          wgpuCommandEncoderBeginComputePass(encoder, &pass_desc);
       wgpuComputePassEncoderSetPipeline(pass, dispatches_[i].pipeline);
       wgpuComputePassEncoderSetBindGroup(
           pass, 0, dispatches_[i].bind_group, 0, nullptr);
       wgpuComputePassEncoderDispatchWorkgroups(
           pass, dispatches_[i].workgroup_count_x, 1, 1);
+      wgpuComputePassEncoderEnd(pass);
+      wgpuComputePassEncoderRelease(pass);
     }
 
-    wgpuComputePassEncoderEnd(pass);
-    wgpuComputePassEncoderRelease(pass);
-
     if (end == n) {
       for (const auto& copy : output_copies_) {
         wgpuCommandEncoderCopyBufferToBuffer(
@@ -545,6 +540,4 @@ WebGPUMemoryStats WebGPUGraph::memory_stats() const {
   return stats;
 }
 
-} // namespace webgpu
-} // namespace backends
-} // namespace executorch
+} // namespace executorch::backends::webgpu
diff --git a/backends/webgpu/runtime/WebGPUGraph.h b/backends/webgpu/runtime/WebGPUGraph.h
@@ -17,9 +17,7 @@
 
 #include <executorch/runtime/core/named_data_map.h>
 
-namespace executorch {
-namespace backends {
-namespace webgpu {
+namespace executorch::backends::webgpu {
 
 struct WebGPUTensor {
   WGPUBuffer buffer = nullptr;
@@ -193,6 +191,4 @@ class WebGPUGraph {
   size_t uniform_buffer_bytes_ = 0;
 };
 
-} // namespace webgpu
-} // namespace backends
-} // namespace executorch
+} // namespace executorch::backends::webgpu