hybrid-memory: CUDA emit kernel for slot-based spec rollback

am17an · claude · am17an · commit 6069ace0fae0 · 2026-04-26T01:34:18.000+08:00
Adds EMIT template flag to the GDN CUDA kernel: when set, writes
per-token state snapshots to dst+attn_score_elems+t*state_size_per_snap
matching the CPU emit layout. Skips the post-loop final-state write
in emit mode since snap[T-1] already holds it. Dispatcher reads
op_params[0] to pick the variant.

Tests:
- test-gdn-emit on CUDA: bit-exact match with non-emit final state.
- test-recurrent-rollback on CUDA: bit-exact rollback (max_abs_diff=0).
- llama-server -ngl 99 with spec MTP: coherent output, no spiral.

Perf (Qwen3.6-30B q8_0, GB10):
  baseline (no spec):     5.13 t/s
  spec K=1 (47% accept):  8.34 t/s   (1.62x)
  spec K=2 (14% accept):  7.00 t/s   (1.36x)
  spec K=3  (6% accept):  5.86 t/s   (1.14x)

Co-Authored-By: Claude Opus 4.7 (1M context) &lt;noreply@anthropic.com&gt;
diff --git a/ggml/src/ggml-cuda/gated_delta_net.cu b/ggml/src/ggml-cuda/gated_delta_net.cu
@@ -1,6 +1,6 @@
 #include "gated_delta_net.cuh"
 
-template <int S_v, bool KDA>
+template <int S_v, bool KDA, bool EMIT>
 __global__ void __launch_bounds__((ggml_cuda_get_physical_warp_size() < S_v ? ggml_cuda_get_physical_warp_size() : S_v) * 4, 2)
 gated_delta_net_cuda(const float * q,
                                      const float * k,
@@ -37,7 +37,8 @@ gated_delta_net_cuda(const float * q,
     float *       attn_data        = dst;
     float *       state            = dst + attn_score_elems;
 
-    const int64_t state_offset = (sequence * H + h_idx) * S_v * S_v;
+    const int64_t state_offset       = (sequence * H + h_idx) * S_v * S_v;
+    const int64_t state_size_per_snap = S_v * S_v * H * n_seqs; // EMIT only
     state += state_offset;
     curr_state += state_offset + col * S_v;
     attn_data += (sequence * n_tokens * H + h_idx) * S_v;
@@ -135,17 +136,30 @@ gated_delta_net_cuda(const float * q,
         }
 
         attn_data += S_v * H;
+
+        // EMIT: snapshot post-token-t state. Slot t holds state after token t;
+        // slot T-1 ends up holding the final state (matches CPU emit semantics).
+        if constexpr (EMIT) {
+            float * snap_t = (dst + attn_score_elems) + t * state_size_per_snap + state_offset;
+#pragma unroll
+            for (int r = 0; r < rows_per_lane; r++) {
+                const int i = r * warp_size + lane;
+                snap_t[col * S_v + i] = s_shard[r];
+            }
+        }
     }
 
-    // Write state back to global memory (transposed layout)
+    // Non-emit: write final state. (Emit mode already wrote it as snap T-1.)
+    if constexpr (!EMIT) {
 #pragma unroll
-    for (int r = 0; r < rows_per_lane; r++) {
-        const int i          = r * warp_size + lane;
-        state[col * S_v + i] = s_shard[r];
+        for (int r = 0; r < rows_per_lane; r++) {
+            const int i          = r * warp_size + lane;
+            state[col * S_v + i] = s_shard[r];
+        }
     }
 }
 
-template <bool KDA>
+template <bool KDA, bool EMIT>
 static void launch_gated_delta_net(
         const float * q_d, const float * k_d, const float * v_d,
         const float * g_d, const float * b_d, const float * s_d,
@@ -169,26 +183,26 @@ static void launch_gated_delta_net(
 
     switch (S_v) {
         case 16:
-            gated_delta_net_cuda<16, KDA><<<grid_dims, block_dims, 0, stream>>>(
+            gated_delta_net_cuda<16, KDA, EMIT><<<grid_dims, block_dims, 0, stream>>>(
                 q_d, k_d, v_d, g_d, b_d, s_d, dst_d, H,
                 n_tokens, n_seqs, sq1, sq2, sq3, sv1, sv2, sv3,
                 sb1, sb2, sb3, neqk1_magic, rq3_magic, scale);
             break;
         case 32:
-            gated_delta_net_cuda<32, KDA><<<grid_dims, block_dims, 0, stream>>>(
+            gated_delta_net_cuda<32, KDA, EMIT><<<grid_dims, block_dims, 0, stream>>>(
                 q_d, k_d, v_d, g_d, b_d, s_d, dst_d, H,
                 n_tokens, n_seqs, sq1, sq2, sq3, sv1, sv2, sv3,
                 sb1, sb2, sb3, neqk1_magic, rq3_magic, scale);
             break;
         case 64: {
-            gated_delta_net_cuda<64, KDA><<<grid_dims, block_dims, 0, stream>>>(
+            gated_delta_net_cuda<64, KDA, EMIT><<<grid_dims, block_dims, 0, stream>>>(
                 q_d, k_d, v_d, g_d, b_d, s_d, dst_d, H,
                 n_tokens, n_seqs, sq1, sq2, sq3, sv1, sv2, sv3,
                 sb1, sb2, sb3, neqk1_magic, rq3_magic, scale);
             break;
         }
         case 128: {
-            gated_delta_net_cuda<128, KDA><<<grid_dims, block_dims, 0, stream>>>(
+            gated_delta_net_cuda<128, KDA, EMIT><<<grid_dims, block_dims, 0, stream>>>(
                 q_d, k_d, v_d, g_d, b_d, s_d, dst_d, H,
                 n_tokens, n_seqs, sq1, sq2, sq3, sv1, sv2, sv3,
                 sb1, sb2, sb3, neqk1_magic, rq3_magic, scale);
@@ -261,13 +275,27 @@ void ggml_cuda_op_gated_delta_net(ggml_backend_cuda_context & ctx, ggml_tensor *
 
     cudaStream_t stream = ctx.stream();
 
+    const bool emit = (((const int32_t *) dst->op_params)[0] != 0);
+
     if (kda) {
-        launch_gated_delta_net<true>(q_d, k_d, v_d, g_d, b_d, s_d, dst_d,
-            S_v, H, n_tokens, n_seqs, sq1, sq2, sq3, sv1, sv2, sv3,
-            sb1, sb2, sb3, neqk1, rq3, scale, stream);
+        if (emit) {
+            launch_gated_delta_net<true, true>(q_d, k_d, v_d, g_d, b_d, s_d, dst_d,
+                S_v, H, n_tokens, n_seqs, sq1, sq2, sq3, sv1, sv2, sv3,
+                sb1, sb2, sb3, neqk1, rq3, scale, stream);
+        } else {
+            launch_gated_delta_net<true, false>(q_d, k_d, v_d, g_d, b_d, s_d, dst_d,
+                S_v, H, n_tokens, n_seqs, sq1, sq2, sq3, sv1, sv2, sv3,
+                sb1, sb2, sb3, neqk1, rq3, scale, stream);
+        }
     } else {
-        launch_gated_delta_net<false>(q_d, k_d, v_d, g_d, b_d, s_d, dst_d,
-            S_v, H, n_tokens, n_seqs, sq1, sq2, sq3, sv1, sv2, sv3,
-            sb1, sb2, sb3, neqk1, rq3, scale, stream);
+        if (emit) {
+            launch_gated_delta_net<false, true>(q_d, k_d, v_d, g_d, b_d, s_d, dst_d,
+                S_v, H, n_tokens, n_seqs, sq1, sq2, sq3, sv1, sv2, sv3,
+                sb1, sb2, sb3, neqk1, rq3, scale, stream);
+        } else {
+            launch_gated_delta_net<false, false>(q_d, k_d, v_d, g_d, b_d, s_d, dst_d,
+                S_v, H, n_tokens, n_seqs, sq1, sq2, sq3, sv1, sv2, sv3,
+                sb1, sb2, sb3, neqk1, rq3, scale, stream);
+        }
     }
 }
diff --git a/tests/test-gdn-emit.cpp b/tests/test-gdn-emit.cpp
@@ -24,6 +24,7 @@
 #include <cstdlib>
 #include <cstring>
 #include <random>
+#include <string>
 #include <vector>
 
 static void fill_random(ggml_tensor * t, std::mt19937 & rng) {
@@ -34,9 +35,8 @@ static void fill_random(ggml_tensor * t, std::mt19937 & rng) {
     ggml_backend_tensor_set(t, buf.data(), 0, n * sizeof(float));
 }
 
-int main() {
-    ggml_backend_t backend = ggml_backend_cpu_init();
-    if (!backend) { fprintf(stderr, "cpu backend init failed\n"); return 2; }
+static int run_test(ggml_backend_t backend, const char * label) {
+    fprintf(stderr, "==== backend: %s ====\n", label);
 
     // problem dims
     const int64_t H        = 4;     // heads
@@ -113,13 +113,37 @@ int main() {
     }
     fprintf(stderr, "emit[T-1] vs non-emit final  max_abs_diff = %g\n", state_mad);
 
-    const double tol = 1e-6;  // CPU fp32, same kernel path, must be exact
+    const double tol = 1e-5;  // same kernel path on each backend, but CUDA may have minor reorder
     int rc = (attn_mad <= tol && state_mad <= tol) ? 0 : 1;
-    fprintf(stderr, "%s\n", rc == 0 ? "PASS" : "FAIL");
+    fprintf(stderr, "[%s] %s\n", label, rc == 0 ? "PASS" : "FAIL");
 
     ggml_gallocr_free(galloc);
     ggml_backend_buffer_free(buf);
     ggml_free(ctx);
-    ggml_backend_free(backend);
+    return rc;
+}
+
+int main(int argc, char ** argv) {
+    bool want_cuda = (argc > 1 && std::string(argv[1]) == "cuda");
+
+    int rc = 0;
+
+    {
+        ggml_backend_t cpu = ggml_backend_cpu_init();
+        if (!cpu) { fprintf(stderr, "cpu backend init failed\n"); return 2; }
+        rc |= run_test(cpu, "cpu");
+        ggml_backend_free(cpu);
+    }
+
+    if (want_cuda) {
+        ggml_backend_reg_t reg = ggml_backend_reg_by_name("CUDA");
+        if (!reg) { fprintf(stderr, "CUDA backend not registered\n"); return 2; }
+        ggml_backend_dev_t dev = ggml_backend_reg_dev_get(reg, 0);
+        ggml_backend_t cuda = ggml_backend_dev_init(dev, nullptr);
+        if (!cuda) { fprintf(stderr, "cuda backend init failed\n"); return 2; }
+        rc |= run_test(cuda, "cuda");
+        ggml_backend_free(cuda);
+    }
+
     return rc;
 }
diff --git a/tests/test-recurrent-rollback.cpp b/tests/test-recurrent-rollback.cpp
@@ -123,10 +123,10 @@ int main(int argc, char ** argv) {
     llama_backend_init();
 
     llama_model_params mparams = llama_model_default_params();
-    // Phase 2 emit kernel is CPU-only this iteration; force CPU offload so
-    // the GDN op picks up the emit flag in op_params instead of falling
-    // through to a CUDA path that ignores it.
-    mparams.n_gpu_layers = 0;
+    // n_gpu_layers controlled via NGL env (default 0 = CPU). Set NGL=99 to
+    // exercise the CUDA emit kernel and slot-aware s_copy on GPU.
+    const char * ngl_env = std::getenv("NGL");
+    mparams.n_gpu_layers = ngl_env ? atoi(ngl_env) : 0;
     llama_model * model = llama_model_load_from_file(model_path, mparams);
     if (!model) { fprintf(stderr, "load failed\n"); return 2; }