opencl: WIP GGML_OP_GATED_DELTA_NET — autoregressive (n_tokens==1) only

wanghqc · wanghqc · commit aeb2964be2bd · 2026-05-30T19:51:56.000-07:00
For Qwen3-Next / Qwen3.6-35B-A3B / kimi-linear etc, llama.cpp builds the
DeltaNet recurrence either as a fused ggml_gated_delta_net op (when the
backend supports it) or as a sequence of primitive ggml ops (chunked or
recurrent). ggml-opencl had no GATED_DELTA_NET support, so even at
decode (n_tokens==1) it used build_delta_net_chunking with chunk_size=64
and n_tokens=1 — the "soup" of ~260 tiny generic-elementwise dispatches
per token that dominated ~30% of decode GPU time in the cl_profiling
trace.

This commit adds the autoregressive (n_tokens==1) path:

- kernels/gated_delta_net.cl: stream-from-global kernel; one thread per
  (column j, head h, seq s). Thread owns column j of the per-head state
  matrix (transposed: s_out[j*S_v + i] = S[i][j]). Reads input state +
  k/q/g/v/beta from global, writes decayed/updated state back to global,
  writes attn_out[j]. Math directly mirrors
  ggml_compute_forward_gated_delta_net_one_chunk for n_tokens==1.

- ggml_backend_opencl_device_supports_op: only true for n_tokens==1, so
  prefill keeps the chunked-primitive path (cparams.fused_gdn_ch
  auto-disables on the chunked-graph reservation; fused_gdn_ar stays on).

- ggml_cl_gated_delta_net: 6-input dispatch (q,k,v,g,beta,state) reading
  v/g/state from dst-&gt;src[2..5], following the FLASH_ATTN_EXT pattern.

- supports_op + op routing + kernel compile + CMake registration done.

Confirmed:
  sched_reserve: resolving fused Gated Delta Net support:
  sched_reserve: fused Gated Delta Net (autoregressive) enabled
  sched_reserve: fused Gated Delta Net (chunked) not supported, set to disabled

**Status: BLOCKED on end-to-end validation.** With this kernel enabled
the model now hits a pre-existing -54 (CL_INVALID_WORK_GROUP_SIZE) in
kernel_moe_histogram for Qwen3.6-35B-A3B's n_experts=256 routing:
  histogram_local_size[] = {64, ne20, 1}  where ne20 == n_experts (256)
  -&gt; total local size = 16384 &gt; device max 1024
This bug doesn't fire pre-change because the original CPU GDN fallback
puts post-attention ops on different graph splits; on-device GDN keeps
the MoE block on OpenCL and exposes the bad dispatch (ggml-opencl.cpp
near line 14684 -- size_t histogram_local_size[] = {64, ne20, 1}).

Next session: fix the histogram dispatch (split work along the experts
dim so total local size stays &lt;= 1024) then run test-backend-ops -o
GATED_DELTA_NET and the Qwen3.6-35B decode bench A/B.
diff --git a/ggml/src/ggml-opencl/CMakeLists.txt b/ggml/src/ggml-opencl/CMakeLists.txt
@@ -168,6 +168,7 @@ set(GGML_OPENCL_KERNELS
     sqr
     sqrt
     ssm_conv
+    gated_delta_net
     sub
     sum_rows
     cumsum
diff --git a/ggml/src/ggml-opencl/ggml-opencl.cpp b/ggml/src/ggml-opencl/ggml-opencl.cpp
@@ -768,6 +768,7 @@ struct ggml_backend_opencl_context {
     cl_kernel kernel_conv_2d_f32;
     cl_kernel kernel_conv_2d_f16_f32;
     cl_kernel kernel_ssm_conv_f32_f32, kernel_ssm_conv_f32_f32_4;
+    cl_kernel kernel_gated_delta_net_f32;
     cl_kernel kernel_timestep_embedding;
     cl_kernel kernel_gemv_moe_q4_0_f32_ns, kernel_gemm_moe_q4_0_f32_ns;
     cl_kernel kernel_gemv_moe_q4_1_f32_ns, kernel_gemm_moe_q4_1_f32_ns;
@@ -2735,6 +2736,23 @@ static void load_cl_kernels(ggml_backend_opencl_context *backend_ctx) {
         GGML_LOG_CONT(".");
     }
 
+    // gated_delta_net
+    {
+#ifdef GGML_OPENCL_EMBED_KERNELS
+        const std::string kernel_src {
+            #include "gated_delta_net.cl.h"
+        };
+#else
+        const std::string kernel_src = read_file("gated_delta_net.cl");
+#endif
+        cl_program prog =
+            build_program_from_source(backend_ctx, kernel_src.c_str(), compile_opts);
+
+        CL_CHECK((backend_ctx->kernel_gated_delta_net_f32 = clCreateKernel(prog, "kernel_gated_delta_net_f32", &err), err));
+        CL_CHECK(clReleaseProgram(prog));
+        GGML_LOG_CONT(".");
+    }
+
     // mul_mv_id_q4_0_f32_8x_flat
     {
 #ifdef GGML_OPENCL_EMBED_KERNELS
@@ -5888,6 +5906,16 @@ static bool ggml_opencl_supports_op(ggml_backend_dev_t dev, const struct ggml_te
                    (op->src[0]->type == GGML_TYPE_F16 && op->src[1]->type == GGML_TYPE_F32 && op->type == GGML_TYPE_F32);
         case GGML_OP_SSM_CONV:
             return (op->src[0]->type == GGML_TYPE_F32 && op->src[1]->type == GGML_TYPE_F32 && op->type == GGML_TYPE_F32);
+        case GGML_OP_GATED_DELTA_NET: {
+            // f32 only; autoregressive (n_tokens == 1) only — prefill keeps the
+            // chunked path. (cparams.fused_gdn_ch then auto-disables on the
+            // chunked-graph reservation; fused_gdn_ar stays enabled.)
+            const ggml_tensor * v = op->src[2];
+            for (int i = 0; i < 6; ++i) {
+                if (op->src[i]->type != GGML_TYPE_F32) return false;
+            }
+            return op->type == GGML_TYPE_F32 && v->ne[2] == 1 && v->ne[0] >= 1;
+        }
         case GGML_OP_CONCAT:
             return op->src[0]->type == GGML_TYPE_F32 && op->src[1]->type == GGML_TYPE_F32 && op->type == GGML_TYPE_F32;
         case GGML_OP_TIMESTEP_EMBEDDING:
@@ -10438,6 +10466,86 @@ static void ggml_cl_ssm_conv(ggml_backend_t backend, const ggml_tensor * src0, c
     backend_ctx->enqueue_ndrange_kernel(kernel, 3, global_work_size, local_work_size_ptr, dst);
 }
 
+static void ggml_cl_gated_delta_net(ggml_backend_t backend, const ggml_tensor * q, const ggml_tensor * k, ggml_tensor * dst) {
+    const ggml_tensor * v     = dst->src[2];
+    const ggml_tensor * g     = dst->src[3];
+    const ggml_tensor * beta  = dst->src[4];
+    const ggml_tensor * state = dst->src[5];
+
+    GGML_ASSERT(q && k && v && g && beta && state && dst);
+    GGML_ASSERT(q->extra && k->extra && v->extra && g->extra && beta->extra && state->extra && dst->extra);
+    GGML_ASSERT(v->ne[2] == 1); // autoregressive only (see ggml_backend_opencl_device_supports_op)
+
+    ggml_backend_opencl_context * backend_ctx = (ggml_backend_opencl_context *)backend->context;
+
+    ggml_tensor_extra_cl * eq = (ggml_tensor_extra_cl *)q->extra;
+    ggml_tensor_extra_cl * ek = (ggml_tensor_extra_cl *)k->extra;
+    ggml_tensor_extra_cl * ev = (ggml_tensor_extra_cl *)v->extra;
+    ggml_tensor_extra_cl * eg = (ggml_tensor_extra_cl *)g->extra;
+    ggml_tensor_extra_cl * eb = (ggml_tensor_extra_cl *)beta->extra;
+    ggml_tensor_extra_cl * es = (ggml_tensor_extra_cl *)state->extra;
+    ggml_tensor_extra_cl * ed = (ggml_tensor_extra_cl *)dst->extra;
+
+    cl_ulong q_off = eq->offset + q->view_offs;
+    cl_ulong k_off = ek->offset + k->view_offs;
+    cl_ulong v_off = ev->offset + v->view_offs;
+    cl_ulong g_off = eg->offset + g->view_offs;
+    cl_ulong b_off = eb->offset + beta->view_offs;
+    cl_ulong s_off = es->offset + state->view_offs;
+    cl_ulong d_off = ed->offset + dst->view_offs;
+
+    const int s_v    = (int)v->ne[0];
+    const int H      = (int)v->ne[1];
+    const int n_seqs = (int)v->ne[3];
+    const int neq1   = (int)q->ne[1];
+    const int nek1   = (int)k->ne[1];
+    const int neq3   = (int)q->ne[3];
+    const int nek3   = (int)k->ne[3];
+    const int neg0   = (int)g->ne[0];
+    const int kda    = (neg0 == s_v) ? 1 : 0;
+
+    cl_ulong nbq1 = q->nb[1], nbq3 = q->nb[3];
+    cl_ulong nbk1 = k->nb[1], nbk3 = k->nb[3];
+    cl_ulong nbv1 = v->nb[1], nbv3 = v->nb[3];
+
+    cl_kernel kernel = backend_ctx->kernel_gated_delta_net_f32;
+
+    int i = 0;
+    CL_CHECK(clSetKernelArg(kernel, i++, sizeof(cl_mem),   &eq->data_device));
+    CL_CHECK(clSetKernelArg(kernel, i++, sizeof(cl_ulong), &q_off));
+    CL_CHECK(clSetKernelArg(kernel, i++, sizeof(cl_mem),   &ek->data_device));
+    CL_CHECK(clSetKernelArg(kernel, i++, sizeof(cl_ulong), &k_off));
+    CL_CHECK(clSetKernelArg(kernel, i++, sizeof(cl_mem),   &ev->data_device));
+    CL_CHECK(clSetKernelArg(kernel, i++, sizeof(cl_ulong), &v_off));
+    CL_CHECK(clSetKernelArg(kernel, i++, sizeof(cl_mem),   &eg->data_device));
+    CL_CHECK(clSetKernelArg(kernel, i++, sizeof(cl_ulong), &g_off));
+    CL_CHECK(clSetKernelArg(kernel, i++, sizeof(cl_mem),   &eb->data_device));
+    CL_CHECK(clSetKernelArg(kernel, i++, sizeof(cl_ulong), &b_off));
+    CL_CHECK(clSetKernelArg(kernel, i++, sizeof(cl_mem),   &es->data_device));
+    CL_CHECK(clSetKernelArg(kernel, i++, sizeof(cl_ulong), &s_off));
+    CL_CHECK(clSetKernelArg(kernel, i++, sizeof(cl_mem),   &ed->data_device));
+    CL_CHECK(clSetKernelArg(kernel, i++, sizeof(cl_ulong), &d_off));
+    CL_CHECK(clSetKernelArg(kernel, i++, sizeof(cl_ulong), &nbq1));
+    CL_CHECK(clSetKernelArg(kernel, i++, sizeof(cl_ulong), &nbq3));
+    CL_CHECK(clSetKernelArg(kernel, i++, sizeof(cl_ulong), &nbk1));
+    CL_CHECK(clSetKernelArg(kernel, i++, sizeof(cl_ulong), &nbk3));
+    CL_CHECK(clSetKernelArg(kernel, i++, sizeof(cl_ulong), &nbv1));
+    CL_CHECK(clSetKernelArg(kernel, i++, sizeof(cl_ulong), &nbv3));
+    CL_CHECK(clSetKernelArg(kernel, i++, sizeof(int),      &s_v));
+    CL_CHECK(clSetKernelArg(kernel, i++, sizeof(int),      &neq1));
+    CL_CHECK(clSetKernelArg(kernel, i++, sizeof(int),      &nek1));
+    CL_CHECK(clSetKernelArg(kernel, i++, sizeof(int),      &neq3));
+    CL_CHECK(clSetKernelArg(kernel, i++, sizeof(int),      &nek3));
+    CL_CHECK(clSetKernelArg(kernel, i++, sizeof(int),      &H));
+    CL_CHECK(clSetKernelArg(kernel, i++, sizeof(int),      &n_seqs));
+    CL_CHECK(clSetKernelArg(kernel, i++, sizeof(int),      &kda));
+    CL_CHECK(clSetKernelArg(kernel, i++, sizeof(int),      &neg0));
+
+    // one thread per (column j, head, seq); driver picks the workgroup size
+    size_t global_work_size[] = { (size_t)s_v * H * n_seqs, 1, 1 };
+    backend_ctx->enqueue_ndrange_kernel(kernel, 1, global_work_size, NULL, dst);
+}
+
 static void ggml_cl_gelu(ggml_backend_t backend, const ggml_tensor * src0, const ggml_tensor * src1, ggml_tensor * dst) {
     GGML_ASSERT(src0);
     GGML_ASSERT(src0->extra);
@@ -20334,6 +20442,12 @@ bool ggml_cl_compute_forward(ggml_backend_t backend, struct ggml_tensor * tensor
             }
             func = ggml_cl_ssm_conv;
             break;
+        case GGML_OP_GATED_DELTA_NET:
+            if (!any_on_device) {
+                return false;
+            }
+            ggml_cl_gated_delta_net(backend, tensor->src[0], tensor->src[1], tensor);
+            return true;
         case GGML_OP_CONCAT:
             if (!any_on_device) {
                 return false;
diff --git a/ggml/src/ggml-opencl/kernels/gated_delta_net.cl b/ggml/src/ggml-opencl/kernels/gated_delta_net.cl
@@ -0,0 +1,105 @@
+// Gated DeltaNet (Qwen3-Next / KDA linear attention) fused op — autoregressive
+// (n_tokens == 1) case only. Reference: ggml/src/ggml-cpu/ops.cpp
+// ggml_compute_forward_gated_delta_net_f32, ggml/src/ggml-cuda/gated_delta_net.cu.
+//
+// One thread per (column j, head h, sequence s). Thread owns column j of the
+// per-head state matrix S, stored transposed in the output buffer's state
+// region as state_out[(h_seq)*S_v*S_v + j*S_v + i] = S[i][j] — i.e. the
+// contiguous run state_out[j*S_v .. j*S_v+S_v-1]. The state is read/written
+// directly in global memory (this op is memory-bound; no benefit from caching
+// the full column in private, which overflows the Adreno register file).
+//
+// Single step (n_tokens == 1):
+//   copy:    S_out[i][j] = S_in[i][j]
+//   decay:   S_out[i][j] *= exp(g[i])  (kda)  or  S_out *= exp(g[0])  (scalar)
+//   kv[j]  = sum_i S_out[i][j] * k[i]
+//   delta[j] = (v[j] - kv[j]) * beta
+//   S_out[i][j] += k[i] * delta[j]
+//   out[j] = (sum_i S_out[i][j] * q[i]) * scale
+
+kernel void kernel_gated_delta_net_f32(
+    global char * q_base,    ulong q_off,
+    global char * k_base,    ulong k_off,
+    global char * v_base,    ulong v_off,
+    global char * g_base,    ulong g_off,
+    global char * b_base,    ulong b_off,
+    global char * s_base,    ulong s_off,
+    global char * dst_base,  ulong dst_off,
+    // q/k/v strides in bytes ("contiguous rows": nb?0 == sizeof(float)).
+    // nb?1 = head stride, nb?3 = seq stride (nb?2 = token stride, unused: n_tokens == 1)
+    ulong nbq1, ulong nbq3,
+    ulong nbk1, ulong nbk3,
+    ulong nbv1, ulong nbv3,
+    int s_v,                   // S_v = state dim
+    int neq1, int nek1,        // q/k head counts (<= H)
+    int neq3, int nek3,        // q/k seq counts  (<= n_seqs)
+    int H,                     // = src_v->ne[1]   (== n_heads_v)
+    int n_seqs,
+    int kda,                   // 1 if g per-element ([S_v,...]), 0 if scalar ([1,...])
+    int neg0                   // g->ne[0]  (== S_v if kda else 1)
+) {
+    const int gid = get_global_id(0);       // flattened (column j, head, seq)
+    if (gid >= s_v * H * n_seqs) return;
+    const int j   = gid % s_v;              // column owned by this thread
+    const int hs  = gid / s_v;              // flattened (head, seq)
+    const int iv1 = hs % H;                 // head index   (0..H-1)
+    const int iv3 = hs / H;                 // sequence     (0..n_seqs-1)
+
+    const int rq3 = n_seqs / neq3;
+    const int rk3 = n_seqs / nek3;
+    const int iq1 = iv1 % neq1;
+    const int ik1 = iv1 % nek1;
+    const int iq3 = iv3 / rq3;
+    const int ik3 = iv3 / rk3;
+
+    const float scale = 1.0f / sqrt((float) s_v);
+
+    q_base   += q_off;
+    k_base   += k_off;
+    v_base   += v_off;
+    g_base   += g_off;
+    b_base   += b_off;
+    s_base   += s_off;
+    dst_base += dst_off;
+
+    // output: [ attn (S_v*H*1*n_seqs) | new_states (S_v*S_v*H*n_seqs) ]
+    const ulong attn_elems = (ulong)s_v * H * n_seqs;   // n_tokens == 1
+    global float * attn_out  = (global float *)dst_base;
+    global float * state_out = (global float *)dst_base + attn_elems;
+
+    // input/output state column j (contiguous run [j*s_v ..]) for this (head,seq)
+    global const float * s_in  = (global const float *)s_base + ((ulong)iv3 * H + iv1) * s_v * s_v + (ulong)j * s_v;
+    global       float * s_out = state_out                    + ((ulong)iv3 * H + iv1) * s_v * s_v + (ulong)j * s_v;
+
+    global const float * q_d = (global const float *)(q_base + (ulong)iq3*nbq3 + (ulong)iq1*nbq1);  // t == 0
+    global const float * k_d = (global const float *)(k_base + (ulong)ik3*nbk3 + (ulong)ik1*nbk1);
+    global const float * v_d = (global const float *)(v_base + (ulong)iv3*nbv3 + (ulong)iv1*nbv1);
+    const ulong hb = ((ulong)iv3*H + iv1);                              // t == 0
+    const float beta = ((global const float *)b_base)[hb];
+    global const float * g_d = (global const float *)g_base + hb * (ulong)neg0;
+
+    // copy + decay
+    if (kda) {
+        for (int i = 0; i < s_v; ++i) s_out[i] = s_in[i] * exp(g_d[i]);
+    } else {
+        const float gd = exp(g_d[0]);
+        for (int i = 0; i < s_v; ++i) s_out[i] = s_in[i] * gd;
+    }
+
+    // kv[j] = sum_i S[i][j] * k[i]
+    float kv = 0.0f;
+    for (int i = 0; i < s_v; ++i) kv = mad(s_out[i], k_d[i], kv);
+
+    const float delta = (v_d[j] - kv) * beta;
+
+    // outer product + output: S[i][j] += k[i]*delta ; out[j] = sum_i S[i][j]*q[i]
+    float o = 0.0f;
+    for (int i = 0; i < s_v; ++i) {
+        const float sij = mad(k_d[i], delta, s_out[i]);
+        s_out[i] = sij;
+        o = mad(sij, q_d[i], o);
+    }
+
+    // attn layout: [S_v, H, 1, n_seqs]
+    attn_out[((ulong)iv3*H + iv1) * s_v + j] = o * scale;
+}