remove redundant V cache

am17an · am17an · commit 9e00db671b4b · 2026-06-05T14:33:16.000+08:00
diff --git a/conversion/deepseek.py b/conversion/deepseek.py
@@ -516,7 +516,7 @@ def _e8m0_to_float(scale: Tensor) -> Tensor:
             return scale.float()
 
         bits = scale.view(torch.uint8).float()
-        return torch.pow(torch.tensor(2.0, device=bits.device), bits - 127.0)
+        return torch.exp2(bits - 127.0)
 
     def _collect_source_dtypes(self) -> None:
         for name, gen in self.model_tensors.items():
diff --git a/src/llama-graph.cpp b/src/llama-graph.cpp
@@ -566,15 +566,19 @@ void llm_graph_input_attn_kv_iswa::set_input(const llama_ubatch * ubatch) {
     // base tensors may not be allocated if there are no non-SWA attention layers
     if (self_k_idxs && self_k_idxs->buffer) {
         mctx->get_base()->set_input_k_idxs(self_k_idxs, ubatch);
-        mctx->get_base()->set_input_v_idxs(self_v_idxs, ubatch);
+        if (self_v_idxs) {
+            mctx->get_base()->set_input_v_idxs(self_v_idxs, ubatch);
+        }
 
         mctx->get_base()->set_input_kq_mask(self_kq_mask, ubatch, cparams.causal_attn);
     }
 
     // swa tensors may not be allocated if there are no SWA attention layers
     if (self_k_idxs_swa && self_k_idxs_swa->buffer) {
         mctx->get_swa()->set_input_k_idxs(self_k_idxs_swa, ubatch);
-        mctx->get_swa()->set_input_v_idxs(self_v_idxs_swa, ubatch);
+        if (self_v_idxs_swa) {
+            mctx->get_swa()->set_input_v_idxs(self_v_idxs_swa, ubatch);
+        }
 
         mctx->get_swa()->set_input_kq_mask(self_kq_mask_swa, ubatch, cparams.causal_attn);
     }
@@ -2947,8 +2951,6 @@ llm_graph_input_dsv4 * llm_graph_context::build_inp_dsv4() const {
 
     {
         inp_raw->self_k_idxs = raw_ctx->get_base()->build_input_k_idxs(ctx0, ubatch);
-        inp_raw->self_v_idxs = raw_ctx->get_base()->build_input_v_idxs(ctx0, ubatch);
-
         inp_raw->self_kq_mask = build_attn_inp_kq_mask(ctx0, raw_ctx->get_base(), ubatch, cparams);
         inp_raw->self_kq_mask_cnv = inp_raw->self_kq_mask;
     }
@@ -2957,18 +2959,12 @@ llm_graph_input_dsv4 * llm_graph_context::build_inp_dsv4() const {
         GGML_ASSERT(hparams.swa_type != LLAMA_SWA_TYPE_NONE && "DSV4 expects SWA raw cache");
 
         inp_raw->self_k_idxs_swa = raw_ctx->get_swa()->build_input_k_idxs(ctx0, ubatch);
-        inp_raw->self_v_idxs_swa = raw_ctx->get_swa()->build_input_v_idxs(ctx0, ubatch);
-
         inp_raw->self_kq_mask_swa = build_attn_inp_kq_mask(ctx0, raw_ctx->get_swa(), ubatch, cparams);
         inp_raw->self_kq_mask_swa_cnv = inp_raw->self_kq_mask_swa;
     }
 
     inp_raw->self_k_rot = raw_ctx->get_base()->build_input_k_rot(ctx0);
-    inp_raw->self_v_rot = raw_ctx->get_base()->build_input_v_rot(ctx0);
-
     inp_raw->self_k_rot_swa = raw_ctx->get_swa()->build_input_k_rot(ctx0);
-    inp_raw->self_v_rot_swa = raw_ctx->get_swa()->build_input_v_rot(ctx0);
-
     auto inp = std::make_unique<llm_graph_input_dsv4>(cparams, std::move(inp_raw), mctx_cur);
 
     dsv4_build_comp_inputs(ctx0, inp->inp_csa, mctx_cur->get_csa_plan(), "csa");
diff --git a/src/llama-kv-cache-dsv4.cpp b/src/llama-kv-cache-dsv4.cpp
@@ -632,6 +632,7 @@ llama_kv_cache_dsv4::llama_kv_cache_dsv4(
                  uint32_t   n_pad,
     const layer_filter_cb & filter,
     const  layer_reuse_cb & reuse) :
+    hparams_raw(model.hparams),
     hparams_csa(model.hparams),
     hparams_hca(model.hparams),
     hparams_lid(model.hparams) {
@@ -646,8 +647,10 @@ llama_kv_cache_dsv4::llama_kv_cache_dsv4(
 
     LLAMA_LOG_INFO("%s: creating DSV4 raw KV cache\n", __func__);
 
+    dsv4_make_k_only(hparams_raw);
+
     kv_raw = std::make_unique<llama_kv_cache_iswa>(
-            model, type_k, type_v,
+            model, hparams_raw, type_k, type_v,
             v_trans, offload, swa_full, unified, kv_size, n_seq_max, n_ubatch, n_pad,
             filter_raw, reuse);
 
diff --git a/src/llama-kv-cache-dsv4.h b/src/llama-kv-cache-dsv4.h
@@ -131,6 +131,7 @@ class llama_kv_cache_dsv4 : public llama_memory_i {
     llama_dsv4_comp_state * get_lid_state() const;
 
 private:
+    llama_hparams hparams_raw;
     llama_hparams hparams_csa;
     llama_hparams hparams_hca;
     llama_hparams hparams_lid;
diff --git a/src/llama-kv-cache-iswa.cpp b/src/llama-kv-cache-iswa.cpp
@@ -24,7 +24,26 @@ llama_kv_cache_iswa::llama_kv_cache_iswa(
                  uint32_t   n_ubatch,
                  uint32_t   n_pad,
     const layer_filter_cb & filter,
-    const  layer_reuse_cb & reuse) : hparams(model.hparams), unified(unified) {
+    const  layer_reuse_cb & reuse) :
+    llama_kv_cache_iswa(model, model.hparams, type_k, type_v, v_trans, offload, swa_full, unified,
+            kv_size, n_seq_max, n_ubatch, n_pad, filter, reuse) {
+}
+
+llama_kv_cache_iswa::llama_kv_cache_iswa(
+        const llama_model & model,
+        const llama_hparams & hparams,
+                ggml_type   type_k,
+                ggml_type   type_v,
+                     bool   v_trans,
+                     bool   offload,
+                     bool   swa_full,
+                     bool   unified,
+                 uint32_t   kv_size,
+                 uint32_t   n_seq_max,
+                 uint32_t   n_ubatch,
+                 uint32_t   n_pad,
+    const layer_filter_cb & filter,
+    const  layer_reuse_cb & reuse) : hparams(hparams), unified(unified) {
 
     // chain filters
     const layer_filter_cb filter_base = [&](int32_t il) {
diff --git a/src/llama-kv-cache-iswa.h b/src/llama-kv-cache-iswa.h
@@ -28,6 +28,22 @@ class llama_kv_cache_iswa : public llama_memory_i {
         const layer_filter_cb & filter,
         const  layer_reuse_cb & reuse);
 
+    llama_kv_cache_iswa(
+            const llama_model & model,
+            const llama_hparams & hparams,
+                    ggml_type   type_k,
+                    ggml_type   type_v,
+                         bool   v_trans,
+                         bool   offload,
+                         bool   swa_full,
+                         bool   unified,
+                     uint32_t   kv_size,
+                     uint32_t   n_seq_max,
+                     uint32_t   n_ubatch,
+                     uint32_t   n_pad,
+        const layer_filter_cb & filter,
+        const  layer_reuse_cb & reuse);
+
     ~llama_kv_cache_iswa() = default;
 
     //
diff --git a/src/llama-kv-cache.cpp b/src/llama-kv-cache.cpp
@@ -177,10 +177,12 @@ llama_kv_cache::llama_kv_cache(
             n_embd_head_k_all = -1;
         }
 
-        if (n_embd_head_v_all == 0) {
-            n_embd_head_v_all = (int32_t) hparams.n_embd_head_v(il);
-        } else if (n_embd_head_v_all > 0 && n_embd_head_v_all != (int32_t) hparams.n_embd_head_v(il)) {
-            n_embd_head_v_all = -1;
+        if (!is_mla) {
+            if (n_embd_head_v_all == 0) {
+                n_embd_head_v_all = (int32_t) hparams.n_embd_head_v(il);
+            } else if (n_embd_head_v_all > 0 && n_embd_head_v_all != (int32_t) hparams.n_embd_head_v(il)) {
+                n_embd_head_v_all = -1;
+            }
         }
 
         // [TAG_V_CACHE_VARIABLE]
diff --git a/src/models/deepseek-v4.cpp b/src/models/deepseek-v4.cpp
@@ -651,7 +651,6 @@ ggml_tensor * llama_model_deepseek_v4_flash::graph::build_csa_lid_attention(
     const llama_kv_cache_context * mctx_swa = inp_attn->mctx->get_swa();
 
     ggml_build_forward_expand(gf, mctx_swa->cpy_k(ctx0, kv, inp_attn->get_k_idxs_swa(), il));
-    ggml_build_forward_expand(gf, mctx_swa->cpy_v(ctx0, kv, inp_attn->get_v_idxs_swa(), il));
 
     ggml_tensor * raw_k = mctx_swa->get_k(ctx0, il);
     if (raw_k->type != GGML_TYPE_F32) {
@@ -709,7 +708,6 @@ ggml_tensor * llama_model_deepseek_v4_flash::graph::build_hca_attention(
     const llama_kv_cache_context * mctx_swa = inp_attn->mctx->get_swa();
 
     ggml_build_forward_expand(gf, mctx_swa->cpy_k(ctx0, kv, inp_attn->get_k_idxs_swa(), il));
-    ggml_build_forward_expand(gf, mctx_swa->cpy_v(ctx0, kv, inp_attn->get_v_idxs_swa(), il));
 
     ggml_tensor * raw_k = mctx_swa->get_k(ctx0, il);
     if (raw_k->type != GGML_TYPE_F32) {
@@ -748,6 +746,42 @@ ggml_tensor * llama_model_deepseek_v4_flash::graph::build_hca_attention(
     return out;
 }
 
+ggml_tensor * llama_model_deepseek_v4_flash::graph::build_raw_attention(
+        llm_graph_input_attn_kv_iswa * inp_attn,
+        ggml_tensor * q,
+        ggml_tensor * kv,
+        ggml_tensor * sinks,
+        float kq_scale,
+        int il) const {
+    const bool is_swa = hparams.is_swa(il);
+
+    ggml_tensor * k_rot = is_swa ? inp_attn->self_k_rot_swa : inp_attn->self_k_rot;
+    ggml_tensor * v_rot = is_swa ? inp_attn->self_v_rot_swa : inp_attn->self_v_rot;
+    GGML_ASSERT(v_rot == nullptr);
+
+    if (k_rot) {
+        q  = ggml_mul_mat(ctx0, k_rot, q);
+        kv = ggml_mul_mat(ctx0, k_rot, kv);
+    }
+
+    ggml_build_forward_expand(gf, q);
+    ggml_build_forward_expand(gf, kv);
+
+    const llama_kv_cache_context * mctx_cur = is_swa ? inp_attn->mctx->get_swa() : inp_attn->mctx->get_base();
+    const auto & k_idxs = is_swa ? inp_attn->get_k_idxs_swa() : inp_attn->get_k_idxs();
+
+    ggml_build_forward_expand(gf, mctx_cur->cpy_k(ctx0, kv, k_idxs, il));
+
+    const auto & kq_mask = is_swa ? inp_attn->get_kq_mask_swa() : inp_attn->get_kq_mask();
+
+    ggml_tensor * k = mctx_cur->get_k(ctx0, il);
+
+    ggml_tensor * out = build_attn_mha(q, k, k, nullptr, kq_mask, sinks, nullptr, kq_scale, il);
+    cb(out, "attn_raw", il);
+
+    return out;
+}
+
 ggml_tensor * llama_model_deepseek_v4_flash::graph::build_attention(
         const llama_model & model,
         llm_graph_input_dsv4 * inp_dsv4,
@@ -1021,11 +1055,8 @@ ggml_tensor * llama_model_deepseek_v4_flash::graph::build_attention(
         out = build_hca_attention(inp_dsv4, inp_attn, q, kv, layer.attn_sinks,
                 1.0f/sqrtf(float(n_embd_head)), il);
     } else {
-        out = build_attn(inp_attn,
-                nullptr, nullptr, nullptr,
-                q, kv, kv, nullptr, layer.attn_sinks, nullptr,
+        out = build_raw_attention(inp_attn, q, kv, layer.attn_sinks,
                 1.0f/sqrtf(float(n_embd_head)), il);
-        cb(out, "attn_raw", il);
     }
 
     out = ggml_reshape_3d(ctx0, out, n_embd_head, n_head, nt);
diff --git a/src/models/models.h b/src/models/models.h
@@ -1149,6 +1149,14 @@ struct llama_model_deepseek_v4_flash : public llama_model_base {
                 float kq_scale,
                 int il) const;
 
+        ggml_tensor * build_raw_attention(
+                llm_graph_input_attn_kv_iswa * inp_attn,
+                ggml_tensor * q,
+                ggml_tensor * kv,
+                ggml_tensor * sinks,
+                float kq_scale,
+                int il) const;
+
         ggml_tensor * build_hc_weighted_sum(
                 ggml_tensor * x,
                 ggml_tensor * weights) const;