update forward

Linboyan-trc · Linboyan-trc · commit 35399f05430a · 2026-05-15T19:25:53.000+08:00
diff --git a/fastdeploy/model_executor/models/deepseek_v3.py b/fastdeploy/model_executor/models/deepseek_v3.py
@@ -17,7 +17,6 @@
 from __future__ import annotations
 
 import math
-import os
 import re
 from typing import Dict
 
@@ -345,9 +344,6 @@ def __init__(self, fd_config: FDConfig, layer_id: int, prefix: str = "") -> None
 
         self.prefix = prefix
 
-        prop = paddle.device.cuda.get_device_properties()
-        self.prop = prop
-
     @staticmethod
     def yarn_get_mscale(scale=1, mscale=1):
         """ """
@@ -366,22 +362,6 @@ def forward(
             fused_read_cache_and_interleave,
         )
 
-<<<<<<< HEAD
-        q_total_token_num = hidden_states.shape[0]
-=======
-        need_do_prefill = forward_meta.max_len_tensor_cpu[1] > 0
-        need_do_decode = forward_meta.max_len_tensor_cpu[2] > 0
-
-        # Idle pass (e.g. CUDAGraph padding): skip all attention computation
-        if not need_do_prefill and not need_do_decode:
-            return self.o_proj(
-                paddle.zeros(
-                    [hidden_states.shape[0], self.num_attention_heads_tp * self.v_head_dim],
-                    dtype=hidden_states.dtype,
-                )
-            )
->>>>>>> 15a153a24 (update forward)
-
         attn_out = None
         if self.use_gated_attn:
             gate_out = self.gate(hidden_states)
@@ -459,36 +439,6 @@ def forward(
             attn_out = fmha_out
 
         if need_do_decode:  # max_dec_len_this_time
-
-            if int(os.getenv("USE_FLASH_MLA", "0")) == 0 and self.prop.major == 9:
-                pass
-            else:
-                from fastdeploy.model_executor.layers.attention.mla_attention_backend import (
-                    extract_decoder_token_from_q,
-                    insert_decoder_result_back,
-                )
-
-                decoder_query_nope, cache_seqlens = extract_decoder_token_from_q(
-                    query_nope.reshape([0, -1]),
-                    forward_meta.cu_seqlens_q,
-                    forward_meta.seq_lens_encoder,
-                    forward_meta.seq_lens_decoder,
-                )
-
-                decoder_query_pe, cache_seqlens = extract_decoder_token_from_q(
-                    query_pe.reshape([0, -1]),
-                    forward_meta.cu_seqlens_q,
-                    forward_meta.seq_lens_encoder,
-                    forward_meta.seq_lens_decoder,
-                )
-                assert decoder_query_nope.shape[0] == forward_meta.seq_lens_encoder.shape[0]
-                assert decoder_query_pe.shape[0] == forward_meta.seq_lens_encoder.shape[0]
-
-                forward_meta.cache_seqlens = cache_seqlens
-
-                query_nope = decoder_query_nope.reshape([0, -1, self.qk_nope_head_dim])
-                query_pe = decoder_query_pe.reshape([0, -1, self.qk_rope_head_dim])
-
             q_nope_out = self.kv_b_proj_bmm(query_nope.transpose([1, 0, 2]), proj_type="k").transpose([1, 0, 2])
 
             q_input = paddle.concat([q_nope_out, query_pe], axis=-1)
@@ -517,17 +467,6 @@ def forward(
                 .reshape_([-1, self.num_attention_heads_tp * self.v_head_dim])
             )
 
-            if int(os.getenv("USE_FLASH_MLA", "0")) == 0 and self.prop.major == 9:
-                pass
-            else:
-                fmqa_out = insert_decoder_result_back(
-                    fmqa_out.reshape([0, 1, self.num_attention_heads_tp, self.v_head_dim]),
-                    forward_meta.cu_seqlens_q,
-                    forward_meta.seq_lens_encoder,
-                    forward_meta.seq_lens_decoder,
-                    q_total_token_num,
-                )
-
             if need_do_prefill:
                 merge_prefill_decode_output(
                     attn_out,
@@ -1119,6 +1058,12 @@ def forward(
         residual: paddle.Tensor,
     ):
         """ """
+        need_do_prefill = forward_meta.max_len_tensor_cpu[1] > 0
+        need_do_decode = forward_meta.max_len_tensor_cpu[2] > 0
+
+        if not need_do_prefill and not need_do_decode:
+            return hidden_states
+
         if hidden_states.shape[0] > 0:
             hidden_states, residual = self.input_layernorm(
                 hidden_states, residual_input=residual, forward_meta=forward_meta
diff --git a/tests/deterministic/test_triton_decode_attention.py b/tests/deterministic/test_triton_decode_attention.py
@@ -63,8 +63,7 @@ def cosine_similarity(a, b):
 # ---------------------------------------------------------------------------
 # Reference implementation: naive decode attention (no paging)
 # ---------------------------------------------------------------------------
-def naive_decode_attention_ref(q, k_pages, v_pages, kv_indptr, kv_indices,
-                               sm_scale, kv_block_size):
+def naive_decode_attention_ref(q, k_pages, v_pages, kv_indptr, kv_indices, sm_scale, kv_block_size):
     """
     Naive Python reference for decode attention with paged KV cache.
 
@@ -154,7 +153,6 @@ def build_decode_test_data(
     np.random.seed(seed)
     paddle.seed(seed)
 
-    total_kv_len = sum(seq_lens)
     num_blocks_needed = sum((s + block_size - 1) // block_size for s in seq_lens)
     num_blocks = max(num_blocks_needed + 4, 8)
 
@@ -194,7 +192,7 @@ def build_decode_test_data(
     attn_lse = paddle.empty([batch_size, num_heads, max_kv_splits], dtype="float32")
     o = paddle.empty([batch_size, num_heads, Lv], dtype=dtype)
 
-    sm_scale = head_dim_k ** -0.5
+    sm_scale = head_dim_k**-0.5
 
     return {
         "q": q,
@@ -290,8 +288,7 @@ def test_empty(self):
     ids=[c[0] for c in _DECODE_CASES],
 )
 @pytest.mark.parametrize("dtype", ["float16", "bfloat16"])
-def test_decode_attention_correctness(name, batch, num_heads, kv_heads, Lk, Lv,
-                                      seq_lens, block_size, dtype):
+def test_decode_attention_correctness(name, batch, num_heads, kv_heads, Lk, Lv, seq_lens, block_size, dtype):
     """Triton decode attention output should match naive reference."""
     data = build_decode_test_data(
         batch_size=batch,
@@ -336,12 +333,10 @@ def test_decode_attention_correctness(name, batch, num_heads, kv_heads, Lk, Lv,
     cos_sim = cosine_similarity(triton_out, ref_out)
 
     atol = BF16_ATOL if dtype == "bfloat16" else FP16_ATOL
-    assert max_diff < atol, (
-        f"[{name}/{dtype}] max_diff={max_diff:.6f} exceeds atol={atol}"
-    )
-    assert cos_sim > COSINE_SIM_THRESHOLD, (
-        f"[{name}/{dtype}] cos_sim={cos_sim:.6f} below threshold={COSINE_SIM_THRESHOLD}"
-    )
+    assert max_diff < atol, f"[{name}/{dtype}] max_diff={max_diff:.6f} exceeds atol={atol}"
+    assert (
+        cos_sim > COSINE_SIM_THRESHOLD
+    ), f"[{name}/{dtype}] cos_sim={cos_sim:.6f} below threshold={COSINE_SIM_THRESHOLD}"
 
 
 # ===========================================================================
@@ -380,10 +375,7 @@ def test_decode_attention_determinism():
         results.append(o.astype("float32").numpy())
 
     for i in range(1, len(results)):
-        np.testing.assert_array_equal(
-            results[0], results[i],
-            err_msg=f"Run 0 vs run {i} differ — non-deterministic!"
-        )
+        np.testing.assert_array_equal(results[0], results[i], err_msg=f"Run 0 vs run {i} differ — non-deterministic!")
 
 
 # ===========================================================================
diff --git a/tests/deterministic/test_triton_mla_cache_kernel.py b/tests/deterministic/test_triton_mla_cache_kernel.py
@@ -411,10 +411,7 @@ def test_write_cache_determinism():
         results.append(cache.astype("float32").numpy())
 
     for i in range(1, len(results)):
-        np.testing.assert_array_equal(
-            results[0], results[i],
-            err_msg=f"Run 0 vs run {i} differ — non-deterministic!"
-        )
+        np.testing.assert_array_equal(results[0], results[i], err_msg=f"Run 0 vs run {i} differ — non-deterministic!")
 
 
 # ===========================================================================
@@ -429,17 +426,23 @@ def test_manual_baseline():
     latent_dim = kv_lora_rank + qk_rope_head_dim  # 6
 
     # 3 tokens, deterministic values
-    compressed_kv = paddle.to_tensor([
-        [1.0, 2.0, 3.0, 4.0],
-        [5.0, 6.0, 7.0, 8.0],
-        [9.0, 10.0, 11.0, 12.0],
-    ], dtype="float32")
-
-    k_pe = paddle.to_tensor([
-        [0.1, 0.2],
-        [0.3, 0.4],
-        [0.5, 0.6],
-    ], dtype="float32")
+    compressed_kv = paddle.to_tensor(
+        [
+            [1.0, 2.0, 3.0, 4.0],
+            [5.0, 6.0, 7.0, 8.0],
+            [9.0, 10.0, 11.0, 12.0],
+        ],
+        dtype="float32",
+    )
+
+    k_pe = paddle.to_tensor(
+        [
+            [0.1, 0.2],
+            [0.3, 0.4],
+            [0.5, 0.6],
+        ],
+        dtype="float32",
+    )
 
     latent_cache = paddle.zeros([num_blocks, 1, block_size, latent_dim], dtype="float32")