update forward

Linboyan-trc · Linboyan-trc · commit bfbf0b5ddc4e · 2026-05-15T17:39:00.000+08:00
diff --git a/fastdeploy/model_executor/models/deepseek_v3.py b/fastdeploy/model_executor/models/deepseek_v3.py
@@ -362,18 +362,6 @@ def forward(
             fused_read_cache_and_interleave,
         )
 
-        need_do_prefill = forward_meta.max_len_tensor_cpu[1] > 0
-        need_do_decode = forward_meta.max_len_tensor_cpu[2] > 0
-
-        # Idle pass (e.g. CUDAGraph padding): skip all attention computation
-        if not need_do_prefill and not need_do_decode:
-            return self.o_proj(
-                paddle.zeros(
-                    [hidden_states.shape[0], self.num_attention_heads_tp * self.v_head_dim],
-                    dtype=hidden_states.dtype,
-                )
-            )
-
         attn_out = None
         if self.use_gated_attn:
             gate_out = self.gate(hidden_states)
@@ -1070,6 +1058,12 @@ def forward(
         residual: paddle.Tensor,
     ):
         """ """
+        need_do_prefill = forward_meta.max_len_tensor_cpu[1] > 0
+        need_do_decode = forward_meta.max_len_tensor_cpu[2] > 0
+
+        if not need_do_prefill and not need_do_decode:
+            return hidden_states
+
         if hidden_states.shape[0] > 0:
             hidden_states, residual = self.input_layernorm(
                 hidden_states, residual_input=residual, forward_meta=forward_meta