[Optimization] Deduplicate reasoning_status reset in insert_tasks_v1 (#7665)

lonelygsh · web-flow · commit a2f636e08a25 · 2026-04-29T12:52:46.000+08:00
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
@@ -849,9 +849,9 @@ def insert_tasks_v1(self, req_dicts: List[Request], num_running_requests: int =
                         enable_thinking = bool(request.get("enable_thinking"))
                         logger.debug(f"request {request.request_id} with {enable_thinking=} at idx {idx}")
                         self.share_inputs["enable_thinking"][idx : idx + 1, :] = enable_thinking
+                        async_set_value(self.share_inputs["reasoning_status"][idx : idx + 1], 0)
                         if enable_thinking:
                             self.share_inputs["limit_think_status"][idx : idx + 1, :] = 0
-                            self.share_inputs["reasoning_status"][idx : idx + 1, :] = 0
                             if request.get("reasoning_max_tokens") is not None:
                                 # Enable thinking
                                 self.share_inputs["max_think_lens"][idx : idx + 1, :] = request.get(
@@ -871,7 +871,6 @@ def insert_tasks_v1(self, req_dicts: List[Request], num_running_requests: int =
                             self.share_inputs["max_think_lens"][idx : idx + 1, :] = -1
                             self.share_inputs["max_reply_lens"][idx : idx + 1, :] = -1
                             self.share_inputs["limit_think_status"][idx : idx + 1, :] = 0
-                            self.share_inputs["reasoning_status"][idx : idx + 1, :] = 0
 
                 if isinstance(request.prompt_token_ids, np.ndarray):
                     prompt_token_ids = request.prompt_token_ids.tolist()
diff --git a/fastdeploy/worker/metax_model_runner.py b/fastdeploy/worker/metax_model_runner.py
@@ -719,9 +719,9 @@ def insert_tasks_v1(self, req_dicts: List[Request], num_running_requests: int =
                         enable_thinking = bool(request.get("enable_thinking"))
                         logger.debug(f"request {request.request_id} with {enable_thinking=} at idx {idx}")
                         self.share_inputs["enable_thinking"][idx : idx + 1, :] = enable_thinking
+                        self.share_inputs["reasoning_status"][idx : idx + 1, :] = 0
                         if enable_thinking:
                             self.share_inputs["limit_think_status"][idx : idx + 1, :] = 0
-                            self.share_inputs["reasoning_status"][idx : idx + 1, :] = 0
                             if request.get("reasoning_max_tokens") is not None:
                                 # Enable thinking
                                 self.share_inputs["max_think_lens"][idx : idx + 1, :] = request.get(
@@ -741,7 +741,6 @@ def insert_tasks_v1(self, req_dicts: List[Request], num_running_requests: int =
                             self.share_inputs["max_think_lens"][idx : idx + 1, :] = -1
                             self.share_inputs["max_reply_lens"][idx : idx + 1, :] = -1
                             self.share_inputs["limit_think_status"][idx : idx + 1, :] = 0
-                            self.share_inputs["reasoning_status"][idx : idx + 1, :] = 0
 
                 if isinstance(request.prompt_token_ids, np.ndarray):
                     prompt_token_ids = request.prompt_token_ids.tolist()
diff --git a/fastdeploy/worker/xpu_model_runner.py b/fastdeploy/worker/xpu_model_runner.py
@@ -595,16 +595,15 @@ def insert_tasks_v1(self, req_dicts: List[Request], num_running_requests: int):
                 prefill_start_index = request.prefill_start_index
                 prefill_end_index = request.prefill_end_index
                 length = prefill_end_index - prefill_start_index
+                self.share_inputs["reasoning_status"][idx : idx + 1, :] = 0
                 if request.get("enable_thinking", False) and request.get("reasoning_max_tokens", None) is not None:
                     # Enable thinking
                     self.share_inputs["max_think_lens"][idx : idx + 1, :] = request.get("reasoning_max_tokens")
                     self.share_inputs["limit_think_status"][idx : idx + 1, :] = 0
-                    self.share_inputs["reasoning_status"][idx : idx + 1, :] = 0
                 else:
                     # Disable thinking
                     self.share_inputs["max_think_lens"][idx : idx + 1, :] = -1
                     self.share_inputs["limit_think_status"][idx : idx + 1, :] = 0
-                    self.share_inputs["reasoning_status"][idx : idx + 1, :] = 0
 
                 if (
                     hasattr(request, "sampling_params")
@@ -796,16 +795,15 @@ def insert_prefill_inputs(self, req_dicts: List[Request], num_running_requests:
                     )[0]
                     self.share_inputs["seq_lens_decoder"][idx : idx + 1] = 0
 
+                self.share_inputs["reasoning_status"][idx : idx + 1, :] = 0
                 if request.get("enable_thinking", False) and request.get("reasoning_max_tokens", None) is not None:
                     # Enable thinking
                     self.share_inputs["max_think_lens"][idx : idx + 1, :] = request.get("reasoning_max_tokens")
                     self.share_inputs["limit_think_status"][idx : idx + 1, :] = 0
-                    self.share_inputs["reasoning_status"][idx : idx + 1, :] = 0
                 else:
                     # Disable thinking
                     self.share_inputs["max_think_lens"][idx : idx + 1, :] = -1
                     self.share_inputs["limit_think_status"][idx : idx + 1, :] = 0
-                    self.share_inputs["reasoning_status"][idx : idx + 1, :] = 0
 
             def get_attr_from_request(request, attr, default_value=None):
                 res = request.get(attr, default_value)