[Speculate Decoding] Reset reasoning_status when request finishes (#7660)

lonelygsh · web-flow · commit 70b4972a226e · 2026-04-28T20:49:00.000-07:00
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
@@ -851,6 +851,7 @@ def insert_tasks_v1(self, req_dicts: List[Request], num_running_requests: int =
                         self.share_inputs["enable_thinking"][idx : idx + 1, :] = enable_thinking
                         if enable_thinking:
                             self.share_inputs["limit_think_status"][idx : idx + 1, :] = 0
+                            self.share_inputs["reasoning_status"][idx : idx + 1, :] = 0
                             if request.get("reasoning_max_tokens") is not None:
                                 # Enable thinking
                                 self.share_inputs["max_think_lens"][idx : idx + 1, :] = request.get(
@@ -870,6 +871,7 @@ def insert_tasks_v1(self, req_dicts: List[Request], num_running_requests: int =
                             self.share_inputs["max_think_lens"][idx : idx + 1, :] = -1
                             self.share_inputs["max_reply_lens"][idx : idx + 1, :] = -1
                             self.share_inputs["limit_think_status"][idx : idx + 1, :] = 0
+                            self.share_inputs["reasoning_status"][idx : idx + 1, :] = 0
 
                 if isinstance(request.prompt_token_ids, np.ndarray):
                     prompt_token_ids = request.prompt_token_ids.tolist()
diff --git a/fastdeploy/worker/metax_model_runner.py b/fastdeploy/worker/metax_model_runner.py
@@ -721,6 +721,7 @@ def insert_tasks_v1(self, req_dicts: List[Request], num_running_requests: int =
                         self.share_inputs["enable_thinking"][idx : idx + 1, :] = enable_thinking
                         if enable_thinking:
                             self.share_inputs["limit_think_status"][idx : idx + 1, :] = 0
+                            self.share_inputs["reasoning_status"][idx : idx + 1, :] = 0
                             if request.get("reasoning_max_tokens") is not None:
                                 # Enable thinking
                                 self.share_inputs["max_think_lens"][idx : idx + 1, :] = request.get(
@@ -740,6 +741,7 @@ def insert_tasks_v1(self, req_dicts: List[Request], num_running_requests: int =
                             self.share_inputs["max_think_lens"][idx : idx + 1, :] = -1
                             self.share_inputs["max_reply_lens"][idx : idx + 1, :] = -1
                             self.share_inputs["limit_think_status"][idx : idx + 1, :] = 0
+                            self.share_inputs["reasoning_status"][idx : idx + 1, :] = 0
 
                 if isinstance(request.prompt_token_ids, np.ndarray):
                     prompt_token_ids = request.prompt_token_ids.tolist()
diff --git a/fastdeploy/worker/xpu_model_runner.py b/fastdeploy/worker/xpu_model_runner.py
@@ -599,10 +599,12 @@ def insert_tasks_v1(self, req_dicts: List[Request], num_running_requests: int):
                     # Enable thinking
                     self.share_inputs["max_think_lens"][idx : idx + 1, :] = request.get("reasoning_max_tokens")
                     self.share_inputs["limit_think_status"][idx : idx + 1, :] = 0
+                    self.share_inputs["reasoning_status"][idx : idx + 1, :] = 0
                 else:
                     # Disable thinking
                     self.share_inputs["max_think_lens"][idx : idx + 1, :] = -1
                     self.share_inputs["limit_think_status"][idx : idx + 1, :] = 0
+                    self.share_inputs["reasoning_status"][idx : idx + 1, :] = 0
 
                 if (
                     hasattr(request, "sampling_params")
@@ -798,10 +800,12 @@ def insert_prefill_inputs(self, req_dicts: List[Request], num_running_requests:
                     # Enable thinking
                     self.share_inputs["max_think_lens"][idx : idx + 1, :] = request.get("reasoning_max_tokens")
                     self.share_inputs["limit_think_status"][idx : idx + 1, :] = 0
+                    self.share_inputs["reasoning_status"][idx : idx + 1, :] = 0
                 else:
                     # Disable thinking
                     self.share_inputs["max_think_lens"][idx : idx + 1, :] = -1
                     self.share_inputs["limit_think_status"][idx : idx + 1, :] = 0
+                    self.share_inputs["reasoning_status"][idx : idx + 1, :] = 0
 
             def get_attr_from_request(request, attr, default_value=None):
                 res = request.get(attr, default_value)