fix(httpserver,router): defensive group_request_id init; reorder is_aborted skip

sufubao · sufubao · commit 09a488b46f39 · 2026-05-09T11:47:02.000+08:00
- httpserver: initialize group_request_id=None so the ValueError except
  handler does not hit UnboundLocalError when the oversized-prompt guard
  raises before alloc_req_id.
- router: move the is_aborted skip after on_request_completed so aborted
  reqs still update completion stats, but do not pollute the router_statics
  EMA with their truncated output_len.
diff --git a/lightllm/server/httpserver/manager.py b/lightllm/server/httpserver/manager.py
@@ -298,7 +298,11 @@ async def generate(
         # 用于等待 pd_master 下发的交换信息
         nixl_pd_event: asyncio.Event = None,
     ) -> AsyncGenerator[Tuple[int, str, dict, FinishStatus], None]:
+        group_request_id = None
         if isinstance(prompt, str):
+            # Guard against extremely long string prompts that might stall the tokenizer
+            # or cause excessive memory usage before tokenization.
+            # 8 characters per token is a conservative heuristic (avg is ~4).
             max_prompt_chars = self.max_req_total_len * 8
             if len(prompt) > max_prompt_chars:
                 raise ValueError(
diff --git a/lightllm/server/router/manager.py b/lightllm/server/router/manager.py
@@ -347,16 +347,16 @@ def _filter_reqs_from_running_batch(self):
                 # Settle any output-token tail produced after the last window boundary,
                 # so windowed TPS does not lose the req's last tokens.
                 self.status_reporter.discard_req(req)
-                # Aborted/disconnected requests can leave a partial output_len that
-                # would bias the EMA toward shorter generations; skip them.
-                if req.is_aborted:
-                    continue
                 self.status_reporter.on_request_completed(
                     input_len=req.input_len,
                     output_len=req.shm_cur_output_len,
                     cache_len=req.prompt_cache_len,
                     mtp_accepted=req.mtp_accepted_token_num,
                 )
+                # Aborted/disconnected requests can leave a partial output_len that
+                # would bias the EMA toward shorter generations; skip them.
+                if req.is_aborted:
+                    continue
                 self.router_statics.update(req.candetoken_out_len)
             self.running_batch.filter_out_finished_req(self.shm_req_manager)
             if self.running_batch.is_clear():