fix: convert guided decoding schema into Harmony-native mode to avoid Harmony/JSON mode conflict for GPT-OSS

windreamer · windreamer · commit 1f6d748e54e0 · 2026-03-02T14:11:58.000+08:00
diff --git a/lmdeploy/serve/openai/api_server.py b/lmdeploy/serve/openai/api_server.py
@@ -391,10 +391,6 @@ async def chat_completions_v1(request: ChatCompletionRequest, raw_request: Reque
         adapter_name = model_name  # got a adapter name
     request_id = str(session.session_id)
     created_time = int(time.time())
-    gpt_oss_parser = None
-    if VariableInterface.async_engine.arch == 'GptOssForCausalLM':
-        gpt_oss_parser = GptOssChatParser()
-
     if isinstance(request.stop, str):
         request.stop = [request.stop]
 
@@ -405,6 +401,33 @@ async def chat_completions_v1(request: ChatCompletionRequest, raw_request: Reque
     if request.response_format and request.response_format.type != 'text':
         response_format = request.response_format.model_dump()
 
+    gpt_oss_parser = None
+    if VariableInterface.async_engine.arch == 'GptOssForCausalLM':
+        gpt_oss_parser = GptOssChatParser()
+        if response_format:
+            logger.info(f'[GPT-OSS:{request_id}] Structured output requested, converting to Harmony-native mode')
+            schema_json = json.dumps(response_format, ensure_ascii=False)
+            format_section = f'\n\n# Response Formats\n\n{schema_json}'
+            try:
+                messages = request.messages
+                if isinstance(messages, str):
+                    messages += format_section
+                else:
+                    for msg in messages:
+                        if msg['role'] == 'system':
+                            msg['content'] += format_section
+                            break
+                    else:
+                        system_msg = {
+                            'role': 'system',
+                            'content': f'You must follow the specified response format.{format_section}'
+                        }
+                        messages.insert(0, system_msg)
+
+                response_format = None
+            except Exception as e:
+                logger.error(f'[GPT-OSS:{request_id}] Failed to convert response_format to Harmony mode: {str(e)}')
+
     if request.logit_bias is not None:
         try:
             logits_processors = [