fix: convert guided decoding schema into Harmony-native mode to avoid Harmony/JSON mode conflict for GPT-OSS

windreamer · Copilot · windreamer · commit 8cb9ef25030a · 2026-05-07T12:15:50.000+08:00
Co-authored-by: Copilot &lt;175728472+Copilot@users.noreply.github.com&gt;
diff --git a/lmdeploy/serve/openai/api_server.py b/lmdeploy/serve/openai/api_server.py
@@ -400,6 +400,44 @@ async def chat_completions_v1(request: ChatCompletionRequest, raw_request: Reque
     gen_logprobs, logits_processors = None, None
     if request.logprobs and request.top_logprobs:
         gen_logprobs = request.top_logprobs
+    response_format = None
+    if request.response_format and request.response_format.type != 'text':
+        response_format = request.response_format.model_dump()
+
+    gpt_oss_parser = None
+    if VariableInterface.async_engine.arch == 'GptOssForCausalLM':
+        gpt_oss_parser = GptOssChatParser()
+        if response_format:
+            logger.info(f'[GPT-OSS:{request_id}] Structured output requested, converting to Harmony-native mode')
+            schema_json = json.dumps(response_format, ensure_ascii=False)
+            format_section = f'\n\n# Response Formats\n\n{schema_json}'
+            try:
+                if isinstance(request.messages, str):
+                    # For string prompts, append the format section directly to request.messages
+                    request.messages += format_section
+                else:
+                    messages = request.messages
+                    appended_to_system = False
+                    for msg in messages:
+                        if msg.get('role') == 'system':
+                            content = msg.get('content')
+                            if content is None:
+                                content = ''
+                            if isinstance(content, str):
+                                msg['content'] = content + format_section
+                                appended_to_system = True
+                                break
+                    if not appended_to_system:
+                        system_msg = {
+                            'role': 'system',
+                            'content': f'You must follow the specified response format.{format_section}'
+                        }
+                        messages.insert(0, system_msg)
+
+                response_format = None
+            except Exception as e:
+                logger.error(f'[GPT-OSS:{request_id}] Failed to convert response_format to Harmony mode: {str(e)}')
+
     if request.logit_bias is not None:
         try:
             logits_processors = [