fix(parsing): schema-aware tool-arg coercion for XML-style parsers (#28)

hallerite · web-flow · commit 40620409ed91 · 2026-05-13T16:55:06.000+02:00
diff --git a/renderers/base.py b/renderers/base.py
@@ -297,8 +297,23 @@ def render_ids(
         """Render messages to token IDs (without attribution metadata)."""
         ...
 
-    def parse_response(self, token_ids: list[int]) -> ParsedResponse:
-        """Parse completion tokens back into a structured message."""
+    def parse_response(
+        self,
+        token_ids: list[int],
+        *,
+        tools: list[ToolSpec] | None = None,
+    ) -> ParsedResponse:
+        """Parse completion tokens back into a structured message.
+
+        ``tools`` is the same list passed to ``render`` for this turn.
+        XML-style formats (Qwen3.5, GLM, MiniMax, Laguna) render argument
+        values verbatim inside ``<arg_value>`` tags with no quoting, so
+        a value like ``true`` is ambiguous between bool and the string
+        ``"true"``. When ``tools`` is supplied, the parser consults each
+        parameter's declared JSON-schema type to preserve string args
+        verbatim. Without ``tools``, parsers fall back to the historical
+        ``json.loads``-with-text-fallback behavior.
+        """
         ...
 
     def get_stop_token_ids(self) -> list[int]:
diff --git a/renderers/client.py b/renderers/client.py
@@ -150,7 +150,7 @@ def _prepare():
     completion_ids = choice.get("token_ids") or []
 
     parsed = await _maybe_offload(
-        renderer, lambda: renderer.parse_response(completion_ids)
+        renderer, lambda: renderer.parse_response(completion_ids, tools=tools)
     )
 
     # ChatCompletionLogProbs flatten: {"content": [{"logprob": ...}, ...]}
diff --git a/renderers/deepseek_v3.py b/renderers/deepseek_v3.py
@@ -221,7 +221,12 @@ def render_ids(
             add_generation_prompt=add_generation_prompt,
         ).token_ids
 
-    def parse_response(self, token_ids: list[int]) -> ParsedResponse:
+    def parse_response(
+        self,
+        token_ids: list[int],
+        *,
+        tools: list[ToolSpec] | None = None,  # noqa: ARG002 — args land in a ```json fence, schema not needed
+    ) -> ParsedResponse:
         return parse_deepseek_v3(
             self._tokenizer,
             token_ids,
diff --git a/renderers/default.py b/renderers/default.py
@@ -167,7 +167,12 @@ def render_ids(
             messages, tools=tools, add_generation_prompt=add_generation_prompt
         )
 
-    def parse_response(self, token_ids: list[int]) -> ParsedResponse:
+    def parse_response(
+        self,
+        token_ids: list[int],
+        *,
+        tools: list[ToolSpec] | None = None,  # noqa: ARG002 — DefaultRenderer relies on configured tool_parser, schema not consulted here
+    ) -> ParsedResponse:
         # 1. Extract tool calls while we still have token ids (most formats
         #    use special-token delimiters, so id-level matching is reliable).
         if self._tool_parser is not None:
diff --git a/renderers/glm45.py b/renderers/glm45.py
@@ -214,7 +214,12 @@ def render_ids(
             add_generation_prompt=add_generation_prompt,
         ).token_ids
 
-    def parse_response(self, token_ids: list[int]) -> ParsedResponse:
+    def parse_response(
+        self,
+        token_ids: list[int],
+        *,
+        tools: list[ToolSpec] | None = None,
+    ) -> ParsedResponse:
         return parse_glm(
             self._tokenizer,
             token_ids,
@@ -227,6 +232,7 @@ def parse_response(self, token_ids: list[int]) -> ParsedResponse:
             arg_key_end_id=self._arg_key_end,
             arg_value_id=self._arg_value,
             arg_value_end_id=self._arg_value_end,
+            tools=tools,
         )
 
     def get_stop_token_ids(self) -> list[int]:
diff --git a/renderers/glm5.py b/renderers/glm5.py
@@ -226,7 +226,12 @@ def render_ids(
             add_generation_prompt=add_generation_prompt,
         ).token_ids
 
-    def parse_response(self, token_ids: list[int]) -> ParsedResponse:
+    def parse_response(
+        self,
+        token_ids: list[int],
+        *,
+        tools: list[ToolSpec] | None = None,
+    ) -> ParsedResponse:
         return parse_glm(
             self._tokenizer,
             token_ids,
@@ -239,6 +244,7 @@ def parse_response(self, token_ids: list[int]) -> ParsedResponse:
             arg_key_end_id=self._arg_key_end,
             arg_value_id=self._arg_value,
             arg_value_end_id=self._arg_value_end,
+            tools=tools,
         )
 
     def get_stop_token_ids(self) -> list[int]:
diff --git a/renderers/gpt_oss.py b/renderers/gpt_oss.py
@@ -307,7 +307,12 @@ def render_ids(
             add_generation_prompt=add_generation_prompt,
         ).token_ids
 
-    def parse_response(self, token_ids: list[int]) -> ParsedResponse:
+    def parse_response(
+        self,
+        token_ids: list[int],
+        *,
+        tools: list[ToolSpec] | None = None,  # noqa: ARG002 — harmony args land in a JSON object, schema not needed
+    ) -> ParsedResponse:
         return parse_gpt_oss(
             self._tokenizer,
             token_ids,
diff --git a/renderers/kimi_k2.py b/renderers/kimi_k2.py
@@ -279,7 +279,12 @@ def render_ids(
             add_generation_prompt=add_generation_prompt,
         ).token_ids
 
-    def parse_response(self, token_ids: list[int]) -> ParsedResponse:
+    def parse_response(
+        self,
+        token_ids: list[int],
+        *,
+        tools: list[ToolSpec] | None = None,  # noqa: ARG002 — section-JSON wire format quotes strings, schema not needed
+    ) -> ParsedResponse:
         return parse_kimi_k2(
             self._tokenizer,
             token_ids,
diff --git a/renderers/kimi_k25.py b/renderers/kimi_k25.py
@@ -904,7 +904,12 @@ def render_ids(
             add_generation_prompt=add_generation_prompt,
         ).token_ids
 
-    def parse_response(self, token_ids: list[int]) -> ParsedResponse:
+    def parse_response(
+        self,
+        token_ids: list[int],
+        *,
+        tools: list[ToolSpec] | None = None,  # noqa: ARG002 — section-JSON wire format quotes strings, schema not needed
+    ) -> ParsedResponse:
         stop_ids: set[int] = {self._im_end}
         if self._endoftext is not None:
             stop_ids.add(self._endoftext)
diff --git a/renderers/laguna_xs2.py b/renderers/laguna_xs2.py
@@ -238,7 +238,12 @@ def render_ids(
             add_generation_prompt=add_generation_prompt,
         ).token_ids
 
-    def parse_response(self, token_ids: list[int]) -> ParsedResponse:
+    def parse_response(
+        self,
+        token_ids: list[int],
+        *,
+        tools: list[ToolSpec] | None = None,
+    ) -> ParsedResponse:
         return parse_laguna_xs2(
             self._tokenizer,
             token_ids,
@@ -247,6 +252,7 @@ def parse_response(self, token_ids: list[int]) -> ParsedResponse:
             think_end_id=self._think_end,
             tool_call_id=self._tool_call,
             tool_call_end_id=self._tool_call_end,
+            tools=tools,
         )
 
     def get_stop_token_ids(self) -> list[int]:
diff --git a/renderers/minimax_m2.py b/renderers/minimax_m2.py
@@ -223,7 +223,12 @@ def render_ids(
             add_generation_prompt=add_generation_prompt,
         ).token_ids
 
-    def parse_response(self, token_ids: list[int]) -> ParsedResponse:
+    def parse_response(
+        self,
+        token_ids: list[int],
+        *,
+        tools: list[ToolSpec] | None = None,
+    ) -> ParsedResponse:
         return parse_minimax(
             self._tokenizer,
             token_ids,
@@ -232,6 +237,7 @@ def parse_response(self, token_ids: list[int]) -> ParsedResponse:
             think_end_id=self._think_end,
             tool_call_id=self._tool_call_tok,
             tool_call_end_id=self._tool_call_end_tok,
+            tools=tools,
         )
 
     def get_stop_token_ids(self) -> list[int]:
diff --git a/renderers/nemotron3.py b/renderers/nemotron3.py
@@ -384,7 +384,12 @@ def render_ids(
             add_generation_prompt=add_generation_prompt,
         ).token_ids
 
-    def parse_response(self, token_ids: list[int]) -> ParsedResponse:
+    def parse_response(
+        self,
+        token_ids: list[int],
+        *,
+        tools: list[ToolSpec] | None = None,  # noqa: ARG002 — args land in a JSON object, schema not needed
+    ) -> ParsedResponse:
         stop_ids = {self._im_end}
         if self._endoftext is not None:
             stop_ids.add(self._endoftext)
diff --git a/renderers/parsing.py b/renderers/parsing.py
diff --git a/renderers/qwen3.py b/renderers/qwen3.py
diff --git a/renderers/qwen35.py b/renderers/qwen35.py
diff --git a/renderers/qwen3_vl.py b/renderers/qwen3_vl.py
diff --git a/tests/test_client.py b/tests/test_client.py
diff --git a/tests/test_tool_arg_type_preservation.py b/tests/test_tool_arg_type_preservation.py

Original file line number	Diff line number	Diff line change
`@@ -150,7 +150,7 @@ def _prepare():`
`150`	`150`	`completion_ids = choice.get("token_ids") or []`
`151`	`151`
`152`	`152`	`parsed = await _maybe_offload(`
`153`		`- renderer, lambda: renderer.parse_response(completion_ids)`
	`153`	`+ renderer, lambda: renderer.parse_response(completion_ids, tools=tools)`
`154`	`154`	`)`
`155`	`155`
`156`	`156`	`# ChatCompletionLogProbs flatten: {"content": [{"logprob": ...}, ...]}`