fix: make endpoint_path required and document parameter

Lifto · sisyphus-dev-ai · Lifto · commit ee9570aa6d3f · 2026-04-29T14:01:49.000-04:00
Co-authored-by: Sisyphus &lt;clio-agent@sisyphuslabs.ai&gt;
diff --git a/src/app/endpoints/responses.py b/src/app/endpoints/responses.py
@@ -816,6 +816,7 @@ async def response_generator(
         turn_summary: TurnSummary to populate during streaming
         inline_rag_context: Inline RAG context to be used for the response
         filter_server_tools: Whether to filter server-deployed MCP tool events from the stream
+        endpoint_path: API endpoint path used for metric labeling.
     Yields:
         SSE-formatted strings for streaming events, ending with [DONE]
     """
diff --git a/src/app/endpoints/streaming_query.py b/src/app/endpoints/streaming_query.py
@@ -318,7 +318,7 @@ async def streaming_query_endpoint_handler(  # pylint: disable=too-many-locals
 async def retrieve_response_generator(
     responses_params: ResponsesApiParams,
     context: ResponseGeneratorContext,
-    endpoint_path: str = "",
+    endpoint_path: str,
 ) -> tuple[AsyncIterator[str], TurnSummary]:
     """
     Retrieve the appropriate response generator.
@@ -330,6 +330,7 @@ async def retrieve_response_generator(
     Args:
         responses_params: The Responses API parameters
         context: The response generator context
+        endpoint_path: API endpoint path used for metric labeling.
     Returns:
         tuple[AsyncIterator[str], TurnSummary]: The response generator and turn summary
 
@@ -689,7 +690,7 @@ async def response_generator(  # pylint: disable=too-many-branches,too-many-stat
     turn_response: AsyncIterator[OpenAIResponseObjectStream],
     context: ResponseGeneratorContext,
     turn_summary: TurnSummary,
-    endpoint_path: str = "",
+    endpoint_path: str,
 ) -> AsyncIterator[str]:
     """Generate SSE formatted streaming response.
 
@@ -701,6 +702,7 @@ async def response_generator(  # pylint: disable=too-many-branches,too-many-stat
         turn_response: The streaming response from Llama Stack
         context: The response generator context
         turn_summary: TurnSummary to populate during streaming
+        endpoint_path: API endpoint path used for metric labeling.
 
     Yields:
         SSE-formatted strings for tokens, tool calls, tool results,
diff --git a/src/metrics/recording.py b/src/metrics/recording.py
@@ -44,7 +44,7 @@ def record_rest_api_call(path: str, status_code: int) -> None:
         logger.warning("Failed to update REST API call metric", exc_info=True)
 
 
-def record_llm_call(provider: str, model: str, endpoint_path: str = "") -> None:
+def record_llm_call(provider: str, model: str, endpoint_path: str) -> None:
     """Record one LLM call for a provider and model.
 
     Args:
@@ -58,7 +58,7 @@ def record_llm_call(provider: str, model: str, endpoint_path: str = "") -> None:
         logger.warning("Failed to update LLM call metric", exc_info=True)
 
 
-def record_llm_failure(provider: str, model: str, endpoint_path: str = "") -> None:
+def record_llm_failure(provider: str, model: str, endpoint_path: str) -> None:
     """Record one failed LLM call for a provider and model.
 
     Args:
@@ -89,7 +89,7 @@ def record_llm_token_usage(
     model: str,
     input_tokens: int,
     output_tokens: int,
-    endpoint_path: str = "",
+    endpoint_path: str,
 ) -> None:
     """Record LLM token usage for a provider and model.
 
diff --git a/tests/unit/app/endpoints/test_streaming_query.py b/tests/unit/app/endpoints/test_streaming_query.py
@@ -855,7 +855,7 @@ async def mock_response_generator(
         )
 
         generator, turn_summary = await retrieve_response_generator(
-            mock_responses_params, mock_context
+            mock_responses_params, mock_context, endpoint_path=""
         )
 
         assert isinstance(turn_summary, TurnSummary)
@@ -894,7 +894,7 @@ async def test_retrieve_response_generator_shield_blocked(
         )
 
         _generator, turn_summary = await retrieve_response_generator(
-            mock_responses_params, mock_context
+            mock_responses_params, mock_context, endpoint_path=""
         )
 
         assert isinstance(turn_summary, TurnSummary)
@@ -949,7 +949,9 @@ async def test_retrieve_response_generator_connection_error(
         )
 
         with pytest.raises(HTTPException) as exc_info:
-            await retrieve_response_generator(mock_responses_params, mock_context)
+            await retrieve_response_generator(
+                mock_responses_params, mock_context, endpoint_path=""
+            )
 
         assert exc_info.value.status_code == 503
 
@@ -999,7 +1001,9 @@ async def test_retrieve_response_generator_api_status_error(
         )
 
         with pytest.raises(HTTPException) as exc_info:
-            await retrieve_response_generator(mock_responses_params, mock_context)
+            await retrieve_response_generator(
+                mock_responses_params, mock_context, endpoint_path=""
+            )
 
         assert exc_info.value.status_code == 500
 
@@ -1046,7 +1050,9 @@ async def test_retrieve_response_generator_runtime_error_context_length(
         )
 
         with pytest.raises(HTTPException) as exc_info:
-            await retrieve_response_generator(mock_responses_params, mock_context)
+            await retrieve_response_generator(
+                mock_responses_params, mock_context, endpoint_path=""
+            )
 
         assert exc_info.value.status_code == 413
 
@@ -1083,7 +1089,9 @@ async def test_retrieve_response_generator_runtime_error_other(
         )
 
         with pytest.raises(RuntimeError):
-            await retrieve_response_generator(mock_responses_params, mock_context)
+            await retrieve_response_generator(
+                mock_responses_params, mock_context, endpoint_path=""
+            )
 
 
 class TestGenerateResponse:
@@ -1870,7 +1878,7 @@ async def mock_turn_response() -> AsyncIterator[OpenAIResponseObjectStream]:
 
         result = []
         async for item in response_generator(
-            mock_turn_response(), mock_context, mock_turn_summary
+            mock_turn_response(), mock_context, mock_turn_summary, endpoint_path=""
         ):
             result.append(item)
 
@@ -1900,7 +1908,7 @@ async def mock_turn_response() -> AsyncIterator[OpenAIResponseObjectStream]:
 
         result = []
         async for item in response_generator(
-            mock_turn_response(), mock_context, mock_turn_summary
+            mock_turn_response(), mock_context, mock_turn_summary, endpoint_path=""
         ):
             result.append(item)
 
@@ -1938,7 +1946,7 @@ async def mock_turn_response() -> AsyncIterator[OpenAIResponseObjectStream]:
         )
 
         async for _ in response_generator(
-            mock_turn_response(), mock_context, mock_turn_summary
+            mock_turn_response(), mock_context, mock_turn_summary, endpoint_path=""
         ):
             pass
 
@@ -1980,7 +1988,7 @@ async def mock_turn_response() -> AsyncIterator[OpenAIResponseObjectStream]:
 
         result = []
         async for item in response_generator(
-            mock_turn_response(), mock_context, mock_turn_summary
+            mock_turn_response(), mock_context, mock_turn_summary, endpoint_path=""
         ):
             result.append(item)
 
@@ -2029,7 +2037,7 @@ async def mock_turn_response() -> AsyncIterator[OpenAIResponseObjectStream]:
 
         result = []
         async for item in response_generator(
-            mock_turn_response(), mock_context, mock_turn_summary
+            mock_turn_response(), mock_context, mock_turn_summary, endpoint_path=""
         ):
             result.append(item)
 
@@ -2080,7 +2088,7 @@ async def mock_turn_response() -> AsyncIterator[OpenAIResponseObjectStream]:
 
         result = []
         async for item in response_generator(
-            mock_turn_response(), mock_context, mock_turn_summary
+            mock_turn_response(), mock_context, mock_turn_summary, endpoint_path=""
         ):
             result.append(item)
 
@@ -2123,7 +2131,7 @@ async def mock_turn_response() -> AsyncIterator[OpenAIResponseObjectStream]:
         )
 
         async for _ in response_generator(
-            mock_turn_response(), mock_context, mock_turn_summary
+            mock_turn_response(), mock_context, mock_turn_summary, endpoint_path=""
         ):
             pass
 
@@ -2172,7 +2180,7 @@ async def mock_turn_response() -> AsyncIterator[OpenAIResponseObjectStream]:
 
         result = []
         async for item in response_generator(
-            mock_turn_response(), mock_context, mock_turn_summary
+            mock_turn_response(), mock_context, mock_turn_summary, endpoint_path=""
         ):
             result.append(item)
 
@@ -2218,7 +2226,7 @@ async def mock_turn_response() -> AsyncIterator[OpenAIResponseObjectStream]:
 
         result = []
         async for item in response_generator(
-            mock_turn_response(), mock_context, mock_turn_summary
+            mock_turn_response(), mock_context, mock_turn_summary, endpoint_path=""
         ):
             result.append(item)
 
@@ -2263,7 +2271,7 @@ async def mock_turn_response() -> AsyncIterator[OpenAIResponseObjectStream]:
 
         result = []
         async for item in response_generator(
-            mock_turn_response(), mock_context, mock_turn_summary
+            mock_turn_response(), mock_context, mock_turn_summary, endpoint_path=""
         ):
             result.append(item)
 
@@ -2306,7 +2314,7 @@ async def mock_turn_response() -> AsyncIterator[OpenAIResponseObjectStream]:
 
         result = []
         async for item in response_generator(
-            mock_turn_response(), mock_context, mock_turn_summary
+            mock_turn_response(), mock_context, mock_turn_summary, endpoint_path=""
         ):
             result.append(item)
 
@@ -2350,7 +2358,7 @@ async def mock_turn_response() -> AsyncIterator[OpenAIResponseObjectStream]:
 
         result = []
         async for item in response_generator(
-            mock_turn_response(), mock_context, mock_turn_summary
+            mock_turn_response(), mock_context, mock_turn_summary, endpoint_path=""
         ):
             result.append(item)
 
@@ -2392,7 +2400,7 @@ async def mock_turn_response() -> AsyncIterator[OpenAIResponseObjectStream]:
 
         result = []
         async for item in response_generator(
-            mock_turn_response(), mock_context, mock_turn_summary
+            mock_turn_response(), mock_context, mock_turn_summary, endpoint_path=""
         ):
             result.append(item)
 
@@ -2445,7 +2453,7 @@ async def mock_turn_response() -> AsyncIterator[OpenAIResponseObjectStream]:
         )
 
         async for _ in response_generator(
-            mock_turn_response(), mock_context, mock_turn_summary
+            mock_turn_response(), mock_context, mock_turn_summary, endpoint_path=""
         ):
             pass
 
@@ -2572,7 +2580,7 @@ async def mock_turn_response() -> AsyncIterator[OpenAIResponseObjectStream]:
 
         result = []
         async for item in response_generator(
-            mock_turn_response(), mock_context, mock_turn_summary
+            mock_turn_response(), mock_context, mock_turn_summary, endpoint_path=""
         ):
             result.append(item)
 
@@ -2635,7 +2643,7 @@ async def mock_turn_response() -> AsyncIterator[OpenAIResponseObjectStream]:
 
         result = []
         async for item in response_generator(
-            mock_turn_response(), mock_context, mock_turn_summary
+            mock_turn_response(), mock_context, mock_turn_summary, endpoint_path=""
         ):
             result.append(item)
 
@@ -2728,7 +2736,7 @@ def build_mcp_tool_call_side_effect(
 
         result = []
         async for item in response_generator(
-            mock_turn_response(), mock_context, mock_turn_summary
+            mock_turn_response(), mock_context, mock_turn_summary, endpoint_path=""
         ):
             result.append(item)
 
@@ -2798,7 +2806,7 @@ async def mock_turn_response() -> AsyncIterator[OpenAIResponseObjectStream]:
 
         result = []
         async for item in response_generator(
-            mock_turn_response(), mock_context, mock_turn_summary
+            mock_turn_response(), mock_context, mock_turn_summary, endpoint_path=""
         ):
             result.append(item)