add option to disable topic summary

Radovan Fuchs · Radovan Fuchs · commit ecd4ca63d490 · 2025-11-19T11:17:09.000+01:00
diff --git a/src/app/endpoints/query.py b/src/app/endpoints/query.py
@@ -318,9 +318,19 @@ async def query_endpoint_handler_base(  # pylint: disable=R0914
                 session.query(UserConversation).filter_by(id=conversation_id).first()
             )
             if not existing_conversation:
-                topic_summary = await get_topic_summary_func(
-                    query_request.query, client, llama_stack_model_id
-                )
+                # Check if topic summary should be generated (default: True)
+                should_generate = query_request.generate_topic_summary
+
+                if should_generate:
+                    logger.debug("Generating topic summary for new conversation")
+                    topic_summary = await get_topic_summary_func(
+                        query_request.query, client, llama_stack_model_id
+                    )
+                else:
+                    logger.debug(
+                        "Topic summary generation disabled by request parameter"
+                    )
+                    topic_summary = None
         # Convert RAG chunks to dictionary format once for reuse
         logger.info("Processing RAG chunks...")
         rag_chunks_dict = [chunk.model_dump() for chunk in summary.rag_chunks]
diff --git a/src/app/endpoints/streaming_query.py b/src/app/endpoints/streaming_query.py
@@ -783,63 +783,47 @@ async def response_generator(
 
         yield stream_end_event(context.metadata_map, summary, token_usage, media_type)
 
-        # Perform cleanup tasks (database and cache operations)
-        await cleanup_after_streaming(
-            user_id=context.user_id,
-            conversation_id=context.conversation_id,
-            model_id=context.model_id,
-            provider_id=context.provider_id,
-            llama_stack_model_id=context.llama_stack_model_id,
-            query_request=context.query_request,
-            summary=summary,
-            metadata_map=context.metadata_map,
-            started_at=context.started_at,
-            client=context.client,
-            config=configuration,
-            skip_userid_check=context.skip_userid_check,
-            get_topic_summary_func=get_topic_summary,
-            is_transcripts_enabled_func=is_transcripts_enabled,
-            store_transcript_func=store_transcript,
-            persist_user_conversation_details_func=persist_user_conversation_details,
-            rag_chunks=create_rag_chunks_dict(summary),
-        )
-
-    return response_generator
-
-
-async def streaming_query_endpoint_handler_base(  # pylint: disable=too-many-locals,too-many-statements,too-many-arguments,too-many-positional-arguments
-    request: Request,
-    query_request: QueryRequest,
-    auth: AuthTuple,
-    mcp_headers: dict[str, dict[str, str]],
-    retrieve_response_func: Callable[..., Any],
-    create_response_generator_func: Callable[..., Any],
-) -> StreamingResponse:
-    """
-    Handle streaming query endpoints with common logic.
-
-    This base handler contains all the common logic for streaming query endpoints
-    and accepts functions for API-specific behavior (Agent API vs Responses API).
-
-    Args:
-        request: The FastAPI request object
-        query_request: The query request from the user
-        auth: Authentication tuple (user_id, username, skip_check, token)
-        mcp_headers: MCP headers for tool integrations
-        retrieve_response_func: Function to retrieve the streaming response
-        create_response_generator_func: Function factory that creates the response generator
-
-    Returns:
-        StreamingResponse: An HTTP streaming response yielding SSE-formatted events
-
-    Raises:
-        HTTPException: Returns HTTP 500 if unable to connect to Llama Stack
-    """
-    # Nothing interesting in the request
-    _ = request
+            if not is_transcripts_enabled():
+                logger.debug("Transcript collection is disabled in the configuration")
+            else:
+                store_transcript(
+                    user_id=user_id,
+                    conversation_id=conversation_id,
+                    model_id=model_id,
+                    provider_id=provider_id,
+                    query_is_valid=True,  # TODO(lucasagomes): implement as part of query validation
+                    query=query_request.query,
+                    query_request=query_request,
+                    summary=summary,
+                    rag_chunks=create_rag_chunks_dict(summary),
+                    truncated=False,  # TODO(lucasagomes): implement truncation as part
+                    # of quota work
+                    attachments=query_request.attachments or [],
+                )
 
-    check_configuration_loaded(configuration)
-    started_at = datetime.now(UTC).strftime("%Y-%m-%dT%H:%M:%SZ")
+            # Get the initial topic summary for the conversation
+            topic_summary = None
+            with get_session() as session:
+                existing_conversation = (
+                    session.query(UserConversation)
+                    .filter_by(id=conversation_id)
+                    .first()
+                )
+                if not existing_conversation:
+                    # Check if topic summary should be generated (default: True)
+                    should_generate = query_request.generate_topic_summary
+                    if should_generate:
+                        logger.debug("Generating topic summary for new conversation")
+                        topic_summary = await get_topic_summary(
+                            query_request.query, client, model_id
+                        )
+                    else:
+                        logger.debug(
+                            "Topic summary generation disabled by request parameter"
+                        )
+                        topic_summary = None
+
+            completed_at = datetime.now(UTC).strftime("%Y-%m-%dT%H:%M:%SZ")
 
     # Enforce RBAC: optionally disallow overriding model/provider in requests
     validate_model_provider_override(query_request, request.state.authorized_actions)
diff --git a/src/models/requests.py b/src/models/requests.py
@@ -81,6 +81,7 @@ class QueryRequest(BaseModel):
         system_prompt: The optional system prompt.
         attachments: The optional attachments.
         no_tools: Whether to bypass all tools and MCP servers (default: False).
+        generate_topic_summary: Whether to generate topic summary for new conversations.
         media_type: The optional media type for response format (application/json or text/plain).
 
     Example:
@@ -146,6 +147,12 @@ class QueryRequest(BaseModel):
         examples=[True, False],
     )
 
+    generate_topic_summary: Optional[bool] = Field(
+        True,
+        description="Whether to generate topic summary for new conversations",
+        examples=[True, False],
+    )
+
     media_type: Optional[str] = Field(
         None,
         description="Media type for the response format",
@@ -164,6 +171,7 @@ class QueryRequest(BaseModel):
                     "model": "model-name",
                     "system_prompt": "You are a helpful assistant",
                     "no_tools": False,
+                    "generate_topic_summary": True,
                     "attachments": [
                         {
                             "attachment_type": "log",
diff --git a/src/utils/endpoints.py b/src/utils/endpoints.py
@@ -671,11 +671,17 @@ async def cleanup_after_streaming(
             session.query(UserConversation).filter_by(id=conversation_id).first()
         )
         if not existing_conversation:
-            topic_summary = await get_topic_summary_func(
-                query_request.query,
-                client,
-                llama_stack_model_id,
-            )
+            # Check if topic summary should be generated (default: True)
+            should_generate = query_request.generate_topic_summary
+
+            if should_generate:
+                logger.debug("Generating topic summary for new conversation")
+                topic_summary = await get_topic_summary_func(
+                    query_request.query, client, llama_stack_model_id
+                )
+            else:
+                logger.debug("Topic summary generation disabled by request parameter")
+                topic_summary = None
 
     completed_at = datetime.now(UTC).strftime("%Y-%m-%dT%H:%M:%SZ")
 
diff --git a/tests/unit/app/endpoints/test_query.py b/tests/unit/app/endpoints/test_query.py
@@ -2265,6 +2265,7 @@ async def test_get_topic_summary_create_turn_parameters(mocker: MockerFixture) -
 
 
 @pytest.mark.asyncio
+<<<<<<< HEAD
 async def test_query_endpoint_quota_exceeded(
     mocker: MockerFixture, dummy_request: Request
 ) -> None:
@@ -2305,3 +2306,99 @@ async def test_query_endpoint_quota_exceeded(
     assert isinstance(detail, dict)
     assert detail["response"] == "Model quota exceeded"  # type: ignore
     assert "gpt-4-turbo" in detail["cause"]  # type: ignore
+=======
+async def test_query_endpoint_generate_topic_summary_default_true(
+    mocker: MockerFixture, dummy_request: Request
+) -> None:
+    """Test that topic summary is generated by default for new conversations."""
+    mock_client = mocker.AsyncMock()
+    mock_lsc = mocker.patch("client.AsyncLlamaStackClientHolder.get_client")
+    mock_lsc.return_value = mock_client
+    mock_client.models.list.return_value = [
+        mocker.Mock(identifier="model1", model_type="llm", provider_id="provider1"),
+    ]
+
+    mock_config = mocker.Mock()
+    mock_config.quota_limiters = []
+    mocker.patch("app.endpoints.query.configuration", mock_config)
+
+    summary = TurnSummary(llm_response="Test response", tool_calls=[])
+    mocker.patch(
+        "app.endpoints.query.retrieve_response",
+        return_value=(
+            summary,
+            "00000000-0000-0000-0000-000000000000",
+            [],
+            TokenCounter(),
+        ),
+    )
+
+    mocker.patch(
+        "app.endpoints.query.select_model_and_provider_id",
+        return_value=("test_model", "test_model", "test_provider"),
+    )
+    mocker.patch("app.endpoints.query.is_transcripts_enabled", return_value=False)
+
+    mock_get_topic_summary = mocker.patch(
+        "app.endpoints.query.get_topic_summary", return_value="Generated topic"
+    )
+    mock_database_operations(mocker)
+
+    await query_endpoint_handler(
+        request=dummy_request,
+        query_request=QueryRequest(query="test query"),
+        auth=("user123", "username", False, "auth_token_123"),
+        mcp_headers={},
+    )
+
+    mock_get_topic_summary.assert_called_once()
+
+
+@pytest.mark.asyncio
+async def test_query_endpoint_generate_topic_summary_explicit_false(
+    mocker: MockerFixture, dummy_request: Request
+) -> None:
+    """Test that topic summary is NOT generated when explicitly set to False."""
+    mock_client = mocker.AsyncMock()
+    mock_lsc = mocker.patch("client.AsyncLlamaStackClientHolder.get_client")
+    mock_lsc.return_value = mock_client
+    mock_client.models.list.return_value = [
+        mocker.Mock(identifier="model1", model_type="llm", provider_id="provider1"),
+    ]
+
+    mock_config = mocker.Mock()
+    mock_config.quota_limiters = []
+    mocker.patch("app.endpoints.query.configuration", mock_config)
+
+    summary = TurnSummary(llm_response="Test response", tool_calls=[])
+    mocker.patch(
+        "app.endpoints.query.retrieve_response",
+        return_value=(
+            summary,
+            "00000000-0000-0000-0000-000000000000",
+            [],
+            TokenCounter(),
+        ),
+    )
+
+    mocker.patch(
+        "app.endpoints.query.select_model_and_provider_id",
+        return_value=("test_model", "test_model", "test_provider"),
+    )
+    mocker.patch("app.endpoints.query.is_transcripts_enabled", return_value=False)
+
+    mock_get_topic_summary = mocker.patch(
+        "app.endpoints.query.get_topic_summary", return_value="Generated topic"
+    )
+
+    mock_database_operations(mocker)
+
+    await query_endpoint_handler(
+        request=dummy_request,
+        query_request=QueryRequest(query="test query", generate_topic_summary=False),
+        auth=("user123", "username", False, "auth_token_123"),
+        mcp_headers={},
+    )
+
+    mock_get_topic_summary.assert_not_called()
+>>>>>>> 81b4b90 (added unit tests for the extra logic)
diff --git a/tests/unit/models/requests/test_query_request.py b/tests/unit/models/requests/test_query_request.py
@@ -154,3 +154,15 @@ def test_validate_media_type(self, mocker: MockerFixture) -> None:
 
         # Media type is now fully supported, no warning expected
         mock_logger.warning.assert_not_called()
+
+    def test_generate_topic_summary_explicit_false(self) -> None:
+        """Test that generate_topic_summary can be explicitly set to False."""
+        qr = QueryRequest(
+            query="Tell me about Kubernetes", generate_topic_summary=False
+        )
+        assert qr.generate_topic_summary is False
+
+    def test_generate_topic_summary_explicit_true(self) -> None:
+        """Test that generate_topic_summary can be explicitly set to True."""
+        qr = QueryRequest(query="Tell me about Kubernetes", generate_topic_summary=True)
+        assert qr.generate_topic_summary is True
diff --git a/tests/unit/utils/test_endpoints.py b/tests/unit/utils/test_endpoints.py