lightspeed-core
diff --git a/‎src/app/endpoints/query.py‎
Lines changed: 2 additions & 3 deletions b/‎src/app/endpoints/query.py‎
Lines changed: 2 additions & 3 deletions
diff --git a/‎src/app/endpoints/streaming_query.py‎
Lines changed: 212 additions & 0 deletions b/‎src/app/endpoints/streaming_query.py‎
Lines changed: 212 additions & 0 deletions
diff --git a/‎src/app/routers.py‎
Lines changed: 11 additions & 1 deletion b/‎src/app/routers.py‎
Lines changed: 11 additions & 1 deletion
diff --git a/‎src/client.py‎
Lines changed: 27 additions & 2 deletions b/‎src/client.py‎
Lines changed: 27 additions & 2 deletions
diff --git a/‎tests/unit/app/endpoints/test_query.py‎
Lines changed: 4 additions & 4 deletions b/‎tests/unit/app/endpoints/test_query.py‎
Lines changed: 4 additions & 4 deletions
@@ -65,7 +65,7 @@ def query_endpoint_handler(
     llama_stack_config = configuration.llama_stack_configuration
     logger.info("LLama stack config: %s", llama_stack_config)
     client = get_llama_stack_client(llama_stack_config)
-    model_id = select_model_id(client, query_request)
+    model_id = select_model_id(client.models.list(), query_request)
     conversation_id = retrieve_conversation_id(query_request)
     response = retrieve_response(client, model_id, query_request, auth)
 
@@ -87,9 +87,8 @@ def query_endpoint_handler(
     return QueryResponse(conversation_id=conversation_id, response=response)
 
 
-def select_model_id(client: LlamaStackClient, query_request: QueryRequest) -> str:
+def select_model_id(models: ModelListResponse, query_request: QueryRequest) -> str:
     """Select the model ID based on the request or available models."""
-    models: ModelListResponse = client.models.list()
     model_id = query_request.model
     provider_id = query_request.provider
 
 
@@ -0,0 +1,212 @@
+"""Handler for REST API call to provide answer to streaming query."""
+
+import json
+import logging
+from typing import Any, AsyncIterator
+
+from llama_stack_client.lib.agents.agent import AsyncAgent  # type: ignore
+from llama_stack_client import AsyncLlamaStackClient  # type: ignore
+from llama_stack_client.types import UserMessage  # type: ignore
+
+from fastapi import APIRouter, Request, Depends
+from fastapi.responses import StreamingResponse
+
+from client import get_async_llama_stack_client
+from configuration import configuration
+from models.requests import QueryRequest
+import constants
+from utils.auth import auth_dependency
+from utils.common import retrieve_user_id
+
+
+from app.endpoints.query import (
+    is_transcripts_enabled,
+    retrieve_conversation_id,
+    store_transcript,
+    select_model_id,
+    validate_attachments_metadata,
+)
+
+logger = logging.getLogger("app.endpoints.handlers")
+router = APIRouter(tags=["streaming_query"])
+
+
+def format_stream_data(d: dict) -> str:
+    """Format outbound data in the Event Stream Format."""
+    data = json.dumps(d)
+    return f"data: {data}\n\n"
+
+
+def stream_start_event(conversation_id: str) -> str:
+    """Yield the start of the data stream.
+
+    Args:
+        conversation_id: The conversation ID (UUID).
+    """
+    return format_stream_data(
+        {
+            "event": "start",
+            "data": {
+                "conversation_id": conversation_id,
+            },
+        }
+    )
+
+
+def stream_end_event() -> str:
+    """Yield the end of the data stream."""
+    return format_stream_data(
+        {
+            "event": "end",
+            "data": {
+                "referenced_documents": [],  # TODO(jboos): implement referenced documents
+                "truncated": None,  # TODO(jboos): implement truncated
+                "input_tokens": 0,  # TODO(jboos): implement input tokens
+                "output_tokens": 0,  # TODO(jboos): implement output tokens
+            },
+            "available_quotas": {},  # TODO(jboos): implement available quotas
+        }
+    )
+
+
+def stream_build_event(chunk: Any, chunk_id: int) -> str | None:
+    """Build a streaming event from a chunk response.
+
+    This function processes chunks from the LLama Stack streaming response and formats
+    them into Server-Sent Events (SSE) format for the client. It handles two main
+    event types:
+
+    1. step_progress: Contains text deltas from the model inference process
+    2. step_complete: Contains information about completed tool execution steps
+
+    Args:
+        chunk: The streaming chunk from LLama Stack containing event data
+        chunk_id: The current chunk ID counter (gets incremented for each token)
+
+    Returns:
+        str | None: A formatted SSE data string with event information, or None if
+                   the chunk doesn't contain processable event data
+    """
+    if hasattr(chunk.event, "payload"):
+        if chunk.event.payload.event_type == "step_progress":
+            if hasattr(chunk.event.payload.delta, "text"):
+                text = chunk.event.payload.delta.text
+                return format_stream_data(
+                    {
+                        "event": "token",
+                        "data": {
+                            "id": chunk_id,
+                            "role": chunk.event.payload.step_type,
+                            "token": text,
+                        },
+                    }
+                )
+        if chunk.event.payload.event_type == "step_complete":
+            if chunk.event.payload.step_details.step_type == "tool_execution":
+                if chunk.event.payload.step_details.tool_calls:
+                    tool_name = str(
+                        chunk.event.payload.step_details.tool_calls[0].tool_name
+                    )
+                    return format_stream_data(
+                        {
+                            "event": "token",
+                            "data": {
+                                "id": chunk_id,
+                                "role": chunk.event.payload.step_type,
+                                "token": tool_name,
+                            },
+                        }
+                    )
+    return None
+
+
+@router.post("/streaming_query")
+async def streaming_query_endpoint_handler(
+    _request: Request,
+    query_request: QueryRequest,
+    auth: Any = Depends(auth_dependency),
+) -> StreamingResponse:
+    """Handle request to the /streaming_query endpoint."""
+    llama_stack_config = configuration.llama_stack_configuration
+    logger.info("LLama stack config: %s", llama_stack_config)
+    client = await get_async_llama_stack_client(llama_stack_config)
+    model_id = select_model_id(await client.models.list(), query_request)
+    conversation_id = retrieve_conversation_id(query_request)
+    response = await retrieve_response(client, model_id, query_request)
+
+    async def response_generator(turn_response: Any) -> AsyncIterator[str]:
+        """Generate SSE formatted streaming response."""
+        chunk_id = 0
+        complete_response = ""
+
+        # Send start event
+        yield stream_start_event(conversation_id)
+
+        async for chunk in turn_response:
+            if event := stream_build_event(chunk, chunk_id):
+                complete_response += json.loads(event.replace("data: ", ""))["data"][
+                    "token"
+                ]
+                chunk_id += 1
+                yield event
+
+        yield stream_end_event()
+
+        if not is_transcripts_enabled():
+            logger.debug("Transcript collection is disabled in the configuration")
+        else:
+            store_transcript(
+                user_id=retrieve_user_id(auth),
+                conversation_id=conversation_id,
+                query_is_valid=True,  # TODO(lucasagomes): implement as part of query validation
+                query=query_request.query,
+                query_request=query_request,
+                response=complete_response,
+                rag_chunks=[],  # TODO(lucasagomes): implement rag_chunks
+                truncated=False,  # TODO(lucasagomes): implement truncation as part of quota work
+                attachments=query_request.attachments or [],
+            )
+
+    return StreamingResponse(response_generator(response))
+
+
+async def retrieve_response(
+    client: AsyncLlamaStackClient, model_id: str, query_request: QueryRequest
+) -> Any:
+    """Retrieve response from LLMs and agents."""
+    available_shields = [shield.identifier for shield in await client.shields.list()]
+    if not available_shields:
+        logger.info("No available shields. Disabling safety")
+    else:
+        logger.info("Available shields found: %s", available_shields)
+
+    # use system prompt from request or default one
+    system_prompt = (
+        query_request.system_prompt
+        if query_request.system_prompt
+        else constants.DEFAULT_SYSTEM_PROMPT
+    )
+    logger.debug("Using system prompt: %s", system_prompt)
+
+    # TODO(lucasagomes): redact attachments content before sending to LLM
+    # if attachments are provided, validate them
+    if query_request.attachments:
+        validate_attachments_metadata(query_request.attachments)
+
+    agent = AsyncAgent(
+        client,  # type: ignore[arg-type]
+        model=model_id,
+        instructions=system_prompt,
+        input_shields=available_shields if available_shields else [],
+        tools=[],
+    )
+    session_id = await agent.create_session("chat_session")
+    logger.debug("Session ID: %s", session_id)
+    response = await agent.create_turn(
+        messages=[UserMessage(role="user", content=query_request.query)],
+        session_id=session_id,
+        documents=query_request.get_documents(),
+        stream=True,
+    )
+
+    return response
@@ -2,7 +2,16 @@
 
 from fastapi import FastAPI
 
-from app.endpoints import info, models, root, query, health, config, feedback
+from app.endpoints import (
+    info,
+    models,
+    root,
+    query,
+    health,
+    config,
+    feedback,
+    streaming_query,
+)
 
 
 def include_routers(app: FastAPI) -> None:
@@ -18,3 +27,4 @@ def include_routers(app: FastAPI) -> None:
     app.include_router(health.router, prefix="/v1")
     app.include_router(config.router, prefix="/v1")
     app.include_router(feedback.router, prefix="/v1")
+    app.include_router(streaming_query.router, prefix="/v1")
@@ -2,8 +2,11 @@
 
 import logging
 
-from llama_stack.distribution.library_client import LlamaStackAsLibraryClient  # type: ignore
-from llama_stack_client import LlamaStackClient  # type: ignore
+from llama_stack.distribution.library_client import (
+    AsyncLlamaStackAsLibraryClient,  # type: ignore
+    LlamaStackAsLibraryClient,  # type: ignore
+)
+from llama_stack_client import AsyncLlamaStackClient, LlamaStackClient  # type: ignore
 from models.config import LLamaStackConfiguration
 
 logger = logging.getLogger(__name__)
@@ -29,3 +32,25 @@ def get_llama_stack_client(
     return LlamaStackClient(
         base_url=llama_stack_config.url, api_key=llama_stack_config.api_key
     )
+
+
+async def get_async_llama_stack_client(
+    llama_stack_config: LLamaStackConfiguration,
+) -> AsyncLlamaStackClient:
+    """Retrieve Async Llama stack client according to configuration."""
+    if llama_stack_config.use_as_library_client is True:
+        if llama_stack_config.library_client_config_path is not None:
+            logger.info("Using Llama stack as library client")
+            client = AsyncLlamaStackAsLibraryClient(
+                llama_stack_config.library_client_config_path
+            )
+            await client.initialize()
+            return client
+        msg = "Configuration problem: library_client_config_path option is not set"
+        logger.error(msg)
+        # tisnik: use custom exception there - with cause etc.
+        raise Exception(msg)  # pylint: disable=broad-exception-raised
+    logger.info("Using Llama stack running as a service")
+    return AsyncLlamaStackClient(
+        base_url=llama_stack_config.url, api_key=llama_stack_config.api_key
+    )
@@ -158,7 +158,7 @@ def test_select_model_id(mocker):
         query="What is OpenStack?", model="model1", provider="provider1"
     )
 
-    model_id = select_model_id(mock_client, query_request)
+    model_id = select_model_id(mock_client.models.list(), query_request)
 
     assert model_id == "model1"
 
@@ -180,7 +180,7 @@ def test_select_model_id_no_model(mocker):
 
     query_request = QueryRequest(query="What is OpenStack?")
 
-    model_id = select_model_id(mock_client, query_request)
+    model_id = select_model_id(mock_client.models.list(), query_request)
 
     # Assert return the first available LLM model
     assert model_id == "first_model"
@@ -198,7 +198,7 @@ def test_select_model_id_invalid_model(mocker):
     )
 
     with pytest.raises(Exception) as exc_info:
-        select_model_id(mock_client, query_request)
+        select_model_id(mock_client.models.list(), query_request)
 
     assert (
         "Model invalid_model from provider provider1 not found in available models"
@@ -215,7 +215,7 @@ def test_no_available_models(mocker):
     query_request = QueryRequest(query="What is OpenStack?", model=None, provider=None)
 
     with pytest.raises(Exception) as exc_info:
-        select_model_id(mock_client, query_request)
+        select_model_id(mock_client.models.list(), query_request)
 
     assert "No LLM model found in available models" in str(exc_info.value)