LCORE-1137: store info about consumed tokens into token usage history

tisnik · tisnik · commit ab476867b516 · 2026-01-05T10:41:50.000+01:00
diff --git a/src/app/endpoints/query.py b/src/app/endpoints/query.py
@@ -387,9 +387,12 @@ async def query_endpoint_handler_base(  # pylint: disable=R0914
 
         consume_tokens(
             configuration.quota_limiters,
+            configuration.token_usage_history,
             user_id,
             input_tokens=token_usage.input_tokens,
             output_tokens=token_usage.output_tokens,
+            model_id=model_id,
+            provider_id=provider_id,
         )
 
         store_conversation_into_cache(
diff --git a/src/app/endpoints/streaming_query_v2.py b/src/app/endpoints/streaming_query_v2.py
@@ -275,9 +275,12 @@ async def response_generator(  # pylint: disable=too-many-branches,too-many-stat
         )
         consume_tokens(
             configuration.quota_limiters,
+            configuration.token_usage_history,
             context.user_id,
             input_tokens=token_usage.input_tokens,
             output_tokens=token_usage.output_tokens,
+            model_id=context.model_id,
+            provider_id=context.provider_id,
         )
         referenced_documents = parse_referenced_documents_from_responses_api(
             cast(OpenAIResponseObject, latest_response_object)
diff --git a/src/utils/quota.py b/src/utils/quota.py
@@ -1,21 +1,27 @@
 """Quota handling helper functions."""
 
+from typing import Optional
+
 import psycopg2
 from fastapi import HTTPException
 
 from log import get_logger
 from models.responses import InternalServerErrorResponse, QuotaExceededResponse
 from quota.quota_exceed_error import QuotaExceedError
 from quota.quota_limiter import QuotaLimiter
+from quota.token_usage_history import TokenUsageHistory
 
 logger = get_logger(__name__)
 
 
 def consume_tokens(
     quota_limiters: list[QuotaLimiter],
+    token_usage_history: Optional[TokenUsageHistory],
     user_id: str,
     input_tokens: int,
     output_tokens: int,
+    model_id: str,
+    provider_id: str,
 ) -> None:
     """Consume tokens from cluster and/or user quotas.
 
@@ -24,10 +30,21 @@ def consume_tokens(
         user_id: Identifier of the user consuming tokens.
         input_tokens: Number of input tokens to consume.
         output_tokens: Number of output tokens to consume.
+        model_id: Model identification
+        provider_id: Provider identification
 
     Returns:
         None
     """
+    # record token usage history
+    if token_usage_history is not None:
+        token_usage_history.consume_tokens(
+            user_id=user_id,
+            provider=provider_id,
+            model=model_id,
+            input_tokens=input_tokens,
+            output_tokens=output_tokens,
+        )
     # consume tokens all configured quota limiters
     for quota_limiter in quota_limiters:
         quota_limiter.consume_tokens(

Original file line number	Diff line number	Diff line change
`@@ -275,9 +275,12 @@ async def response_generator( # pylint: disable=too-many-branches,too-many-stat`
`275`	`275`	`)`
`276`	`276`	`consume_tokens(`
`277`	`277`	`configuration.quota_limiters,`
	`278`	`+ configuration.token_usage_history,`
`278`	`279`	`context.user_id,`
`279`	`280`	`input_tokens=token_usage.input_tokens,`
`280`	`281`	`output_tokens=token_usage.output_tokens,`
	`282`	`+ model_id=context.model_id,`
	`283`	`+ provider_id=context.provider_id,`
`281`	`284`	`)`
`282`	`285`	`referenced_documents = parse_referenced_documents_from_responses_api(`
`283`	`286`	`cast(OpenAIResponseObject, latest_response_object)`