InternLM
diff --git a/‎lmdeploy/serve/openai/api_server.py‎
Lines changed: 5 additions & 6 deletions b/‎lmdeploy/serve/openai/api_server.py‎
Lines changed: 5 additions & 6 deletions
diff --git a/‎lmdeploy/serve/openai/protocol.py‎
Lines changed: 9 additions & 9 deletions b/‎lmdeploy/serve/openai/protocol.py‎
Lines changed: 9 additions & 9 deletions
diff --git a/‎tests/test_lmdeploy/serve/openai/test_usage_info.py‎
Lines changed: 0 additions & 20 deletions b/‎tests/test_lmdeploy/serve/openai/test_usage_info.py‎
Lines changed: 0 additions & 20 deletions
diff --git a/‎tests/test_lmdeploy/test_prefix_cache_hit_tokens.py‎
Lines changed: 0 additions & 66 deletions b/‎tests/test_lmdeploy/test_prefix_cache_hit_tokens.py‎
Lines changed: 0 additions & 66 deletions
@@ -79,7 +79,6 @@
     TopLogprob,
     UpdateParamsRequest,
     UsageInfo,
-    build_usage_info,
 )
 from lmdeploy.serve.openai.responses import create_responses_router
 from lmdeploy.serve.openai.utils import maybe_filter_parallel_tool_calls
@@ -585,7 +584,7 @@ async def completion_stream_generator() -> AsyncGenerator[str, None]:
             if request.return_logprob:
                 output_token_logprobs = _create_output_token_logprobs(res.token_ids, res.logprobs)
             if res.finish_reason and include_usage:
-                final_usage = build_usage_info(
+                final_usage = UsageInfo.build(
                     prompt_tokens=res.input_token_len,
                     completion_tokens=res.generate_token_len,
                     cached_tokens=res.cached_tokens,
@@ -722,7 +721,7 @@ async def completion_stream_generator() -> AsyncGenerator[str, None]:
         cache_block_ids = cache_block_ids[0]
         remote_token_ids = [remote_token_ids[0][-1]]
 
-    usage = build_usage_info(
+    usage = UsageInfo.build(
         prompt_tokens=final_res.input_token_len,
         completion_tokens=final_res.generate_token_len,
         cached_tokens=final_res.cached_tokens,
@@ -916,7 +915,7 @@ async def completion_stream_generator() -> AsyncGenerator[str, None]:
                     response_json['remote_token_ids'] = res.token_ids
                 yield f'data: {json.dumps(response_json)}\n\n'
         if include_usage:
-            final_usage = build_usage_info(
+            final_usage = UsageInfo.build(
                 prompt_tokens=prompt_tokens_acc,
                 completion_tokens=completion_tokens_acc,
                 cached_tokens=cached_tokens_acc,
@@ -975,7 +974,7 @@ async def _inner_call(i, generator, session):
         cached_tokens_acc += final_res.cached_tokens
 
     await asyncio.gather(*[_inner_call(i, generators[i], sessions[i]) for i in range(len(generators))])
-    usage = build_usage_info(
+    usage = UsageInfo.build(
         prompt_tokens=prompt_tokens_acc,
         completion_tokens=completion_tokens_acc,
         cached_tokens=cached_tokens_acc,
@@ -1196,7 +1195,7 @@ async def pooling(request: PoolingRequest, raw_request: Request = None):
 
     batch_scores = await async_engine.async_get_reward_score(input_ids)
     prompt_tokens = sum(len(ids) for ids in input_ids)
-    usage = build_usage_info(prompt_tokens=prompt_tokens, completion_tokens=0, cached_tokens=0)
+    usage = UsageInfo.build(prompt_tokens=prompt_tokens, completion_tokens=0, cached_tokens=0)
 
     data = []
     for i, score in enumerate(batch_scores):
 
@@ -63,15 +63,15 @@ class UsageInfo(BaseModel):
     completion_tokens: int | None = 0
     prompt_tokens_details: PromptTokensDetails | None = None
 
-
-def build_usage_info(prompt_tokens: int, completion_tokens: int, cached_tokens: int = 0) -> UsageInfo:
-    """Build OpenAI-compatible usage with prefix-cache details."""
-    return UsageInfo(
-        prompt_tokens=prompt_tokens,
-        completion_tokens=completion_tokens,
-        total_tokens=prompt_tokens + completion_tokens,
-        prompt_tokens_details=PromptTokensDetails(cached_tokens=cached_tokens),
-    )
+    @classmethod
+    def build(cls, prompt_tokens: int, completion_tokens: int, cached_tokens: int = 0) -> 'UsageInfo':
+        """Build OpenAI-compatible usage with prefix-cache details."""
+        return cls(
+            prompt_tokens=prompt_tokens,
+            completion_tokens=completion_tokens,
+            total_tokens=prompt_tokens + completion_tokens,
+            prompt_tokens_details=PromptTokensDetails(cached_tokens=cached_tokens),
+        )
 
 
 class Function(BaseModel):