fix(openai): Extract cached and reasoning tokens in Completions token usage

ericapisani · claude · ericapisani · commit d8677247094a · 2026-04-01T14:50:08.000+02:00
The refactor that split _calculate_token_usage into separate Completions
and Responses functions dropped extraction of prompt_tokens_details.cached_tokens
and completion_tokens_details.reasoning_tokens from the Completions path.
This restores those fields so spans for cached prompts and reasoning models
(e.g. o1/o3) report complete token usage metrics.

Also fixes streaming usage priority: streaming_message_token_usage now
correctly takes precedence over response.usage via elif.

Co-Authored-By: Claude Opus 4.6 (1M context) &lt;noreply@anthropic.com&gt;
diff --git a/sentry_sdk/integrations/openai.py b/sentry_sdk/integrations/openai.py
@@ -158,23 +158,34 @@ def _calculate_completions_token_usage(
 ) -> None:
     """Extract and record token usage from a Chat Completions API response."""
     input_tokens: "Optional[int]" = 0
+    input_tokens_cached: "Optional[int]" = 0
     output_tokens: "Optional[int]" = 0
+    output_tokens_reasoning: "Optional[int]" = 0
     total_tokens: "Optional[int]" = 0
     usage = None
 
     if streaming_message_token_usage:
         usage = streaming_message_token_usage
-
-    if hasattr(response, "usage"):
+    elif hasattr(response, "usage"):
         usage = response.usage
 
     if usage is not None:
         if hasattr(usage, "prompt_tokens") and isinstance(usage.prompt_tokens, int):
             input_tokens = usage.prompt_tokens
+        if hasattr(usage, "prompt_tokens_details"):
+            cached = getattr(usage.prompt_tokens_details, "cached_tokens", None)
+            if isinstance(cached, int):
+                input_tokens_cached = cached
         if hasattr(usage, "completion_tokens") and isinstance(
             usage.completion_tokens, int
         ):
             output_tokens = usage.completion_tokens
+        if hasattr(usage, "completion_tokens_details"):
+            reasoning = getattr(
+                usage.completion_tokens_details, "reasoning_tokens", None
+            )
+            if isinstance(reasoning, int):
+                output_tokens_reasoning = reasoning
         if hasattr(usage, "total_tokens") and isinstance(usage.total_tokens, int):
             total_tokens = usage.total_tokens
 
@@ -204,13 +215,17 @@ def _calculate_completions_token_usage(
 
     # Do not set token data if it is 0
     input_tokens = input_tokens or None
+    input_tokens_cached = input_tokens_cached or None
     output_tokens = output_tokens or None
+    output_tokens_reasoning = output_tokens_reasoning or None
     total_tokens = total_tokens or None
 
     record_token_usage(
         span,
         input_tokens=input_tokens,
+        input_tokens_cached=input_tokens_cached,
         output_tokens=output_tokens,
+        output_tokens_reasoning=output_tokens_reasoning,
         total_tokens=total_tokens,
     )
 
diff --git a/tests/integrations/openai/test_openai.py b/tests/integrations/openai/test_openai.py
@@ -1970,7 +1970,47 @@ def count_tokens(msg):
         mock_record_token_usage.assert_called_once_with(
             span,
             input_tokens=20,
+            input_tokens_cached=None,
+            output_tokens=10,
+            output_tokens_reasoning=None,
+            total_tokens=30,
+        )
+
+
+def test_completions_token_usage_with_detailed_fields():
+    """Cached and reasoning token counts are extracted from prompt_tokens_details and completion_tokens_details."""
+    span = mock.MagicMock()
+
+    def count_tokens(msg):
+        return len(str(msg))
+
+    response = mock.MagicMock()
+    response.usage = mock.MagicMock()
+    response.usage.prompt_tokens = 20
+    response.usage.prompt_tokens_details = mock.MagicMock()
+    response.usage.prompt_tokens_details.cached_tokens = 5
+    response.usage.completion_tokens = 10
+    response.usage.completion_tokens_details = mock.MagicMock()
+    response.usage.completion_tokens_details.reasoning_tokens = 8
+    response.usage.total_tokens = 30
+
+    with mock.patch(
+        "sentry_sdk.integrations.openai.record_token_usage"
+    ) as mock_record_token_usage:
+        _calculate_completions_token_usage(
+            messages=[],
+            response=response,
+            span=span,
+            streaming_message_responses=[],
+            streaming_message_token_usage=None,
+            count_tokens=count_tokens,
+        )
+        mock_record_token_usage.assert_called_once_with(
+            span,
+            input_tokens=20,
+            input_tokens_cached=5,
             output_tokens=10,
+            output_tokens_reasoning=8,
             total_tokens=30,
         )
 
@@ -2007,7 +2047,9 @@ def count_tokens(msg):
         mock_record_token_usage.assert_called_once_with(
             span,
             input_tokens=11,
+            input_tokens_cached=None,
             output_tokens=10,
+            output_tokens_reasoning=None,
             total_tokens=10,
         )
 
@@ -2044,7 +2086,9 @@ def count_tokens(msg):
         mock_record_token_usage.assert_called_once_with(
             span,
             input_tokens=20,
+            input_tokens_cached=None,
             output_tokens=11,
+            output_tokens_reasoning=None,
             total_tokens=20,
         )
 
@@ -2082,7 +2126,9 @@ def count_tokens(msg):
         mock_record_token_usage.assert_called_once_with(
             span,
             input_tokens=20,
+            input_tokens_cached=None,
             output_tokens=None,
+            output_tokens_reasoning=None,
             total_tokens=20,
         )
 
@@ -2112,7 +2158,9 @@ def count_tokens(msg):
         mock_record_token_usage.assert_called_once_with(
             span,
             input_tokens=None,
+            input_tokens_cached=None,
             output_tokens=None,
+            output_tokens_reasoning=None,
             total_tokens=None,
         )