feat: add cache token extraction and dashscope embeddings improvements

123liuziming · 123liuziming · commit 406429865b5a · 2026-06-22T14:56:46.000+08:00
- dashscope: add _extract_cache_tokens() for cache_creation/cache_read tokens
- dashscope: set server_address/port on embedding invocations
- dashscope: update test to use text-embedding-v4 model
- hermes-agent: extract cache tokens from usage.prompt_tokens_details
- vita: extract cache tokens from OpenAI-compatible usage format

These changes enable gen_ai.usage.cache_creation.input_tokens and
gen_ai.usage.cache_read.input_tokens attributes for LLM plugins that
interact with providers supporting prompt caching (e.g. Anthropic,
OpenAI with cached prompts, DashScope with context caching).

Change-Id: I6f0c4035561b43eb5e8ed132257a6438b2a323f1
Co-developed-by: Qoder &lt;noreply@qoder.com&gt;
diff --git a/instrumentation-loongsuite/loongsuite-instrumentation-dashscope/src/opentelemetry/instrumentation/dashscope/patch/embedding.py b/instrumentation-loongsuite/loongsuite-instrumentation-dashscope/src/opentelemetry/instrumentation/dashscope/patch/embedding.py
@@ -52,6 +52,8 @@ def wrap_text_embedding_call(wrapped, instance, args, kwargs, handler=None):
         # Create embedding invocation object
         invocation = EmbeddingInvocation(request_model=model)
         invocation.provider = "dashscope"
+        invocation.server_address = "dashscope.aliyuncs.com"
+        invocation.server_port = 443
 
         # Extract parameters from kwargs or kwargs["parameters"] dict
         parameters = kwargs.get("parameters", {})
diff --git a/instrumentation-loongsuite/loongsuite-instrumentation-dashscope/src/opentelemetry/instrumentation/dashscope/utils/common.py b/instrumentation-loongsuite/loongsuite-instrumentation-dashscope/src/opentelemetry/instrumentation/dashscope/utils/common.py
@@ -88,6 +88,47 @@ def _extract_usage(response: Any) -> tuple[Optional[int], Optional[int]]:
         return None, None
 
 
+def _extract_cache_tokens(response: Any) -> tuple[Optional[int], Optional[int]]:
+    """Extract cache token usage from DashScope response.
+
+    Args:
+        response: DashScope response object
+
+    Returns:
+        Tuple of (cache_creation_input_tokens, cache_read_input_tokens)
+    """
+    if not response:
+        return None, None
+
+    try:
+        usage = getattr(response, "usage", None)
+        if not usage:
+            return None, None
+
+        # DashScope may report cache tokens in various fields
+        cache_creation = (
+            getattr(usage, "cache_creation_input_tokens", None)
+            or getattr(usage, "cache_creation_tokens", None)
+        )
+        cache_read = (
+            getattr(usage, "cache_read_input_tokens", None)
+            or getattr(usage, "cache_read_tokens", None)
+            or getattr(usage, "prompt_cache_hit_tokens", None)
+        )
+
+        # Also check prompt_tokens_details (OpenAI-compatible format)
+        prompt_details = getattr(usage, "prompt_tokens_details", None)
+        if prompt_details and cache_read is None:
+            cache_read = getattr(prompt_details, "cached_tokens", None)
+
+        return (
+            cache_creation if cache_creation and cache_creation > 0 else None,
+            cache_read if cache_read and cache_read > 0 else None,
+        )
+    except (KeyError, AttributeError):
+        return None, None
+
+
 def _extract_task_id(task: Any) -> Optional[str]:
     """Extract task_id from task parameter (can be str or Response object).
 
diff --git a/instrumentation-loongsuite/loongsuite-instrumentation-dashscope/src/opentelemetry/instrumentation/dashscope/utils/generation.py b/instrumentation-loongsuite/loongsuite-instrumentation-dashscope/src/opentelemetry/instrumentation/dashscope/utils/generation.py
@@ -570,6 +570,14 @@ def _update_invocation_from_response(
         invocation.input_tokens = input_tokens
         invocation.output_tokens = output_tokens
 
+        # Extract cache token usage
+        from ..utils.common import _extract_cache_tokens
+        cache_creation, cache_read = _extract_cache_tokens(response)
+        if cache_creation is not None:
+            invocation.usage_cache_creation_input_tokens = cache_creation
+        if cache_read is not None:
+            invocation.usage_cache_read_input_tokens = cache_read
+
         # Extract response model name (if available)
         response_model = _safe_get(response, "model")
         if response_model:
diff --git a/instrumentation-loongsuite/loongsuite-instrumentation-dashscope/tests/test_embedding.py b/instrumentation-loongsuite/loongsuite-instrumentation-dashscope/tests/test_embedding.py
@@ -141,7 +141,7 @@ def test_text_embedding_basic(instrument, span_exporter):
     """Test basic text embedding call."""
 
     response = TextEmbedding.call(
-        model="text-embedding-v1", input="Hello, world!"
+        model="text-embedding-v4", input="Hello, world!"
     )
 
     assert response is not None
@@ -165,7 +165,7 @@ def test_text_embedding_basic(instrument, span_exporter):
     # Assert all span attributes
     _assert_embedding_span_attributes(
         span,
-        request_model="text-embedding-v1",
+        request_model="text-embedding-v4",
         response=response,
         input_tokens=input_tokens,
     )
@@ -178,7 +178,7 @@ def test_text_embedding_batch(instrument, span_exporter):
     """Test text embedding with batch input."""
 
     response = TextEmbedding.call(
-        model="text-embedding-v1", input=["Hello", "World"]
+        model="text-embedding-v4", input=["Hello", "World"]
     )
 
     assert response is not None
@@ -202,7 +202,7 @@ def test_text_embedding_batch(instrument, span_exporter):
     # Assert all span attributes
     _assert_embedding_span_attributes(
         span,
-        request_model="text-embedding-v1",
+        request_model="text-embedding-v4",
         response=response,
         input_tokens=input_tokens,
     )
@@ -215,7 +215,7 @@ def test_text_embedding_with_text_type(instrument, span_exporter):
     """Test text embedding with text_type parameter."""
 
     response = TextEmbedding.call(
-        model="text-embedding-v1",
+        model="text-embedding-v4",
         input="What is machine learning?",
         text_type="query",
     )
@@ -241,7 +241,7 @@ def test_text_embedding_with_text_type(instrument, span_exporter):
     # Assert all span attributes
     _assert_embedding_span_attributes(
         span,
-        request_model="text-embedding-v1",
+        request_model="text-embedding-v4",
         response=response,
         input_tokens=input_tokens,
     )
@@ -254,7 +254,7 @@ def test_text_embedding_with_dimension(instrument, span_exporter):
     """Test text embedding with dimension parameter."""
 
     response = TextEmbedding.call(
-        model="text-embedding-v1",
+        model="text-embedding-v4",
         input="What is machine learning?",
         dimension=512,
     )
@@ -280,7 +280,7 @@ def test_text_embedding_with_dimension(instrument, span_exporter):
     # Assert all span attributes including dimension_count
     _assert_embedding_span_attributes(
         span,
-        request_model="text-embedding-v1",
+        request_model="text-embedding-v4",
         response=response,
         input_tokens=input_tokens,
         dimension_count=512,  # Should be captured from request
diff --git a/instrumentation-loongsuite/loongsuite-instrumentation-hermes-agent/src/opentelemetry/instrumentation/hermes_agent/helpers.py b/instrumentation-loongsuite/loongsuite-instrumentation-hermes-agent/src/opentelemetry/instrumentation/hermes_agent/helpers.py
@@ -693,6 +693,26 @@ def update_llm_invocation_from_response(
     if output_tokens > 0:
         invocation.output_tokens = output_tokens
 
+    # Extract cache token usage
+    usage = getattr(response, "usage", None)
+    if usage is not None:
+        # OpenAI-compatible: prompt_tokens_details.cached_tokens
+        prompt_details = getattr(usage, "prompt_tokens_details", None)
+        if prompt_details is not None:
+            cached = getattr(prompt_details, "cached_tokens", None)
+            if cached and cached > 0:
+                invocation.usage_cache_read_input_tokens = cached
+        # Direct fields (some providers)
+        cache_creation = (
+            getattr(usage, "cache_creation_input_tokens", None)
+            or getattr(usage, "cache_creation_tokens", None)
+        )
+        if cache_creation and cache_creation > 0:
+            invocation.usage_cache_creation_input_tokens = cache_creation
+        cache_read = getattr(usage, "cache_read_input_tokens", None)
+        if cache_read and cache_read > 0 and not invocation.usage_cache_read_input_tokens:
+            invocation.usage_cache_read_input_tokens = cache_read
+
     return input_tokens, output_tokens, total_tokens
 
 
diff --git a/instrumentation-loongsuite/loongsuite-instrumentation-vita/src/opentelemetry/instrumentation/vita/patch.py b/instrumentation-loongsuite/loongsuite-instrumentation-vita/src/opentelemetry/instrumentation/vita/patch.py
@@ -346,6 +346,15 @@ def wrap_generate_next_message(
             if usage and isinstance(usage, dict):
                 invocation.input_tokens = usage.get("prompt_tokens")
                 invocation.output_tokens = usage.get("completion_tokens")
+                # Cache tokens
+                prompt_details = usage.get("prompt_tokens_details")
+                if isinstance(prompt_details, dict):
+                    cached = prompt_details.get("cached_tokens")
+                    if cached and cached > 0:
+                        invocation.usage_cache_read_input_tokens = cached
+                cache_creation = usage.get("cache_creation_input_tokens")
+                if cache_creation and cache_creation > 0:
+                    invocation.usage_cache_creation_input_tokens = cache_creation
 
             handler.stop_invoke_agent(invocation)
             return result
@@ -415,6 +424,15 @@ def wrap_generate(
             if usage and isinstance(usage, dict):
                 invocation.input_tokens = usage.get("prompt_tokens")
                 invocation.output_tokens = usage.get("completion_tokens")
+                # Cache tokens (OpenAI-compatible format)
+                prompt_details = usage.get("prompt_tokens_details")
+                if isinstance(prompt_details, dict):
+                    cached = prompt_details.get("cached_tokens")
+                    if cached and cached > 0:
+                        invocation.usage_cache_read_input_tokens = cached
+                cache_creation = usage.get("cache_creation_input_tokens")
+                if cache_creation and cache_creation > 0:
+                    invocation.usage_cache_creation_input_tokens = cache_creation
 
         handler.stop_llm(invocation)
         return result