Merge pull request lightspeed-core#163 from asamal4/missing-metric-metadata

asamal4 · web-flow · commit b6ab879889b7 · 2026-02-16T19:24:27.000+05:30
[LEADS-230] fix: missing metric_metadata value in csv
diff --git a/config/system.yaml b/config/system.yaml
@@ -188,10 +188,10 @@ output:
     - "conversation_group_id"
     - "turn_id"
     - "metric_identifier"
+    - "metric_metadata"
     - "result"
     - "score"
     - "threshold"
-    - "metric_metadata"
     - "reason"
     - "execution_time"
     - "query"
diff --git a/src/lightspeed_evaluation/core/constants.py b/src/lightspeed_evaluation/core/constants.py
@@ -82,10 +82,10 @@
     "tag",
     "turn_id",
     "metric_identifier",
+    "metric_metadata",
     "result",
     "score",
     "threshold",
-    "metric_metadata",
     "reason",
     "query",
     "response",
diff --git a/src/lightspeed_evaluation/core/models/data.py b/src/lightspeed_evaluation/core/models/data.py
@@ -470,6 +470,10 @@ class EvaluationResult(MetricResult, StreamingMetricsMixin):
         min_length=1,
         description="Metric identifier (e.g., 'ragas:response_relevancy')",
     )
+    metric_metadata: Optional[str] = Field(
+        default=None,
+        description="Metric metadata for evaluation (JSON, excludes identifier and threshold)",
+    )
     query: str = Field(default="", description="Query text")
     response: str = Field(default="", description="Response text")
     execution_time: float = Field(
@@ -499,10 +503,6 @@ class EvaluationResult(MetricResult, StreamingMetricsMixin):
     expected_tool_calls: Optional[str] = Field(
         default=None, description="Expected tool calls formatted as string"
     )
-    metrics_metadata: Optional[str] = Field(
-        default=None,
-        description="Additional metric metadata (JSON-encoded key-value pairs)",
-    )
 
 
 class EvaluationScope(BaseModel):
diff --git a/src/lightspeed_evaluation/pipeline/evaluation/evaluator.py b/src/lightspeed_evaluation/pipeline/evaluation/evaluator.py
@@ -142,6 +142,7 @@ def evaluate_metric(  # pylint: disable=too-many-locals
                 tag=request.conv_data.tag,
                 turn_id=request.turn_id,
                 metric_identifier=request.metric_identifier,
+                metric_metadata=self._extract_metadata_for_csv(request),
                 query=turn_data.query if turn_data else "",
                 response=turn_data.response or "" if turn_data else "",
                 execution_time=execution_time,
@@ -169,7 +170,6 @@ def evaluate_metric(  # pylint: disable=too-many-locals
                 expected_tool_calls=(
                     _to_json_str(turn_data.expected_tool_calls) if turn_data else None
                 ),
-                metrics_metadata=self._extract_metadata_for_csv(request),
             )
 
         except EvaluationError as e:
@@ -495,6 +495,7 @@ def _create_error_result(
             tag=request.conv_data.tag,
             turn_id=request.turn_id,
             metric_identifier=request.metric_identifier,
+            metric_metadata=self._extract_metadata_for_csv(request),
             result="ERROR",
             score=None,
             threshold=None,
@@ -508,7 +509,6 @@ def _create_error_result(
             time_to_first_token=turn_data.time_to_first_token if turn_data else None,
             streaming_duration=turn_data.streaming_duration if turn_data else None,
             tokens_per_second=turn_data.tokens_per_second if turn_data else None,
-            metrics_metadata=self._extract_metadata_for_csv(request),
         )
 
     def _determine_status(self, score: float, threshold: Optional[float]) -> str:
diff --git a/tests/unit/core/output/test_generator.py b/tests/unit/core/output/test_generator.py
@@ -344,20 +344,20 @@ def test_generate_csv_with_specific_results(
         self, tmp_path: Path, mocker: MockerFixture
     ) -> None:
         """Test CSV report generation with specific results."""
+        metric_metadata = '{"max_ngram": 4}'
         results = [
             EvaluationResult(
                 conversation_group_id="test_conv",
                 turn_id="turn1",
-                metric_identifier="test:metric",
+                metric_identifier="nlp:bleu",
+                metric_metadata=metric_metadata,
                 result="PASS",
                 score=0.8,
                 threshold=0.7,
-                reason="Good performance",
+                reason="Score is 0.8",
                 query="What is OpenShift?",
                 response="OpenShift is a container platform.",
                 execution_time=1.5,
-                contexts='["OpenShift context"]',
-                expected_keywords='[["OpenShift", "container"]]',
             ),
             EvaluationResult(
                 conversation_group_id="test_conv",
@@ -404,8 +404,7 @@ def test_generate_csv_with_specific_results(
         assert rows[0]["result"] == "PASS"
         assert rows[0]["query"] == "What is OpenShift?"
         assert rows[0]["response"] == "OpenShift is a container platform."
-        assert rows[0]["contexts"] == '["OpenShift context"]'
-        assert rows[0]["expected_keywords"] == '[["OpenShift", "container"]]'
+        assert rows[0]["metric_metadata"] == metric_metadata
 
         assert rows[1]["result"] == "FAIL"
         assert rows[1]["expected_response"] == "Use oc apply -f deployment.yaml"