update the schemas for scorer

namrataghadi-galileo · namrataghadi-galileo · commit 523524d07fb9 · 2026-05-13T17:37:14.000-07:00
diff --git a/evaluators/contrib/galileo/src/agent_control_evaluator_galileo/luna/__init__.py b/evaluators/contrib/galileo/src/agent_control_evaluator_galileo/luna/__init__.py
@@ -2,6 +2,7 @@
 
 from agent_control_evaluator_galileo.luna.client import (
     GalileoLunaClient,
+    ScorerInvokeInputs,
     ScorerInvokeRequest,
     ScorerInvokeResponse,
 )
@@ -10,6 +11,7 @@
 
 __all__ = [
     "GalileoLunaClient",
+    "ScorerInvokeInputs",
     "ScorerInvokeRequest",
     "ScorerInvokeResponse",
     "LunaEvaluatorConfig",
diff --git a/evaluators/contrib/galileo/src/agent_control_evaluator_galileo/luna/client.py b/evaluators/contrib/galileo/src/agent_control_evaluator_galileo/luna/client.py
@@ -9,7 +9,6 @@
 from hmac import new as hmac_new
 from json import dumps
 from time import time
-from typing import Literal
 from uuid import UUID
 
 import httpx
@@ -66,32 +65,38 @@ def _as_float_or_none(value: JSONValue) -> float | None:
     return None
 
 
-RootType = Literal["session", "trace", "span"]
+def _has_value(value: JSONValue) -> bool:
+    return value is not None and value != ""
+
+
+class ScorerInvokeInputs(BaseModel):
+    """Input values sent to Galileo's scorer invoke API."""
+
+    query: JSONValue = ""
+    response: JSONValue = ""
+    ground_truth: JSONValue = None
+    tools: JSONValue = None
 
 
 class ScorerInvokeRequest(BaseModel):
     """Request payload for Galileo Luna scorer invocation.
 
     Attributes:
-        root_type: Runtime step shape used by Galileo scorer input normalization.
-        input: Optional user/system prompt text.
-        output: Optional model response text.
+        inputs: Selected scorer input values.
         scorer_label: Preset, registered, or fine-tuned scorer label.
         project_id: Optional Galileo project UUID for project-scoped scorer resolution.
         config: Optional scorer-specific configuration.
     """
 
-    root_type: RootType = Field(default="span")
-    input: JSONValue = None
-    output: JSONValue = None
     scorer_label: str = Field(min_length=1)
+    inputs: ScorerInvokeInputs
     project_id: str | UUID | None = None
     config: JSONObject | None = None
 
     @model_validator(mode="after")
     def ensure_input_or_output(self) -> ScorerInvokeRequest:
-        if self.input is None and self.output is None:
-            raise ValueError("Either input or output must be set.")
+        if not (_has_value(self.inputs.query) or _has_value(self.inputs.response)):
+            raise ValueError("Either inputs.query or inputs.response must be set.")
         return self
 
     def to_dict(self) -> JSONObject:
@@ -234,7 +239,6 @@ async def invoke(
         scorer_label: str,
         input: JSONValue = None,
         output: JSONValue = None,
-        root_type: RootType = "span",
         project_id: str | UUID | None = None,
         config: JSONObject | None = None,
         timeout: float = DEFAULT_TIMEOUT_SECS,
@@ -246,7 +250,6 @@ async def invoke(
             scorer_label: Preset, registered, or fine-tuned scorer label.
             input: Optional user/system prompt text.
             output: Optional model response text.
-            root_type: Runtime step shape used by Galileo scorer input normalization.
             project_id: Optional Galileo project UUID for project-scoped scorer resolution.
             config: Optional scorer-specific configuration.
             timeout: Request timeout in seconds.
@@ -266,9 +269,9 @@ async def invoke(
 
         request_body = ScorerInvokeRequest(
             scorer_label=scorer_label,
-            input=input,
-            output=output,
-            root_type=root_type,
+            inputs=ScorerInvokeInputs(
+                query="" if input is None else input, response="" if output is None else output
+            ),
             project_id=project_id,
             config=config,
         ).to_dict()
diff --git a/evaluators/contrib/galileo/tests/test_luna_evaluator.py b/evaluators/contrib/galileo/tests/test_luna_evaluator.py
@@ -52,34 +52,38 @@ def test_numeric_operator_requires_numeric_threshold(self) -> None:
 class TestGalileoLunaClient:
     """Tests for the GalileoLunaClient HTTP contract."""
 
-    def test_scorer_invoke_request_matches_orbit_schema_shape(self) -> None:
-        from agent_control_evaluator_galileo.luna import ScorerInvokeRequest
+    def test_scorer_invoke_request_matches_api_schema_shape(self) -> None:
+        from agent_control_evaluator_galileo.luna import ScorerInvokeInputs, ScorerInvokeRequest
 
         # Given: a scorer request with project context and scorer config
         request = ScorerInvokeRequest(
             scorer_label="toxicity",
-            input={"messages": [{"role": "user", "content": "hello"}]},
+            inputs=ScorerInvokeInputs(query={"messages": [{"role": "user", "content": "hello"}]}),
             project_id="12345678-1234-5678-1234-567812345678",
             config={"top_k": 1},
         )
 
-        # Then: the serialized payload uses the Orbit scorer invoke fields
+        # Then: the serialized payload uses the API-owned scorer invoke fields
         assert request.to_dict() == {
-            "root_type": "span",
-            "input": {"messages": [{"role": "user", "content": "hello"}]},
             "scorer_label": "toxicity",
+            "inputs": {
+                "query": {"messages": [{"role": "user", "content": "hello"}]},
+                "response": "",
+            },
             "project_id": "12345678-1234-5678-1234-567812345678",
             "config": {"top_k": 1},
         }
 
     def test_scorer_invoke_request_requires_input_or_output(self) -> None:
         from agent_control_evaluator_galileo.luna import ScorerInvokeRequest
 
-        # Given/When/Then: the request mirrors Orbit validation
-        with pytest.raises(ValidationError, match="Either input or output must be set"):
-            ScorerInvokeRequest(scorer_label="toxicity")
+        # Given/When/Then: the request mirrors API validation
+        with pytest.raises(
+            ValidationError, match="Either inputs.query or inputs.response must be set"
+        ):
+            ScorerInvokeRequest(scorer_label="toxicity", inputs={})
 
-    def test_scorer_invoke_response_matches_orbit_schema_shape(self) -> None:
+    def test_scorer_invoke_response_matches_api_schema_shape(self) -> None:
         from agent_control_evaluator_galileo.luna import ScorerInvokeResponse
 
         # Given: an API scorer invoke response
@@ -93,7 +97,7 @@ def test_scorer_invoke_response_matches_orbit_schema_shape(self) -> None:
             }
         )
 
-        # Then: the model exposes the Orbit/API response fields
+        # Then: the model exposes the API response fields
         assert response.model_dump() == {
             "scorer_label": "toxicity",
             "score": 0.82,
@@ -187,11 +191,9 @@ def handler(request: httpx.Request) -> httpx.Response:
         assert response.score == 0.82
         assert captured["url"] == "https://api.demo-v2.galileocloud.io/scorers/invoke"
         assert captured["body"] == {
-            "input": "user prompt",
-            "output": "model answer",
             "scorer_label": "toxicity",
+            "inputs": {"query": "user prompt", "response": "model answer"},
             "project_id": "12345678-1234-5678-1234-567812345678",
-            "root_type": "span",
             "config": {"top_k": 1},
         }
         assert "stage_name" not in captured["body"]
@@ -237,12 +239,13 @@ def handler(request: httpx.Request) -> httpx.Response:
 
         # Then: the internal scorer endpoint is called with a project-bound JWT
         assert response.score == 0.82
-        assert captured["url"] == "https://api.default.svc.cluster.local:8088/internal/scorers/invoke"
+        assert (
+            captured["url"] == "https://api.default.svc.cluster.local:8088/internal/scorers/invoke"
+        )
         assert captured["body"] == {
-            "output": "model answer",
             "scorer_label": "toxicity",
+            "inputs": {"query": "", "response": "model answer"},
             "project_id": "12345678-1234-5678-1234-567812345678",
-            "root_type": "span",
         }
         headers = captured["headers"]
         assert isinstance(headers, dict)
diff --git a/sdks/python/src/agent_control/evaluators/__init__.py b/sdks/python/src/agent_control/evaluators/__init__.py
@@ -44,19 +44,23 @@
         LunaEvaluator,
         LunaEvaluatorConfig,
         LunaOperator,
+        ScorerInvokeInputs,
         ScorerInvokeRequest,
         ScorerInvokeResponse,
     )
 
-    __all__.extend([
-        "GalileoLunaClient",
-        "ScorerInvokeRequest",
-        "ScorerInvokeResponse",
-        "LunaEvaluator",
-        "LunaEvaluatorConfig",
-        "LunaOperator",
-        "LUNA_AVAILABLE",
-    ])
+    __all__.extend(
+        [
+            "GalileoLunaClient",
+            "ScorerInvokeInputs",
+            "ScorerInvokeRequest",
+            "ScorerInvokeResponse",
+            "LunaEvaluator",
+            "LunaEvaluatorConfig",
+            "LunaOperator",
+            "LUNA_AVAILABLE",
+        ]
+    )
 except ImportError:
     pass
 
@@ -69,12 +73,14 @@
         Luna2Operator,
     )
 
-    __all__.extend([
-        "Luna2Evaluator",
-        "Luna2EvaluatorConfig",
-        "Luna2Metric",
-        "Luna2Operator",
-        "LUNA2_AVAILABLE",
-    ])
+    __all__.extend(
+        [
+            "Luna2Evaluator",
+            "Luna2EvaluatorConfig",
+            "Luna2Metric",
+            "Luna2Operator",
+            "LUNA2_AVAILABLE",
+        ]
+    )
 except ImportError:
     pass