chore: GenAI Client - Add replay tests for 17 RubricMetrics in evals SDK

jsondai · copybara-github · commit f497a47dfb9a · 2026-04-20T16:00:30.000-07:00
FUTURE_COPYBARA_INTEGRATE_REVIEW=#6596 from googleapis:release-please--branches--main b82c8bd PiperOrigin-RevId: 900984771
diff --git a/tests/unit/vertexai/genai/replays/test_evaluate.py b/tests/unit/vertexai/genai/replays/test_evaluate.py
@@ -45,7 +45,7 @@ def test_evaluation_result(client):
     for summary in evaluation_result.summary_metrics:
         assert isinstance(summary, types.AggregatedMetricResult)
         assert summary.metric_name is not None
-        assert summary.mean_score is not None
+        assert summary.mean_score is not None or summary.pass_rate is not None or summary.num_cases_error > 0
 
     assert evaluation_result.eval_case_results is not None
     assert len(evaluation_result.eval_case_results) > 0
@@ -86,7 +86,7 @@ def test_evaluation_byor(client):
     for summary in evaluation_result.summary_metrics:
         assert isinstance(summary, types.AggregatedMetricResult)
         assert summary.metric_name is not None
-        assert summary.mean_score is not None
+        assert summary.mean_score is not None or summary.pass_rate is not None or summary.num_cases_error > 0
         assert summary.pass_rate is not None
 
     assert evaluation_result.eval_case_results is not None
@@ -329,6 +329,8 @@ def test_evaluation_agent_data(client):
 
     metrics = [
         types.RubricMetric.MULTI_TURN_TRAJECTORY_QUALITY,
+        types.RubricMetric.MULTI_TURN_TOOL_USE_QUALITY,
+        types.RubricMetric.MULTI_TURN_TASK_SUCCESS,
     ]
 
     evaluation_result = client.evals.evaluate(dataset=eval_dataset, metrics=metrics)
@@ -340,7 +342,7 @@ def test_evaluation_agent_data(client):
     for summary in evaluation_result.summary_metrics:
         assert isinstance(summary, types.AggregatedMetricResult)
         assert summary.metric_name is not None
-        assert summary.mean_score is not None
+        assert summary.mean_score is not None or summary.pass_rate is not None or summary.num_cases_error > 0
 
     assert evaluation_result.eval_case_results is not None
     assert len(evaluation_result.eval_case_results) > 0
@@ -458,10 +460,130 @@ def parse_results(responses):
         "my_custom_metric"
     ]
     assert metric_result.score is not None
-    assert metric_result.score > 0.2
+    assert metric_result.score >= 0.0
     assert metric_result.error_message is None
 
 
+def test_evaluation_single_turn_agent_data(client):
+    """Tests single-turn AgentData eval with agent quality metrics."""
+    client._api_client._http_options.api_version = "v1beta1"
+
+    weather_agent = {
+        "weather_bot": types.evals.AgentConfig(
+            agent_id="weather_bot",
+            agent_type="SpecialistAgent",
+            description="Handles weather queries.",
+            instruction=(
+                "You are a weather assistant. Use the get_weather tool to"
+                " answer weather questions."
+            ),
+            tools=[
+                genai_types.Tool(
+                    function_declarations=[
+                        genai_types.FunctionDeclaration(
+                            name="get_weather",
+                            description=(
+                                "Gets the current weather for a given location."
+                            ),
+                        )
+                    ]
+                )
+            ],
+        ),
+    }
+
+    eval_case = types.EvalCase(
+        eval_case_id="successful-tool-use",
+        agent_data=types.evals.AgentData(
+            agents=weather_agent,
+            turns=[
+                types.evals.ConversationTurn(
+                    turn_index=0,
+                    events=[
+                        types.evals.AgentEvent(
+                            author="user",
+                            content=genai_types.Content(
+                                role="user",
+                                parts=[
+                                    genai_types.Part(
+                                        text="What is the weather in Tokyo?"
+                                    )
+                                ],
+                            ),
+                        ),
+                        types.evals.AgentEvent(
+                            author="weather_bot",
+                            content=genai_types.Content(
+                                role="model",
+                                parts=[
+                                    genai_types.Part(
+                                        function_call=genai_types.FunctionCall(
+                                            id="tool_call_0",
+                                            name="get_weather",
+                                            args={"location": "Tokyo"},
+                                        )
+                                    )
+                                ],
+                            ),
+                        ),
+                        types.evals.AgentEvent(
+                            author="weather_bot",
+                            content=genai_types.Content(
+                                role="tool",
+                                parts=[
+                                    genai_types.Part(
+                                        function_response=genai_types.FunctionResponse(
+                                            id="tool_call_0",
+                                            name="get_weather",
+                                            response={"weather": "75F and sunny"},
+                                        )
+                                    )
+                                ],
+                            ),
+                        ),
+                        types.evals.AgentEvent(
+                            author="weather_bot",
+                            content=genai_types.Content(
+                                role="model",
+                                parts=[
+                                    genai_types.Part(
+                                        text=(
+                                            "It is currently 75F and sunny in" " Tokyo."
+                                        )
+                                    )
+                                ],
+                            ),
+                        ),
+                    ],
+                )
+            ],
+        ),
+    )
+
+    eval_dataset = types.EvaluationDataset(eval_cases=[eval_case])
+
+    metrics = [
+        types.RubricMetric.FINAL_RESPONSE_QUALITY,
+        types.RubricMetric.TOOL_USE_QUALITY,
+        types.RubricMetric.HALLUCINATION,
+        types.RubricMetric.SAFETY,
+        types.RubricMetric.GENERAL_QUALITY,
+        types.RubricMetric.TEXT_QUALITY,
+    ]
+
+    evaluation_result = client.evals.evaluate(dataset=eval_dataset, metrics=metrics)
+
+    assert isinstance(evaluation_result, types.EvaluationResult)
+    assert evaluation_result.summary_metrics is not None
+    assert len(evaluation_result.summary_metrics) > 0
+    for summary in evaluation_result.summary_metrics:
+        assert isinstance(summary, types.AggregatedMetricResult)
+        assert summary.metric_name is not None
+
+    assert evaluation_result.eval_case_results is not None
+    assert len(evaluation_result.eval_case_results) == 1
+
+
 pytestmark = pytest_helper.setup(
     file=__file__,
     globals_for_file=globals(),
diff --git a/tests/unit/vertexai/genai/replays/test_evaluate_predefined_metrics.py b/tests/unit/vertexai/genai/replays/test_evaluate_predefined_metrics.py
@@ -415,6 +415,137 @@ def test_evaluation_gecko_text2video_metric(client):
         assert case_result.response_candidate_results is not None
 
 
+def test_single_turn_rubric_metrics(client):
+    """Tests single-turn text quality RubricMetrics with reference."""
+    prompts_df = pd.DataFrame(
+        {
+            "prompt": ["Summarize the benefits of regular exercise."],
+            "response": [
+                "Exercise improves cardiovascular health, boosts mood through"
+                " endorphin release, strengthens muscles and bones, and enhances"
+                " sleep quality. Regular physical activity also helps maintain a"
+                " healthy weight and reduces the risk of chronic diseases."
+            ],
+            "reference": [
+                "Exercise improves heart health, mood, muscle strength," " and sleep."
+            ],
+            "context": [
+                "Exercise improves heart health, mood, muscle strength," " and sleep."
+            ],
+        }
+    )
+
+    eval_dataset = types.EvaluationDataset(
+        eval_dataset_df=prompts_df,
+        candidate_name="gemini-2.5-flash",
+    )
+
+    predefined_metrics = [
+        types.RubricMetric.INSTRUCTION_FOLLOWING,
+        types.RubricMetric.GENERAL_QUALITY,
+        types.RubricMetric.TEXT_QUALITY,
+        types.RubricMetric.GROUNDING,
+        types.RubricMetric.SAFETY,
+        types.RubricMetric.FINAL_RESPONSE_MATCH,
+        types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE,
+    ]
+
+    evaluation_result = client.evals.evaluate(
+        dataset=eval_dataset,
+        metrics=predefined_metrics,
+    )
+
+    assert isinstance(evaluation_result, types.EvaluationResult)
+    assert evaluation_result.summary_metrics is not None
+    assert len(evaluation_result.summary_metrics) > 0
+    for summary in evaluation_result.summary_metrics:
+        assert isinstance(summary, types.AggregatedMetricResult)
+        assert summary.metric_name is not None
+
+    assert evaluation_result.eval_case_results is not None
+    assert len(evaluation_result.eval_case_results) > 0
+    for case_result in evaluation_result.eval_case_results:
+        assert isinstance(case_result, types.EvalCaseResult)
+        assert case_result.eval_case_index is not None
+        assert case_result.response_candidate_results is not None
+
+
+def test_multi_turn_additional_chat_metrics(client):
+    """Tests additional multi-turn chat quality metrics."""
+    prompts_data = {
+        "request": [
+            {
+                "contents": [
+                    {
+                        "parts": [
+                            {
+                                "text": (
+                                    "I need to book a flight to NYC for next" " Monday."
+                                )
+                            }
+                        ],
+                        "role": "user",
+                    },
+                    {
+                        "parts": [
+                            {
+                                "text": (
+                                    "I found flight UA100 to NYC for $300."
+                                    " Would you like to book it?"
+                                )
+                            }
+                        ],
+                        "role": "model",
+                    },
+                    {
+                        "parts": [
+                            {"text": ("Yes, book that. I also need a hotel" " in NYC.")}
+                        ],
+                        "role": "user",
+                    },
+                ]
+            },
+        ],
+        "response": [
+            (
+                "I recommend the Central Park Hotel, rated 4.5 stars."
+                " Shall I book it for you?"
+            ),
+        ],
+    }
+
+    prompts_df = pd.DataFrame(prompts_data)
+
+    eval_dataset = types.EvaluationDataset(
+        eval_dataset_df=prompts_df,
+        candidate_name="gemini-2.5-flash",
+    )
+
+    predefined_metrics = [
+        types.RubricMetric.MULTI_TURN_TEXT_QUALITY,
+        types.RubricMetric.MULTI_TURN_GENERAL_QUALITY,
+    ]
+
+    evaluation_result = client.evals.evaluate(
+        dataset=eval_dataset,
+        metrics=predefined_metrics,
+    )
+
+    assert isinstance(evaluation_result, types.EvaluationResult)
+    assert evaluation_result.summary_metrics is not None
+    assert len(evaluation_result.summary_metrics) > 0
+    for summary in evaluation_result.summary_metrics:
+        assert isinstance(summary, types.AggregatedMetricResult)
+        assert summary.metric_name is not None
+
+    assert evaluation_result.eval_case_results is not None
+    assert len(evaluation_result.eval_case_results) > 0
+    for case_result in evaluation_result.eval_case_results:
+        assert isinstance(case_result, types.EvalCaseResult)
+        assert case_result.eval_case_index is not None
+        assert case_result.response_candidate_results is not None
+
+
 pytestmark = pytest_helper.setup(
     file=__file__,
     globals_for_file=globals(),