fix(eval): preserve custom eval metadata

he-yufeng · DeanChensj · copybara-github · commit 780b0ab1595c · 2026-06-16T17:52:46.000-07:00
Merge #5922 ﻿## Summary - allow evaluation models to preserve caller-provided metadata fields - add a regression test covering extra fields on `SessionInput` and `EvalCase` Fixes #5906 ## To verify - `PYTHONPATH=src python -m pytest tests/unittests/evaluation/test_eval_case.py -q` - `python -m pyink --check src/google/adk/evaluation/common.py tests/unittests/evaluation/test_eval_case.py` - `python -m ruff check src/google/adk/evaluation/common.py tests/unittests/evaluation/test_eval_case.py` - `git diff --check` Co-authored-by: Shangjie Chen <deanchen@google.com> COPYBARA_INTEGRATE_REVIEW=#5922 from he-yufeng:fix/eval-extra-metadata-fresh 12bfd3c PiperOrigin-RevId: 933397529
diff --git a/src/google/adk/evaluation/eval_case.py b/src/google/adk/evaluation/eval_case.py
@@ -19,6 +19,7 @@
 from typing import Union
 
 from google.genai import types as genai_types
+import pydantic
 from pydantic import Field
 from pydantic import model_validator
 from typing_extensions import TypeAlias
@@ -115,6 +116,8 @@ class Invocation(EvalBaseModel):
 class SessionInput(EvalBaseModel):
   """Values that help initialize a Session."""
 
+  model_config = pydantic.ConfigDict(extra="allow")
+
   app_name: str
   """The name of the app."""
 
@@ -132,6 +135,8 @@ class SessionInput(EvalBaseModel):
 class EvalCase(EvalBaseModel):
   """An eval case."""
 
+  model_config = pydantic.ConfigDict(extra="allow")
+
   eval_id: str
   """Unique identifier for the evaluation case."""
 
diff --git a/tests/unittests/evaluation/test_eval_case.py b/tests/unittests/evaluation/test_eval_case.py
@@ -22,10 +22,38 @@
 from google.adk.evaluation.eval_case import IntermediateData
 from google.adk.evaluation.eval_case import InvocationEvent
 from google.adk.evaluation.eval_case import InvocationEvents
+from google.adk.evaluation.eval_case import SessionInput
 from google.genai import types as genai_types
 import pytest
 
 
+def test_eval_models_preserve_extra_metadata():
+  session_input = SessionInput(
+      app_name='app',
+      user_id='user',
+      eval_group='retrieval',
+      source='nightly',
+  )
+
+  assert session_input.model_extra == {
+      'eval_group': 'retrieval',
+      'source': 'nightly',
+  }
+  assert session_input.model_dump()['eval_group'] == 'retrieval'
+
+  eval_case = EvalCase(
+      eval_id='case_1',
+      conversation=[],
+      session_input=session_input,
+      owner='platform',
+  )
+
+  assert eval_case.model_extra == {'owner': 'platform'}
+  dumped = eval_case.model_dump()
+  assert dumped['owner'] == 'platform'
+  assert dumped['session_input']['source'] == 'nightly'
+
+
 def test_get_all_tool_calls_with_none_input():
   """Tests that an empty list is returned when intermediate_data is None."""
   assert get_all_tool_calls(None) == []