feat: support BaseLlm instances as judge_model in evaluation

yuvrajangadsingh · yuvrajangadsingh · commit e1a28b0b7abf · 2026-04-02T19:45:45.000+05:30
Allow JudgeModelOptions.judge_model to accept Union[str, BaseLlm] instead of only str. This enables custom/self-hosted models (e.g. LiteLlm with custom base_url) to be used as judge models for evaluation without requiring LLMRegistry registration. Follows the same pattern used by LlmAgent.model which already accepts Union[str, BaseLlm]. Fixes #3400
diff --git a/src/google/adk/evaluation/eval_metrics.py b/src/google/adk/evaluation/eval_metrics.py
@@ -28,6 +28,8 @@
 from pydantic.json_schema import SkipJsonSchema
 from typing_extensions import TypeAlias
 
+from google.adk.models.base_llm import BaseLlm
+
 from .common import EvalBaseModel
 from .eval_case import Invocation
 from .eval_rubrics import Rubric
@@ -75,10 +77,11 @@ class PrebuiltMetrics(Enum):
 class JudgeModelOptions(EvalBaseModel):
   """Options for an eval metric's judge model."""
 
-  judge_model: str = Field(
+  judge_model: Union[str, BaseLlm] = Field(
       default="gemini-2.5-flash",
       description=(
-          "The judge model to use for evaluation. It can be a model name."
+          "The judge model to use for evaluation. It can be a model name"
+          " string or a BaseLlm instance for custom/self-hosted models."
       ),
   )
 
diff --git a/src/google/adk/evaluation/hallucinations_v1.py b/src/google/adk/evaluation/hallucinations_v1.py
@@ -294,17 +294,20 @@ def __init__(self, eval_metric: EvalMetric):
     self._judge_model = self._setup_auto_rater()
     self.segmenter_prompt = _HALLUCINATIONS_V1_SEGMENTER_PROMPT
     self.sentence_validator_prompt = _HALLUCINATIONS_V1_VALIDATOR_PROMPT
-    self._model = self._judge_model_options.judge_model
+    judge_model = self._judge_model_options.judge_model
+    self._model = judge_model.model if isinstance(judge_model, BaseLlm) else judge_model
     self._model_config = (
         self._judge_model_options.judge_model_config
         or genai_types.GenerateContentConfig()
     )
 
   def _setup_auto_rater(self) -> BaseLlm:
-    model_id = self._judge_model_options.judge_model
+    judge_model = self._judge_model_options.judge_model
+    if isinstance(judge_model, BaseLlm):
+      return judge_model
     llm_registry = LLMRegistry()
-    llm_class = llm_registry.resolve(model_id)
-    return llm_class(model=model_id)
+    llm_class = llm_registry.resolve(judge_model)
+    return llm_class(model=judge_model)
 
   def _create_context_for_step(
       self,
diff --git a/src/google/adk/evaluation/llm_as_judge.py b/src/google/adk/evaluation/llm_as_judge.py
@@ -136,8 +136,10 @@ async def evaluate_invocations(
     per_invocation_results = []
     for actual, expected in zip(actual_invocations, expected_invocations):
       auto_rater_prompt = self.format_auto_rater_prompt(actual, expected)
+      judge_model = self._judge_model_options.judge_model
+      model_str = judge_model.model if isinstance(judge_model, BaseLlm) else judge_model
       llm_request = LlmRequest(
-          model=self._judge_model_options.judge_model,
+          model=model_str,
           contents=[
               genai_types.Content(
                   parts=[genai_types.Part(text=auto_rater_prompt)],
@@ -181,7 +183,9 @@ async def evaluate_invocations(
     return EvaluationResult()
 
   def _setup_auto_rater(self) -> BaseLlm:
-    model_id = self._judge_model_options.judge_model
+    judge_model = self._judge_model_options.judge_model
+    if isinstance(judge_model, BaseLlm):
+      return judge_model
     llm_registry = LLMRegistry()
-    llm_class = llm_registry.resolve(model_id)
-    return llm_class(model=model_id)
+    llm_class = llm_registry.resolve(judge_model)
+    return llm_class(model=judge_model)
diff --git a/src/google/adk/evaluation/simulation/llm_backed_user_simulator.py b/src/google/adk/evaluation/simulation/llm_backed_user_simulator.py
@@ -24,6 +24,7 @@
 from typing_extensions import override
 
 from ...events.event import Event
+from ...models.base_llm import BaseLlm
 from ...models.llm_request import LlmRequest
 from ...models.registry import LLMRegistry
 from ...utils.context_utils import Aclosing
@@ -124,9 +125,12 @@ def __init__(
     super().__init__(config, config_type=LlmBackedUserSimulator.config_type)
     self._conversation_scenario = conversation_scenario
     self._invocation_count = 0
-    llm_registry = LLMRegistry()
-    llm_class = llm_registry.resolve(self._config.model)
-    self._llm = llm_class(model=self._config.model)
+    if isinstance(self._config.model, BaseLlm):
+      self._llm = self._config.model
+    else:
+      llm_registry = LLMRegistry()
+      llm_class = llm_registry.resolve(self._config.model)
+      self._llm = llm_class(model=self._config.model)
     self._user_persona = self._conversation_scenario.user_persona
 
   @classmethod
diff --git a/src/google/adk/evaluation/simulation/per_turn_user_simulator_quality_v1.py b/src/google/adk/evaluation/simulation/per_turn_user_simulator_quality_v1.py
@@ -198,10 +198,12 @@ async def evaluate_invocations(
     return self._aggregate_conversation_results(results)
 
   def _setup_llm(self) -> BaseLlm:
-    model_id = self._llm_options.judge_model
+    judge_model = self._llm_options.judge_model
+    if isinstance(judge_model, BaseLlm):
+      return judge_model
     llm_registry = LLMRegistry()
-    llm_class = llm_registry.resolve(model_id)
-    return llm_class(model=model_id)
+    llm_class = llm_registry.resolve(judge_model)
+    return llm_class(model=judge_model)
 
   def _format_llm_prompt(
       self,