fix(evaluation): handle None inferences in LocalEvalService

Goutham-Annem · Goutham-Annem · commit 21eb92a6d36c · 2026-06-24T12:39:51.000-07:00
When inference fails (e.g. MCP session drop, timeout, API error), _evaluate_single_inference_result() calls len(inference_result.inferences) without a None guard, causing TypeError. Return EvalStatus.NOT_EVALUATED early when inferences is None. Closes #6071
diff --git a/src/google/adk/evaluation/local_eval_service.py b/src/google/adk/evaluation/local_eval_service.py
@@ -278,26 +278,37 @@ async def _evaluate_single_inference_result(
     )
 
     if inference_result.inferences is None:
-      session_details = None
-      if inference_result.session_id is not None:
-        session_details = await self._session_service.get_session(
-            app_name=inference_result.app_name,
-            user_id=user_id,
-            session_id=inference_result.session_id,
-        )
-      return (
-          inference_result,
-          EvalCaseResult(
-              eval_set_file=inference_result.eval_set_id,
-              eval_set_id=inference_result.eval_set_id,
-              eval_id=inference_result.eval_case_id,
-              final_eval_status=EvalStatus.FAILED,
-              overall_eval_metric_results=[],
-              eval_metric_result_per_invocation=[],
-              session_id=inference_result.session_id or '',
-              session_details=session_details,
+      if inference_result.status == InferenceStatus.FAILURE:
+        session_details = None
+        if inference_result.session_id is not None:
+          session_details = await self._session_service.get_session(
+              app_name=inference_result.app_name,
               user_id=user_id,
-          ),
+              session_id=inference_result.session_id,
+          )
+        return (
+            inference_result,
+            EvalCaseResult(
+                eval_set_file=inference_result.eval_set_id,
+                eval_set_id=inference_result.eval_set_id,
+                eval_id=inference_result.eval_case_id,
+                final_eval_status=EvalStatus.FAILED,
+                overall_eval_metric_results=[],
+                eval_metric_result_per_invocation=[],
+                session_id=inference_result.session_id or '',
+                session_details=session_details,
+                user_id=user_id,
+            ),
+        )
+
+      return inference_result, EvalCaseResult(
+          eval_set_file=inference_result.eval_set_id,
+          eval_set_id=inference_result.eval_set_id,
+          eval_id=inference_result.eval_case_id,
+          final_eval_status=EvalStatus.NOT_EVALUATED,
+          overall_eval_metric_results=[],
+          eval_metric_result_per_invocation=[],
+          session_id=inference_result.session_id or "",
       )
 
     if eval_case.conversation_scenario is None and len(
diff --git a/tests/unittests/evaluation/test_local_eval_service.py b/tests/unittests/evaluation/test_local_eval_service.py
@@ -497,6 +497,37 @@ async def test_evaluate_single_inference_result_failed_without_inferences(
   assert result.eval_metric_result_per_invocation == []
 
 
+@pytest.mark.asyncio
+async def test_evaluate_single_inference_result_inferences_none(
+    eval_service, mock_eval_sets_manager, mocker
+):
+  inference_result = InferenceResult(
+      app_name="test_app",
+      eval_set_id="test_eval_set",
+      eval_case_id="case1",
+      inferences=None,
+      session_id="session1",
+  )
+  eval_metric = EvalMetric(metric_name="fake_metric", threshold=0.5)
+  evaluate_config = EvaluateConfig(eval_metrics=[eval_metric], parallelism=1)
+
+  mock_eval_case = mocker.MagicMock(spec=EvalCase)
+  mock_eval_case.conversation = []
+  mock_eval_case.conversation_scenario = None
+  mock_eval_case.session_input = None
+  mock_eval_sets_manager.get_eval_case.return_value = mock_eval_case
+
+  _, result = await eval_service._evaluate_single_inference_result(
+      inference_result=inference_result, evaluate_config=evaluate_config
+  )
+
+  assert isinstance(result, EvalCaseResult)
+  assert result.eval_id == "case1"
+  assert result.final_eval_status == EvalStatus.NOT_EVALUATED
+  assert result.overall_eval_metric_results == []
+  assert result.eval_metric_result_per_invocation == []
+
+
 @pytest.mark.asyncio
 async def test_evaluate_single_inference_result_for_conversation_scenario(
     eval_service, mock_eval_sets_manager, mocker