rename not_applicable to pass in _return_not_applicable_result and update tests

Copilot · m7md7sien · web-flow · commit 4592663c0dcb · 2026-04-23T19:58:27.000Z
Agent-Logs-Url: https://github.com/Azure/azure-sdk-for-python/sessions/e94d600e-75a6-4b62-92cf-420fb1597e29 Co-authored-by: m7md7sien <16615690+m7md7sien@users.noreply.github.com>
diff --git a/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_common/_base_prompty_eval.py b/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_common/_base_prompty_eval.py
@@ -439,7 +439,6 @@ def _not_applicable_result(
 
         return result
 
-    # TODO: After all evaluators output are updated, we can remove the _not_applicable_result method and replace calls to it with _return_not_applicable_result, which returns a "skipped" status instead of "pass" to avoid confusion.
     def _return_not_applicable_result(
         self, error_message: str, threshold: Union[int, float]
     ) -> Dict[str, Union[str, float, Dict, None]]:
@@ -455,7 +454,7 @@ def _return_not_applicable_result(
         return {
             f"{self._result_key}": None,
             f"{self._result_key}_score": None,
-            f"{self._result_key}_result": "not_applicable",
+            f"{self._result_key}_result": "pass",
             f"{self._result_key}_passed": None,
             f"{self._result_key}_reason": f"Not applicable: {error_message}",
             f"{self._result_key}_status": "skipped",
diff --git a/sdk/evaluation/azure-ai-evaluation/tests/unittests/test_agent_evaluators.py b/sdk/evaluation/azure-ai-evaluation/tests/unittests/test_agent_evaluators.py
@@ -67,7 +67,7 @@ def test_tool_call_accuracy_evaluator_missing_inputs(self, mock_model_config):
             ],
         )
         assert result[f"{ToolCallAccuracyEvaluator._RESULT_KEY}_score"] is None
-        assert result[f"{ToolCallAccuracyEvaluator._RESULT_KEY}_result"] == "not_applicable"
+        assert result[f"{ToolCallAccuracyEvaluator._RESULT_KEY}_result"] == "pass"
         assert result[f"{ToolCallAccuracyEvaluator._RESULT_KEY}_status"] == "skipped"
         assert (
             "not applicable" in result[f"{ToolCallAccuracyEvaluator._RESULT_KEY}_reason"].lower()
diff --git a/sdk/evaluation/azure-ai-evaluation/tests/unittests/test_tool_call_accuracy_evaluator.py b/sdk/evaluation/azure-ai-evaluation/tests/unittests/test_tool_call_accuracy_evaluator.py
@@ -338,7 +338,7 @@ def test_evaluate_tools_some_missing_tool_definitions(self, mock_model_config):
         key = ToolCallAccuracyEvaluator._RESULT_KEY
         assert result is not None
         assert result[f"{key}_score"] is None
-        assert result[f"{key}_result"] == "not_applicable"
+        assert result[f"{key}_result"] == "pass"
         assert result[f"{key}_status"] == "skipped"
         assert result[f"{key}_threshold"] == ToolCallAccuracyEvaluator._DEFAULT_TOOL_CALL_ACCURACY_SCORE
         assert (

Original file line number	Diff line number	Diff line change
`@@ -67,7 +67,7 @@ def test_tool_call_accuracy_evaluator_missing_inputs(self, mock_model_config):`
`67`	`67`	`],`
`68`	`68`	`)`
`69`	`69`	`assert result[f"{ToolCallAccuracyEvaluator._RESULT_KEY}_score"] is None`
`70`		`- assert result[f"{ToolCallAccuracyEvaluator._RESULT_KEY}_result"] == "not_applicable"`
	`70`	`+ assert result[f"{ToolCallAccuracyEvaluator._RESULT_KEY}_result"] == "pass"`
`71`	`71`	`assert result[f"{ToolCallAccuracyEvaluator._RESULT_KEY}_status"] == "skipped"`
`72`	`72`	`assert (`
`73`	`73`	`"not applicable" in result[f"{ToolCallAccuracyEvaluator._RESULT_KEY}_reason"].lower()`