Fix TaskNavigationEfficiencyEvaluator threshold defaulting to 3.0 for binary metric (#46542)

Copilot · m7md7sien · Copilot · web-flow · commit ffd4b61a500b · 2026-04-27T17:09:40.000Z
* Initial plan * Fix TaskNavigationEfficiencyEvaluator threshold: use 1.0 instead of default 3.0 Agent-Logs-Url: https://github.com/Azure/azure-sdk-for-python/sessions/e376f26a-4cd6-44a9-b271-81eb2b6e86d9 Co-authored-by: m7md7sien <16615690+m7md7sien@users.noreply.github.com> * Update sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_task_navigation_efficiency/_task_navigation_efficiency.py Co-authored-by: Copilot <175728472+Copilot@users.noreply.github.com> * Use self._threshold in return dict and add result/threshold test assertions Agent-Logs-Url: https://github.com/Azure/azure-sdk-for-python/sessions/28756174-3e26-4ea2-849c-9d5c0a28d6c3 Co-authored-by: m7md7sien <16615690+m7md7sien@users.noreply.github.com> --------- Co-authored-by: copilot-swe-agent[bot] <198982749+Copilot@users.noreply.github.com> Co-authored-by: m7md7sien <16615690+m7md7sien@users.noreply.github.com> Co-authored-by: Mohamed Hessien <mohessie@microsoft.com> Co-authored-by: Copilot <175728472+Copilot@users.noreply.github.com>
diff --git a/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_task_navigation_efficiency/_task_navigation_efficiency.py b/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_task_navigation_efficiency/_task_navigation_efficiency.py
@@ -137,7 +137,7 @@ def __init__(
             error_target=ErrorTarget.TASK_NAVIGATION_EFFICIENCY_EVALUATOR
         )
 
-        super().__init__()
+        super().__init__(threshold=1.0)
 
     @override
     async def _real_call(self, **kwargs):
@@ -345,7 +345,7 @@ async def _do_eval(self, eval_input: Dict) -> Dict[str, Union[float, str, Dict[s
                 "task_navigation_efficiency_passed": match_result,
                 "task_navigation_efficiency_reason": None,
                 "task_navigation_efficiency_status": "completed",
-                "task_navigation_efficiency_threshold": None,
+                "task_navigation_efficiency_threshold": float(self._threshold),
                 "task_navigation_efficiency_properties": additional_properties_metrics,
             }
         else:
diff --git a/sdk/evaluation/azure-ai-evaluation/tests/unittests/test_task_navigation_efficiency_evaluators.py b/sdk/evaluation/azure-ai-evaluation/tests/unittests/test_task_navigation_efficiency_evaluators.py
@@ -30,6 +30,8 @@ def test_exact_match_scenario(self):
 
         result = evaluator(response=response, ground_truth=ground_truth)
         assert result["task_navigation_efficiency_passed"] is True
+        assert result["task_navigation_efficiency_result"] == "pass"
+        assert result["task_navigation_efficiency_threshold"] == 1.0
         assert "task_navigation_efficiency_properties" in result
         assert result["task_navigation_efficiency_properties"]["precision_score"] == 1.0
         assert result["task_navigation_efficiency_properties"]["recall_score"] == 1.0