Update tests

m7md7sien · m7md7sien · commit d3c40926c8e9 · 2026-04-15T20:09:14.000+02:00
diff --git a/sdk/evaluation/azure-ai-evaluation/tests/unittests/test_tool_call_accuracy_evaluator.py b/sdk/evaluation/azure-ai-evaluation/tests/unittests/test_tool_call_accuracy_evaluator.py
@@ -48,9 +48,9 @@ async def flow_side_effect(timeout, **kwargs):
         # Return a non-numeric score to trigger an exception in the evaluator's check_score_is_valid
         return {
             "llm_output": {
-                "chain_of_thought": "The tool calls were very correct that I returned a huge number!",
-                "tool_calls_success_level": 25,
-                "details": {},
+                "reasoning": "The tool calls were very correct that I returned a huge number!",
+                "score": 25,
+                "properties": {},
             }
         }
 
@@ -63,9 +63,9 @@ async def flow_side_effect(timeout, **kwargs):
 
     return {
         "llm_output": {
-            "chain_of_thought": f"Evaluated {total_calls} tool calls with {total_good_calls} correct calls.",
-            "tool_calls_success_level": score,
-            "details": {
+            "reasoning": f"Evaluated {total_calls} tool calls with {total_good_calls} correct calls.",
+            "score": score,
+            "properties": {
                 "tool_calls_made_by_agent": total_calls,
                 "correct_tool_calls_made_by_agent": total_good_calls,
             },
@@ -130,13 +130,13 @@ def test_evaluate_tools_valid1(self, mock_model_config):
 
         key = ToolCallAccuracyEvaluator._RESULT_KEY
         assert result is not None
-        assert key in result and f"{key}_result" in result and f"{key}_threshold" in result
-        assert result[key] == 3.0  # Mixed good/bad gets score 3
+        assert f"{key}_score" in result and f"{key}_result" in result and f"{key}_threshold" in result
+        assert result[f"{key}_score"] == 3.0  # Mixed good/bad gets score 3
         assert result[f"{key}_result"] == "pass"
         assert result[f"{key}_threshold"] == ToolCallAccuracyEvaluator._DEFAULT_TOOL_CALL_ACCURACY_SCORE
-        assert f"{key}_reason" in result
-        assert result[f"{key}_reason"] == "Evaluated 2 tool calls with 1 correct calls."
-        assert f"{key}_details" in result
+        assert f"{key}_reasoning" in result
+        assert result[f"{key}_reasoning"] == "Evaluated 2 tool calls with 1 correct calls."
+        assert f"{key}_properties" in result
 
     def test_evaluate_tools_valid2(self, mock_model_config):
         evaluator = ToolCallAccuracyEvaluator(model_config=mock_model_config)
@@ -192,13 +192,13 @@ def test_evaluate_tools_valid2(self, mock_model_config):
 
         key = ToolCallAccuracyEvaluator._RESULT_KEY
         assert result is not None
-        assert key in result and f"{key}_result" in result and f"{key}_threshold" in result
-        assert result[key] == 1.0  # All bad gets score 1
+        assert f"{key}_score" in result and f"{key}_result" in result and f"{key}_threshold" in result
+        assert result[f"{key}_score"] == 1.0  # All bad gets score 1
         assert result[f"{key}_result"] == "fail"
         assert result[f"{key}_threshold"] == ToolCallAccuracyEvaluator._DEFAULT_TOOL_CALL_ACCURACY_SCORE
-        assert f"{key}_reason" in result
-        assert result[f"{key}_reason"] == "Evaluated 2 tool calls with 0 correct calls."
-        assert f"{key}_details" in result
+        assert f"{key}_reasoning" in result
+        assert result[f"{key}_reasoning"] == "Evaluated 2 tool calls with 0 correct calls."
+        assert f"{key}_properties" in result
 
     def test_evaluate_tools_valid3(self, mock_model_config):
         evaluator = ToolCallAccuracyEvaluator(model_config=mock_model_config)
@@ -254,13 +254,13 @@ def test_evaluate_tools_valid3(self, mock_model_config):
 
         key = ToolCallAccuracyEvaluator._RESULT_KEY
         assert result is not None
-        assert key in result and f"{key}_result" in result and f"{key}_threshold" in result
-        assert result[key] == 5.0  # All good gets score 5
+        assert f"{key}_score" in result and f"{key}_result" in result and f"{key}_threshold" in result
+        assert result[f"{key}_score"] == 5.0  # All good gets score 5
         assert result[f"{key}_result"] == "pass"
         assert result[f"{key}_threshold"] == ToolCallAccuracyEvaluator._DEFAULT_TOOL_CALL_ACCURACY_SCORE
-        assert f"{key}_reason" in result
-        assert result[f"{key}_reason"] == "Evaluated 2 tool calls with 2 correct calls."
-        assert f"{key}_details" in result
+        assert f"{key}_reasoning" in result
+        assert result[f"{key}_reasoning"] == "Evaluated 2 tool calls with 2 correct calls."
+        assert f"{key}_properties" in result
 
     def test_evaluate_tools_one_eval_fails(self, mock_model_config):
         with pytest.raises(EvaluationException) as exc_info:
@@ -379,13 +379,13 @@ def test_evaluate_tools_built_in_tool_definition(self, mock_model_config):
 
         key = ToolCallAccuracyEvaluator._RESULT_KEY
         assert result is not None
-        assert key in result and f"{key}_result" in result and f"{key}_threshold" in result
-        assert result[key] == 5.0  # All good gets score 5
+        assert f"{key}_score" in result and f"{key}_result" in result and f"{key}_threshold" in result
+        assert result[f"{key}_score"] == 5.0  # All good gets score 5
         assert result[f"{key}_result"] == "pass"
         assert result[f"{key}_threshold"] == ToolCallAccuracyEvaluator._DEFAULT_TOOL_CALL_ACCURACY_SCORE
-        assert f"{key}_reason" in result
-        assert result[f"{key}_reason"] == "Evaluated 1 tool calls with 1 correct calls."
-        assert f"{key}_details" in result
+        assert f"{key}_reasoning" in result
+        assert result[f"{key}_reasoning"] == "Evaluated 1 tool calls with 1 correct calls."
+        assert f"{key}_properties" in result
 
     def test_evaluate_tools_no_tools(self, mock_model_config):
         evaluator = ToolCallAccuracyEvaluator(model_config=mock_model_config)
@@ -444,7 +444,7 @@ def test_evaluate_bing_custom_search(self, mock_model_config):
 
         key = ToolCallAccuracyEvaluator._RESULT_KEY
         assert result is not None
-        assert result[key] == 5.0
+        assert result[f"{key}_score"] == 5.0
         assert result[f"{key}_result"] == "pass"
 
     def test_evaluate_bing_grounding(self, mock_model_config):
@@ -476,7 +476,7 @@ def test_evaluate_bing_grounding(self, mock_model_config):
 
         key = ToolCallAccuracyEvaluator._RESULT_KEY
         assert result is not None
-        assert result[key] == 5.0
+        assert result[f"{key}_score"] == 5.0
         assert result[f"{key}_result"] == "pass"
 
     def test_evaluate_file_search(self, mock_model_config):
@@ -506,7 +506,7 @@ def test_evaluate_file_search(self, mock_model_config):
 
         key = ToolCallAccuracyEvaluator._RESULT_KEY
         assert result is not None
-        assert result[key] == 5.0
+        assert result[f"{key}_score"] == 5.0
         assert result[f"{key}_result"] == "pass"
 
     def test_evaluate_azure_ai_search(self, mock_model_config):
@@ -536,7 +536,7 @@ def test_evaluate_azure_ai_search(self, mock_model_config):
 
         key = ToolCallAccuracyEvaluator._RESULT_KEY
         assert result is not None
-        assert result[key] == 5.0
+        assert result[f"{key}_score"] == 5.0
         assert result[f"{key}_result"] == "pass"
 
     def test_evaluate_fabric_dataagent(self, mock_model_config):
@@ -566,7 +566,7 @@ def test_evaluate_fabric_dataagent(self, mock_model_config):
 
         key = ToolCallAccuracyEvaluator._RESULT_KEY
         assert result is not None
-        assert result[key] == 5.0
+        assert result[f"{key}_score"] == 5.0
         assert result[f"{key}_result"] == "pass"
 
     def test_evaluate_code_interpreter(self, mock_model_config):
@@ -598,7 +598,7 @@ def test_evaluate_code_interpreter(self, mock_model_config):
 
         key = ToolCallAccuracyEvaluator._RESULT_KEY
         assert result is not None
-        assert result[key] == 5.0
+        assert result[f"{key}_score"] == 5.0
         assert result[f"{key}_result"] == "pass"
 
     def test_evaluate_sharepoint_grounding(self, mock_model_config):
@@ -628,7 +628,7 @@ def test_evaluate_sharepoint_grounding(self, mock_model_config):
 
         key = ToolCallAccuracyEvaluator._RESULT_KEY
         assert result is not None
-        assert result[key] == 5.0
+        assert result[f"{key}_score"] == 5.0
         assert result[f"{key}_result"] == "pass"
 
     def test_evaluate_open_api(self, mock_model_config):
@@ -729,7 +729,7 @@ def test_evaluate_open_api_with_tool_definition(self, mock_model_config):
 
         key = ToolCallAccuracyEvaluator._RESULT_KEY
         assert result is not None
-        assert result[key] == 5.0
+        assert result[f"{key}_score"] == 5.0
         assert result[f"{key}_result"] == "pass"
 
     def test_evaluate_missing_query(self, mock_model_config):