Amah/end with user (#5063)

AliMahmoudzadeh · Ali Mahmoudzadeh · web-flow · commit e8538bfb5aa9 · 2026-05-22T09:45:34.000-07:00
* removed the last message check

* bumped the version

* simplified the condition check

* updated the message

---------

Co-authored-by: Ali Mahmoudzadeh &lt;amah@microsoft.com&gt;
diff --git a/assets/evaluators/builtin/coherence/evaluator/_coherence.py b/assets/evaluators/builtin/coherence/evaluator/_coherence.py
@@ -644,16 +644,7 @@ def validate_eval_input(self, eval_input: Dict[str, Any]) -> bool:
                     category=ErrorCategory.INVALID_VALUE,
                     target=self.error_target,
                 )
-            if messages[-1]["role"] != MessageRole.ASSISTANT:
-                raise EvaluationException(
-                    message=(
-                        f"The last message must have role 'assistant', "
-                        f"but found role '{messages[-1]['role']}'."
-                    ),
-                    blame=ErrorBlame.USER_ERROR,
-                    category=ErrorCategory.INVALID_VALUE,
-                    target=self.error_target,
-                )
+
             # The final assistant message must contain text
             last_content = messages[-1].get("content", "")
             if isinstance(last_content, list):
@@ -665,7 +656,7 @@ def validate_eval_input(self, eval_input: Dict[str, Any]) -> bool:
                 if not has_text:
                     raise EvaluationException(
                         message=(
-                            "The last assistant message must contain text content, "
+                            "The last message must contain text content, "
                             "not only tool calls. The conversation appears to be "
                             "mid-execution — provide the agent's final text response."
                         ),
@@ -919,7 +910,9 @@ def __init__(self, model_config, *, threshold=3, credential=None, evaluation_lev
         )
 
         # Initialize input validator (supports both query/response and messages)
-        self._validator = MessagesOrQueryResponseInputValidator(error_target=ErrorTarget.COHERENCE_EVALUATOR)
+        self._validator = MessagesOrQueryResponseInputValidator(
+            error_target=ErrorTarget.COHERENCE_EVALUATOR,
+        )
 
         super().__init__(
             model_config=model_config,
@@ -1177,6 +1170,7 @@ async def _real_call(self, **kwargs):
                 query_messages, response_messages = _split_messages_at_latest_user(kwargs["messages"])
                 kwargs["query"] = query_messages
                 kwargs["response"] = response_messages
+                kwargs.pop("messages", None)
 
         # Validate input before processing
         self._validator.validate_eval_input(kwargs)
diff --git a/assets/evaluators/builtin/coherence/spec.yaml b/assets/evaluators/builtin/coherence/spec.yaml
@@ -1,6 +1,6 @@
 type: "evaluator"
 name: "builtin.coherence"
-version: 7
+version: 8
 displayName: "Coherence-Evaluator"
 description: "Evaluates how logically connected and consistent the response is. Ensures ideas flow naturally and make sense together. It’s best used for generative business writing such as summarizing meeting notes, creating marketing materials, and drafting emails."
 evaluatorType: "builtin"
diff --git a/assets/evaluators/builtin/customer_satisfaction/evaluator/_customer_satisfaction.py b/assets/evaluators/builtin/customer_satisfaction/evaluator/_customer_satisfaction.py
@@ -622,16 +622,7 @@ def validate_eval_input(self, eval_input: Dict[str, Any]) -> bool:
                     category=ErrorCategory.INVALID_VALUE,
                     target=self.error_target,
                 )
-            if messages[-1]["role"] != MessageRole.ASSISTANT:
-                raise EvaluationException(
-                    message=(
-                        f"The last message must have role 'assistant', "
-                        f"but found role '{messages[-1]['role']}'."
-                    ),
-                    blame=ErrorBlame.USER_ERROR,
-                    category=ErrorCategory.INVALID_VALUE,
-                    target=self.error_target,
-                )
+
             # The final assistant message must contain text
             last_content = messages[-1].get("content", "")
             if isinstance(last_content, list):
@@ -643,7 +634,7 @@ def validate_eval_input(self, eval_input: Dict[str, Any]) -> bool:
                 if not has_text:
                     raise EvaluationException(
                         message=(
-                            "The last assistant message must contain text content, "
+                            "The last message must contain text content, "
                             "not only tool calls. The conversation appears to be "
                             "mid-execution — provide the agent's final text response."
                         ),
@@ -950,7 +941,7 @@ def __init__(self, model_config, *, credential=None, threshold=3, evaluation_lev
         # Initialize input validator
         self._validator = ConversationValidator(
             error_target=ExtendedErrorTarget.CUSTOMER_SATISFACTION_EVALUATOR,
-            requires_query=True
+            requires_query=True,
         )
 
         super().__init__(
@@ -1110,6 +1101,7 @@ async def _real_call(self, **kwargs):
                 query_messages, response_messages = _split_messages_at_latest_user(kwargs["messages"])
                 kwargs["query"] = query_messages
                 kwargs["response"] = response_messages
+                kwargs.pop("messages", None)
 
         self._validator.validate_eval_input(kwargs)
 
diff --git a/assets/evaluators/builtin/customer_satisfaction/spec.yaml b/assets/evaluators/builtin/customer_satisfaction/spec.yaml
@@ -1,6 +1,6 @@
 type: "evaluator"
 name: "builtin.customer_satisfaction"
-version: 10
+version: 11
 displayName: "Customer-Satisfaction-Evaluator"
 description: "Evaluates the predicted customer satisfaction level of an AI agent interaction on a 1-5 Likert scale. This evaluator assesses whether the agent's response would likely result in a satisfied customer based on helpfulness, completeness, tone, and resolution of the user's needs. Useful for measuring customer support quality, chatbot effectiveness, and overall user experience."
 evaluatorType: "builtin"
diff --git a/assets/evaluators/builtin/groundedness/evaluator/_groundedness.py b/assets/evaluators/builtin/groundedness/evaluator/_groundedness.py
@@ -650,16 +650,6 @@ def validate_eval_input(self, eval_input: Dict[str, Any]) -> bool:
                     category=ErrorCategory.INVALID_VALUE,
                     target=self.error_target,
                 )
-            if messages[-1]["role"] != MessageRole.ASSISTANT:
-                raise EvaluationException(
-                    message=(
-                        f"The last message must have role 'assistant', "
-                        f"but found role '{messages[-1]['role']}'."
-                    ),
-                    blame=ErrorBlame.USER_ERROR,
-                    category=ErrorCategory.INVALID_VALUE,
-                    target=self.error_target,
-                )
             # The final assistant message must contain text
             last_content = messages[-1].get("content", "")
             if isinstance(last_content, list):
@@ -671,7 +661,7 @@ def validate_eval_input(self, eval_input: Dict[str, Any]) -> bool:
                 if not has_text:
                     raise EvaluationException(
                         message=(
-                            "The last assistant message must contain text content, "
+                            "The last message must contain text content, "
                             "not only tool calls. The conversation appears to be "
                             "mid-execution — provide the agent's final text response."
                         ),
@@ -1064,7 +1054,7 @@ def __init__(self, model_config, *, threshold=3, credential=None, evaluation_lev
         self._validator_messages = MessagesOrQueryResponseInputValidator(
             error_target=ErrorTarget.GROUNDEDNESS_EVALUATOR,
             requires_query=False,
-            check_for_unsupported_tools=False
+            check_for_unsupported_tools=False,
         )
 
         super().__init__(
@@ -1560,6 +1550,7 @@ async def _real_call(self, **kwargs):
                 query_messages, response_messages = _split_messages_at_latest_user(kwargs["messages"])
                 kwargs["query"] = query_messages
                 kwargs["response"] = response_messages
+                kwargs.pop("messages", None)
 
         # Validate input before processing
         if kwargs.get("messages"):
diff --git a/assets/evaluators/builtin/groundedness/spec.yaml b/assets/evaluators/builtin/groundedness/spec.yaml
@@ -1,6 +1,6 @@
 type: "evaluator"
 name: "builtin.groundedness"
-version: 12
+version: 13
 displayName: "Groundedness-Evaluator"
 description: "Assesses whether the response stays true to the given context in a retrieval-augmented generation scenario. It’s best used for retrieval-augmented generation (RAG) scenarios, including question and answering and summarization. Use the groundedness metric when you need to verify that ai-generated responses align with and are validated by the provided context."
 evaluatorType: "builtin"
diff --git a/assets/evaluators/builtin/task_adherence/evaluator/_task_adherence.py b/assets/evaluators/builtin/task_adherence/evaluator/_task_adherence.py
@@ -697,17 +697,6 @@ def validate_eval_input(self, eval_input: Dict[str, Any]) -> bool:
                     category=ErrorCategory.INVALID_VALUE,
                     target=self.error_target,
                 )
-            if messages[-1]["role"] != MessageRole.ASSISTANT:
-                raise EvaluationException(
-                    message=(
-                        f"The last message must have role 'assistant', "
-                        f"but found role '{messages[-1]['role']}'."
-                    ),
-                    blame=ErrorBlame.USER_ERROR,
-                    category=ErrorCategory.INVALID_VALUE,
-                    target=self.error_target,
-                )
-
             last_content = messages[-1].get("content", "")
             if isinstance(last_content, list):
                 has_text = any(
@@ -725,7 +714,7 @@ def validate_eval_input(self, eval_input: Dict[str, Any]) -> bool:
                 if not has_text:
                     raise EvaluationException(
                         message=(
-                            "The last assistant message must contain text content, "
+                            "The last message must contain text content, "
                             "not only tool calls. The conversation appears to be "
                             "mid-execution — provide the agent's final text response."
                         ),
@@ -978,7 +967,7 @@ def __init__(
         )
 
         self._validator = MessagesOrQueryResponseInputValidator(
-            error_target=ErrorTarget.TASK_ADHERENCE_EVALUATOR
+            error_target=ErrorTarget.TASK_ADHERENCE_EVALUATOR,
         )
 
         super().__init__(
@@ -1185,6 +1174,7 @@ async def _real_call(self, **kwargs):
                 query_messages, response_messages = _split_messages_at_latest_user(kwargs["messages"])
                 kwargs["query"] = query_messages
                 kwargs["response"] = response_messages
+                kwargs.pop("messages", None)
 
         self._validator.validate_eval_input(kwargs)
 
diff --git a/assets/evaluators/builtin/task_adherence/spec.yaml b/assets/evaluators/builtin/task_adherence/spec.yaml
@@ -1,6 +1,6 @@
 type: "evaluator"
 name: "builtin.task_adherence"
-version: 11
+version: 12
 displayName: "Task-Adherence-Evaluator-(Preview)"
 description: "Evaluates whether the agent completed the task within the confines of the instructions given to the agentic system. Higher scores indicate better compliance with the instructions. This evaluator is useful when useful for end-to-end system-level task evaluation for agents. Example outputs include actions such as updating a database and textual responses such as writing a report."
 evaluatorType: "builtin"
diff --git a/assets/evaluators/builtin/task_completion/evaluator/_task_completion.py b/assets/evaluators/builtin/task_completion/evaluator/_task_completion.py
@@ -714,16 +714,6 @@ def validate_eval_input(self, eval_input: Dict[str, Any]) -> bool:
                     category=ErrorCategory.INVALID_VALUE,
                     target=self.error_target,
                 )
-            if messages[-1]["role"] != MessageRole.ASSISTANT:
-                raise EvaluationException(
-                    message=(
-                        f"The last message must have role 'assistant', "
-                        f"but found role '{messages[-1]['role']}'."
-                    ),
-                    blame=ErrorBlame.USER_ERROR,
-                    category=ErrorCategory.INVALID_VALUE,
-                    target=self.error_target,
-                )
             # The final assistant message must contain text
             last_content = messages[-1].get("content", "")
             if isinstance(last_content, list):
@@ -1034,7 +1024,7 @@ def __init__(self, model_config, *, credential=None, evaluation_level=None, **kw
 
         # Initialize input validator (supports both query/response and messages)
         self._validator = MessagesOrQueryResponseInputValidator(
-            error_target=ExtendedErrorTarget.TASK_COMPLETION_EVALUATOR
+            error_target=ExtendedErrorTarget.TASK_COMPLETION_EVALUATOR,
         )
 
         super().__init__(
@@ -1309,6 +1299,7 @@ async def _real_call(self, **kwargs):
                 query_messages, response_messages = _split_messages_at_latest_user(kwargs["messages"])
                 kwargs["query"] = query_messages
                 kwargs["response"] = response_messages
+                kwargs.pop("messages", None)
 
         self._validator.validate_eval_input(kwargs)
 
diff --git a/assets/evaluators/builtin/task_completion/spec.yaml b/assets/evaluators/builtin/task_completion/spec.yaml
@@ -1,6 +1,6 @@
 type: "evaluator"
 name: "builtin.task_completion"
-version: 14
+version: 15
 displayName: "Task-Completion-Evaluator-(Preview)"
 description: "Evaluates whether an AI agent successfully completed the requested task end to end by analyzing the conversation history and agent response to determine if all task requirements were met, ignoring rule adherence or intent understanding. This evaluator is useful for assessing agent effectiveness in task-oriented scenarios, workflow automation, and goal-oriented AI interactions."
 evaluatorType: "builtin"
diff --git a/assets/evaluators/tests/test_evaluators_behavior/test_customer_satisfaction_evaluator_behavior.py b/assets/evaluators/tests/test_evaluators_behavior/test_customer_satisfaction_evaluator_behavior.py
@@ -299,17 +299,6 @@ def test_messages_rejects_no_assistant_message(self):
         with pytest.raises(EvaluationException):
             evaluator(messages=messages)
 
-    def test_messages_rejects_conversation_ending_with_user(self):
-        """Messages ending with a user message raise validation error."""
-        evaluator = _create_mocked_evaluator()
-        messages = [
-            {"role": "user", "content": [{"type": "text", "text": "Hello"}]},
-            {"role": "assistant", "content": [{"type": "text", "text": "Hi!"}]},
-            {"role": "user", "content": [{"type": "text", "text": "One more thing..."}]},
-        ]
-        with pytest.raises(EvaluationException):
-            evaluator(messages=messages)
-
     def test_messages_rejects_conversation_ending_with_tool(self):
         """Messages ending with a tool message raise validation error."""
         evaluator = _create_mocked_evaluator()
diff --git a/assets/evaluators/tests/test_evaluators_behavior/test_groundedness_evaluator_behavior.py b/assets/evaluators/tests/test_evaluators_behavior/test_groundedness_evaluator_behavior.py
@@ -356,17 +356,6 @@ def test_messages_rejects_no_assistant_message(self):
         with pytest.raises(EvaluationException, match="assistant"):
             evaluator(messages=messages)
 
-    def test_messages_rejects_conversation_ending_with_user(self):
-        """Messages ending with a user message raise validation error."""
-        evaluator = _create_mocked_groundedness_evaluator()
-        messages = [
-            {"role": "user", "content": [{"type": "text", "text": "Hello"}]},
-            {"role": "assistant", "content": [{"type": "text", "text": "Hi!"}]},
-            {"role": "user", "content": [{"type": "text", "text": "Thanks, bye"}]},
-        ]
-        with pytest.raises(EvaluationException, match="last message must have role 'assistant'"):
-            evaluator(messages=messages)
-
     def test_messages_intermediate_response(self):
         """Messages ending with only tool calls (no text) are rejected."""
         evaluator = _create_mocked_groundedness_evaluator()
diff --git a/assets/evaluators/tests/test_evaluators_behavior/test_task_adherence_evaluator_behavior.py b/assets/evaluators/tests/test_evaluators_behavior/test_task_adherence_evaluator_behavior.py
@@ -293,17 +293,6 @@ def test_messages_rejects_no_assistant_message(self):
         with pytest.raises(EvaluationException, match="assistant"):
             evaluator(messages=messages)
 
-    def test_messages_rejects_conversation_ending_with_user(self):
-        """Messages ending with user raise validation error."""
-        evaluator = _create_mocked_evaluator()
-        messages = [
-            {"role": "user", "content": [{"type": "text", "text": "Hello"}]},
-            {"role": "assistant", "content": [{"type": "text", "text": "Hi"}]},
-            {"role": "user", "content": [{"type": "text", "text": "Thanks"}]},
-        ]
-        with pytest.raises(EvaluationException, match="last message must have role 'assistant'"):
-            evaluator(messages=messages)
-
     def test_messages_intermediate_response(self):
         """Messages ending with only tool calls are rejected."""
         evaluator = _create_mocked_evaluator()
@@ -440,7 +429,7 @@ def test_forced_turn_with_messages_without_response_raises_invalid_value(self):
         evaluator = _create_mocked_evaluator_with_level(
             evaluation_level=EvaluationLevel.TURN
         )
-        with pytest.raises(EvaluationException, match="last message must have role 'assistant'"):
+        with pytest.raises(EvaluationException, match="Response list cannot be empty"):
             evaluator(
                 messages=[
                     {"role": "user", "content": [{"type": "text", "text": "Book a flight."}]},
diff --git a/assets/evaluators/tests/test_evaluators_behavior/test_task_completion_evaluator_behavior.py b/assets/evaluators/tests/test_evaluators_behavior/test_task_completion_evaluator_behavior.py
@@ -419,17 +419,6 @@ def test_messages_rejects_no_assistant_message(self):
         with pytest.raises(EvaluationException, match="assistant"):
             evaluator(messages=messages)
 
-    def test_messages_rejects_conversation_ending_with_user(self):
-        """Messages ending with a user message raise validation error."""
-        evaluator = _create_mocked_evaluator()
-        messages = [
-            {"role": "user", "content": [{"type": "text", "text": "Hello"}]},
-            {"role": "assistant", "content": [{"type": "text", "text": "Hi!"}]},
-            {"role": "user", "content": [{"type": "text", "text": "Thanks, bye"}]},
-        ]
-        with pytest.raises(EvaluationException, match="last message must have role 'assistant'"):
-            evaluator(messages=messages)
-
     def test_messages_rejects_conversation_ending_with_tool(self):
         """Messages ending with a tool message raise validation error."""
         evaluator = _create_mocked_evaluator()
@@ -452,7 +441,7 @@ def test_messages_rejects_conversation_ending_with_tool(self):
                 "content": [{"type": "tool_result", "tool_result": {"temp": "14C"}}],
             },
         ]
-        with pytest.raises(EvaluationException, match="last message must have role 'assistant'"):
+        with pytest.raises(EvaluationException, match="must contain text content"):
             evaluator(messages=messages)
 
     def test_messages_allows_consecutive_user_messages(self):
@@ -610,7 +599,7 @@ def test_forced_turn_with_messages_without_response_raises_invalid_value(self):
         evaluator = _create_mocked_evaluator_with_level(
             evaluation_level=EvaluationLevel.TURN
         )
-        with pytest.raises(EvaluationException, match="last message must have role 'assistant'"):
+        with pytest.raises(EvaluationException, match="Response list cannot be empty"):
             evaluator(
                 messages=[
                     {"role": "user", "content": [{"type": "text", "text": "Book a flight."}]},