fix evaluators to use the renamed sdk

peterj · peterj · commit 08a2816b9a45 · 2026-03-19T17:02:55.000-07:00
Signed-off-by: Peter Jausovec &lt;peter.jausovec@solo.io&gt;
diff --git a/evaluators/peters_evaluator/evaluator.yaml b/evaluators/peters_evaluator/evaluator.yaml
diff --git a/evaluators/peters_evaluator/peters_evaluator.py b/evaluators/peters_evaluator/peters_evaluator.py
diff --git a/evaluators/random_evaluator/evaluator.yaml b/evaluators/random_evaluator/evaluator.yaml
@@ -0,0 +1,6 @@
+name: random_evaluator
+description: 'Example evaluator that returns a randopm score between 0 and 1'
+language: python
+entrypoint: random_evaluator.py
+tags: ["test"]
+author: 'peterj'
diff --git a/evaluators/random_evaluator/random_evaluator.py b/evaluators/random_evaluator/random_evaluator.py
@@ -0,0 +1,27 @@
+"""Custom evaluator: random_evaluator
+
+This evaluator is a random evaluator that returns a random score between 0 and 1.
+
+Usage in eval_config.yaml:
+
+    evaluators:
+      - name: random_evaluator
+        type: remote
+        source: github
+        ref: evaluators/random_evaluator/random_evaluator.py
+        threshold: 0.5
+        executor: local
+"""
+
+from agentevals_evaluator_sdk import evaluator, EvalInput, EvalResult
+import random
+
+
+@evaluator
+def random_evaluator(input: EvalInput) -> EvalResult:
+    random_score = random.random()
+    return EvalResult(score=random_score, details={"message": "All good"})
+
+
+if __name__ == "__main__":
+    random_evaluator.run()
diff --git a/evaluators/response_quality/response_quality.py b/evaluators/response_quality/response_quality.py
@@ -1,16 +1,23 @@
-"""Community evaluator: response_quality
+"""Example custom evaluator: checks that every invocation has a non-empty response
+and that responses don't just parrot back the user input.
 
-Checks that every invocation has a non-empty response, meets a configurable
-minimum length, and doesn't just parrot back the user input.
+Install the SDK standalone:  pip install agentevals-evaluator-sdk
 
-Config options:
-  min_response_length (int): Minimum character length for responses (default: 10)
+Usage in eval_config.yaml:
+
+    evaluators:
+      - name: response_quality
+        type: code
+        path: ./examples/custom_evaluators/response_quality.py
+        threshold: 0.7
+        config:
+          min_response_length: 20
 """
 
-from agentevals_grader_sdk import grader, EvalInput, EvalResult
+from agentevals_evaluator_sdk import EvalInput, EvalResult, evaluator
 
 
-@grader
+@evaluator
 def response_quality(input: EvalInput) -> EvalResult:
     min_len = input.config.get("min_response_length", 10)
     scores: list[float] = []
@@ -37,7 +44,7 @@ def response_quality(input: EvalInput) -> EvalResult:
             and inv.final_response.strip().lower() == inv.user_content.strip().lower()
         ):
             score -= 0.5
-            issues.append(f"{inv.invocation_id}: response echoes user input")
+            issues.append(f"{inv.invocation_id}: response is just the user input echoed back")
 
         scores.append(max(0.0, score))
 
diff --git a/evaluators/tool_coverage/tool_coverage.py b/evaluators/tool_coverage/tool_coverage.py
@@ -8,10 +8,10 @@
   min_tool_calls (int): Minimum tool calls per invocation (default: 1)
 """
 
-from agentevals_grader_sdk import grader, EvalInput, EvalResult
+from agentevals_evaluator_sdk import EvalInput, EvalResult, evaluator
 
 
-@grader
+@evaluator
 def tool_coverage(input: EvalInput) -> EvalResult:
     min_calls = input.config.get("min_tool_calls", 1)
     scores: list[float] = []