UiPath
diff --git a/‎samples/classification_agent/bindings.json‎
Lines changed: 4 additions & 0 deletions b/‎samples/classification_agent/bindings.json‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎samples/classification_agent/evaluations/eval-sets/default.json‎
Lines changed: 123 additions & 0 deletions b/‎samples/classification_agent/evaluations/eval-sets/default.json‎
Lines changed: 123 additions & 0 deletions
diff --git a/‎samples/classification_agent/evaluations/evaluators/balanced-accuracy.json‎
Lines changed: 20 additions & 0 deletions b/‎samples/classification_agent/evaluations/evaluators/balanced-accuracy.json‎
Lines changed: 20 additions & 0 deletions
diff --git a/‎samples/classification_agent/evaluations/evaluators/custom/balanced_accuracy_evaluator.py‎
Lines changed: 133 additions & 0 deletions b/‎samples/classification_agent/evaluations/evaluators/custom/balanced_accuracy_evaluator.py‎
Lines changed: 133 additions & 0 deletions
diff --git a/‎samples/classification_agent/evaluations/evaluators/custom/types/balanced-accuracy-types.json‎
Lines changed: 71 additions & 0 deletions b/‎samples/classification_agent/evaluations/evaluators/custom/types/balanced-accuracy-types.json‎
Lines changed: 71 additions & 0 deletions
diff --git a/‎samples/classification_agent/evaluations/evaluators/multiclass-classification.json‎
Lines changed: 16 additions & 0 deletions b/‎samples/classification_agent/evaluations/evaluators/multiclass-classification.json‎
Lines changed: 16 additions & 0 deletions
@@ -0,0 +1,4 @@
+{
+  "version": "2.0",
+  "resources": []
+}
@@ -0,0 +1,123 @@
+{
+  "version": "1.0",
+  "id": "TeleComClassificationEval",
+  "name": "TeleCom Email Classification Evaluation",
+  "evaluatorRefs": [
+    "MulticlassClassificationEvaluator",
+    "BalancedAccuracyEvaluator"
+  ],
+  "evaluations": [
+    {
+      "id": "payment-invoice",
+      "name": "Payment - Invoice reminder",
+      "inputs": {
+        "email_subject": "Your invoice is ready",
+        "email_body": "Dear customer, your monthly invoice of $45.99 is now available. Payment is due by March 15."
+      },
+      "evaluationCriterias": {
+        "MulticlassClassificationEvaluator": {
+          "expectedClass": "payments"
+        },
+        "BalancedAccuracyEvaluator": {
+          "expectedClass": "payments"
+        }
+      }
+    },
+    {
+      "id": "payment-overdue",
+      "name": "Payment - Overdue balance",
+      "inputs": {
+        "email_subject": "Action required: overdue balance",
+        "email_body": "Your account has an overdue balance of $120.00. Please submit your payment as soon as possible to avoid service interruption."
+      },
+      "evaluationCriterias": {
+        "MulticlassClassificationEvaluator": {
+          "expectedClass": "payments"
+        },
+        "BalancedAccuracyEvaluator": {
+          "expectedClass": "payments"
+        }
+      }
+    },
+    {
+      "id": "payment-refund",
+      "name": "Payment - Refund request (DELIBERATELY WRONG: ground truth set to 'spam')",
+      "inputs": {
+        "email_subject": "Refund for last month's charge",
+        "email_body": "I was charged $29.99 last month for a service I cancelled. Please process a refund to my account."
+      },
+      "evaluationCriterias": {
+        "MulticlassClassificationEvaluator": {
+          "expectedClass": "spam"
+        },
+        "BalancedAccuracyEvaluator": {
+          "expectedClass": "spam"
+        }
+      }
+    },
+    {
+      "id": "payment-confirmation",
+      "name": "Payment - Confirmation (DELIBERATELY WRONG: ground truth set to 'spam')",
+      "inputs": {
+        "email_subject": "Payment confirmation",
+        "email_body": "Thank you for your payment of $85.00. Your account balance is now $0.00."
+      },
+      "evaluationCriterias": {
+        "MulticlassClassificationEvaluator": {
+          "expectedClass": "spam"
+        },
+        "BalancedAccuracyEvaluator": {
+          "expectedClass": "spam"
+        }
+      }
+    },
+    {
+      "id": "plan-upgrade",
+      "name": "Plan - Upgrade inquiry",
+      "inputs": {
+        "email_subject": "How do I upgrade my plan?",
+        "email_body": "Hi, I currently have the 10GB data plan and would like to upgrade to the unlimited plan. Can you help?"
+      },
+      "evaluationCriterias": {
+        "MulticlassClassificationEvaluator": {
+          "expectedClass": "plan_details"
+        },
+        "BalancedAccuracyEvaluator": {
+          "expectedClass": "plan_details"
+        }
+      }
+    },
+    {
+      "id": "plan-subscription",
+      "name": "Plan - Subscription details",
+      "inputs": {
+        "email_subject": "Question about my subscription",
+        "email_body": "I would like to know the details of my current plan including data limits and any upgrade options available."
+      },
+      "evaluationCriterias": {
+        "MulticlassClassificationEvaluator": {
+          "expectedClass": "plan_details"
+        },
+        "BalancedAccuracyEvaluator": {
+          "expectedClass": "plan_details"
+        }
+      }
+    },
+    {
+      "id": "spam-promo",
+      "name": "Spam - Unsolicited promotion",
+      "inputs": {
+        "email_subject": "You won a FREE iPhone!!!",
+        "email_body": "Congratulations! You have been selected as the lucky winner. Click here to claim your prize now!"
+      },
+      "evaluationCriterias": {
+        "MulticlassClassificationEvaluator": {
+          "expectedClass": "spam"
+        },
+        "BalancedAccuracyEvaluator": {
+          "expectedClass": "spam"
+        }
+      }
+    }
+  ]
+}
@@ -0,0 +1,20 @@
+{
+  "version": "1.0",
+  "id": "BalancedAccuracyEvaluator",
+  "evaluatorTypeId": "file://types/balanced-accuracy-types.json",
+  "evaluatorSchema": "file://balanced_accuracy_evaluator.py:BalancedAccuracyEvaluator",
+  "description": "Balanced accuracy: mean of per-class recall rates. Uses weighted per-datapoint scores with a custom reduce_scores (sum instead of average).",
+  "evaluatorConfig": {
+    "name": "BalancedAccuracyEvaluator",
+    "targetOutputKey": "category",
+    "classes": ["plan_details", "payments", "spam"],
+    "classCounts": {
+      "payments": 2,
+      "plan_details": 2,
+      "spam": 3
+    },
+    "defaultEvaluationCriteria": {
+      "expectedClass": "spam"
+    }
+  }
+}
@@ -0,0 +1,133 @@
+"""Balanced accuracy evaluator — custom evaluator with non-trivial score aggregation.
+
+Balanced accuracy = mean of per-class recall rates.
+
+Per-datapoint scores encode class weights:
+  - correct prediction: score = 1 / (num_classes * class_count_for_expected)
+  - wrong prediction:   score = 0
+
+Then reduce_scores sums the scores, which yields:
+  sum = Σ_k (correct_k / (K * n_k)) = (1/K) Σ_k (correct_k / n_k) = balanced_accuracy
+"""
+
+from uipath.eval.evaluators.base_evaluator import (
+    BaseEvaluationCriteria,
+    BaseEvaluatorJustification,
+)
+from uipath.eval.evaluators.output_evaluator import (
+    BaseOutputEvaluator,
+    OutputEvaluatorConfig,
+)
+from uipath.eval.models import (
+    AgentExecution,
+    EvaluationResult,
+    NumericEvaluationResult,
+)
+from uipath.eval.models.models import (
+    EvaluationResultDto,
+    UiPathEvaluationError,
+    UiPathEvaluationErrorCategory,
+)
+
+
+class BalancedAccuracyEvaluationCriteria(BaseEvaluationCriteria):
+    """Per-datapoint criteria: which class this sample should belong to."""
+
+    expected_class: str
+
+
+class BalancedAccuracyEvaluatorConfig(
+    OutputEvaluatorConfig[BalancedAccuracyEvaluationCriteria]
+):
+    """Evaluator config with class list and per-class sample counts."""
+
+    name: str = "BalancedAccuracyEvaluator"
+    classes: list[str]
+    class_counts: dict[str, int]
+
+
+class BalancedAccuracyJustification(BaseEvaluatorJustification):
+    """Details about how this datapoint was scored."""
+
+    predicted_class: str
+    expected_class: str
+    weight: float
+    is_match: bool
+
+
+class BalancedAccuracyEvaluator(
+    BaseOutputEvaluator[
+        BalancedAccuracyEvaluationCriteria,
+        BalancedAccuracyEvaluatorConfig,
+        BalancedAccuracyJustification,
+    ]
+):
+    """Balanced accuracy: mean of per-class recall rates.
+
+    Uses weighted per-datapoint scores so that reduce_scores = sum()
+    gives the correct balanced accuracy.
+    """
+
+    @classmethod
+    def get_evaluator_id(cls) -> str:
+        """Get the evaluator id."""
+        return "custom-balanced-accuracy"
+
+    @staticmethod
+    def reduce_scores(results: list[EvaluationResultDto]) -> float:
+        """Sum of pre-weighted scores = balanced accuracy."""
+        return sum(r.score for r in results)
+
+    async def evaluate(
+        self,
+        agent_execution: AgentExecution,
+        evaluation_criteria: BalancedAccuracyEvaluationCriteria,
+    ) -> EvaluationResult:
+        predicted_class = str(self._get_actual_output(agent_execution)).lower()
+        expected_class = evaluation_criteria.expected_class.lower()
+        classes = [c.lower() for c in self.evaluator_config.classes]
+        class_counts = {
+            k.lower(): v for k, v in self.evaluator_config.class_counts.items()
+        }
+
+        if expected_class not in classes:
+            raise UiPathEvaluationError(
+                code="INVALID_EXPECTED_CLASS",
+                title="Expected class not in configured classes",
+                detail=f"Expected class '{expected_class}' is not in the configured classes: {classes}",
+                category=UiPathEvaluationErrorCategory.USER,
+            )
+
+        if predicted_class not in classes:
+            raise UiPathEvaluationError(
+                code="INVALID_PREDICTED_CLASS",
+                title="Predicted class not in configured classes",
+                detail=f"Predicted class '{predicted_class}' is not in the configured classes: {classes}",
+                category=UiPathEvaluationErrorCategory.USER,
+            )
+
+        num_classes = len(classes)
+        n_k = class_counts.get(expected_class)
+        if n_k is None or n_k <= 0:
+            raise UiPathEvaluationError(
+                code="INVALID_CLASS_COUNT",
+                title="Missing or invalid class count",
+                detail=f"class_counts must include a positive count for '{expected_class}'",
+                category=UiPathEvaluationErrorCategory.USER,
+            )
+
+        weight = 1.0 / (num_classes * n_k)
+        is_match = predicted_class == expected_class
+        score = weight if is_match else 0.0
+
+        justification = self.validate_justification(
+            {
+                "expected": expected_class,
+                "actual": predicted_class,
+                "predicted_class": predicted_class,
+                "expected_class": expected_class,
+                "weight": weight,
+                "is_match": is_match,
+            }
+        )
+        return NumericEvaluationResult(score=score, details=justification)
@@ -0,0 +1,71 @@
+{
+  "evaluatorTypeId": "custom-balanced-accuracy",
+  "evaluatorConfigSchema": {
+    "$defs": {
+      "BalancedAccuracyEvaluationCriteria": {
+        "description": "Per-datapoint criteria: which class this sample should belong to.",
+        "properties": {
+          "expectedClass": {
+            "title": "Expected Class",
+            "type": "string"
+          }
+        },
+        "required": ["expectedClass"],
+        "title": "BalancedAccuracyEvaluationCriteria",
+        "type": "object"
+      }
+    },
+    "description": "Evaluator config with class list and per-class sample counts.",
+    "properties": {
+      "name": {
+        "default": "BalancedAccuracyEvaluator",
+        "title": "Name",
+        "type": "string"
+      },
+      "targetOutputKey": {
+        "default": "*",
+        "title": "Target Output Key",
+        "type": "string"
+      },
+      "defaultEvaluationCriteria": {
+        "$ref": "#/$defs/BalancedAccuracyEvaluationCriteria",
+        "default": {
+          "expectedClass": "spam"
+        }
+      },
+      "classes": {
+        "items": { "type": "string" },
+        "title": "Classes",
+        "type": "array"
+      },
+      "classCounts": {
+        "additionalProperties": { "type": "integer" },
+        "title": "Class Counts",
+        "type": "object"
+      }
+    },
+    "required": ["classes", "classCounts"],
+    "title": "BalancedAccuracyEvaluatorConfig",
+    "type": "object"
+  },
+  "evaluationCriteriaSchema": {
+    "description": "Per-datapoint criteria: which class this sample should belong to.",
+    "properties": {
+      "expectedClass": {
+        "title": "Expected Class",
+        "type": "string"
+      }
+    },
+    "required": ["expectedClass"],
+    "title": "BalancedAccuracyEvaluationCriteria",
+    "type": "object"
+  },
+  "justificationSchema": {
+    "properties": {
+      "predictedClass": { "type": "string" },
+      "expectedClass": { "type": "string" },
+      "weight": { "type": "number" },
+      "isMatch": { "type": "boolean" }
+    }
+  }
+}
@@ -0,0 +1,16 @@
+{
+  "version": "1.0",
+  "id": "MulticlassClassificationEvaluator",
+  "description": "Checks if the predicted email category matches the expected category using macro-averaged precision",
+  "evaluatorTypeId": "uipath-multiclass-classification",
+  "evaluatorConfig": {
+    "name": "MulticlassClassificationEvaluator",
+    "targetOutputKey": "category",
+    "classes": ["plan_details", "payments", "spam"],
+    "metricType": "precision",
+    "averaging": "macro",
+    "defaultEvaluationCriteria": {
+      "expectedClass": "spam"
+    }
+  }
+}
-Original file line number
+Diff line change
@@ @@ -0,0 +1,4 @@ @@
 +{
 +  "version": "2.0",
 +  "resources": []
 +}