fix(module): add EvaluationModuleError to public API and wrap _compute exceptions

xodn348 · xodn348 · commit 805c9256b99a · 2026-05-14T07:30:19.000Z
Adds EvaluationModuleError exception class to evaluate/module.py and exports it from evaluate/__init__.py so callers can catch evaluate-specific failures without catching broad Exception or importing internal sklearn/numpy types. Wraps the _compute() call in EvaluationModule.compute() so that raw ValueError/KeyError/etc. from metric backends surface as EvaluationModuleError instead of leaking implementation details. Closes #758
diff --git a/src/evaluate/__init__.py b/src/evaluate/__init__.py
@@ -45,7 +45,15 @@
 from .info import ComparisonInfo, EvaluationModuleInfo, MeasurementInfo, MetricInfo
 from .inspect import inspect_evaluation_module, list_evaluation_modules
 from .loading import load
-from .module import CombinedEvaluations, Comparison, EvaluationModule, Measurement, Metric, combine
+from .module import (
+    CombinedEvaluations,
+    Comparison,
+    EvaluationModule,
+    EvaluationModuleError,
+    Measurement,
+    Metric,
+    combine,
+)
 from .saving import save
 from .utils import *
 from .utils import gradio, logging
diff --git a/src/evaluate/module.py b/src/evaluate/module.py
@@ -41,6 +41,15 @@
 logger = get_logger(__name__)
 
 
+class EvaluationModuleError(Exception):
+    """Raised when an evaluation module's ``_compute`` method fails.
+
+    Catching this exception lets callers distinguish evaluate-specific
+    failures from unrelated ``Exception`` subclasses without importing
+    internal sklearn or numpy error types.
+    """
+
+
 class FileFreeLock(BaseFileLock):
     """Thread lock until a file **cannot** be locked"""
 
@@ -464,7 +473,12 @@ def compute(self, *, predictions=None, references=None, **kwargs) -> Optional[di
 
             inputs = {input_name: self.data[input_name][:] for input_name in self._feature_names()}
             with temp_seed(self.seed):
-                output = self._compute(**inputs, **compute_kwargs)
+                try:
+                    output = self._compute(**inputs, **compute_kwargs)
+                except EvaluationModuleError:
+                    raise
+                except Exception as e:
+                    raise EvaluationModuleError(f"Metric '{self.name}' raised {type(e).__name__}: {e}") from e
 
             if self.buf_writer is not None:
                 self.buf_writer = None