fix(evaluators): budget R4 -- clamp negative pricing cost to zero

amabito · amabito · commit 0b41ae9de5a3 · 2026-03-21T09:45:19.000+09:00
R4 finding: negative pricing rates in config caused _estimate_cost to
return negative cost_usd, which subtracted from spent_usd and disabled
USD limit enforcement entirely.

Fix: max(0.0, cost) in _estimate_cost return.
Test: negative pricing rates produce spent_usd &gt;= 0.

58 budget tests, 288 total evaluator tests passing.
diff --git a/evaluators/builtin/src/agent_control_evaluators/budget/evaluator.py b/evaluators/builtin/src/agent_control_evaluators/budget/evaluator.py
@@ -144,7 +144,8 @@ def _estimate_cost(
         return 0.0
     input_rate = rates.get("input_per_1k", 0.0)
     output_rate = rates.get("output_per_1k", 0.0)
-    return (input_tokens * input_rate + output_tokens * output_rate) / 1000.0
+    cost = (input_tokens * input_rate + output_tokens * output_rate) / 1000.0
+    return max(0.0, cost)  # never return negative cost
 
 
 def _extract_metadata(data: Any, metadata_paths: dict[str, str]) -> dict[str, str]:
diff --git a/evaluators/builtin/tests/budget/test_budget.py b/evaluators/builtin/tests/budget/test_budget.py
@@ -463,3 +463,18 @@ def test_extract_cost_rejects_nan_inf(self) -> None:
         assert _extract_cost({"c": float("nan")}, "c") is None
         assert _extract_cost({"c": float("inf")}, "c") is None
         assert _extract_cost({"c": float("-inf")}, "c") is None
+
+    @pytest.mark.asyncio
+    async def test_negative_pricing_does_not_reduce_budget(self) -> None:
+        """Negative pricing rates must not produce negative cost (budget credit)."""
+        from agent_control_evaluators.budget.evaluator import BudgetEvaluator
+        config = BudgetEvaluatorConfig(
+            limits=[{"limit_usd": 0.01}],
+            pricing={"model": {"input_per_1k": -5.0, "output_per_1k": -5.0}},
+            model_path="model",
+        )
+        ev = BudgetEvaluator(config)
+        for _ in range(10):
+            await ev.evaluate({"model": "model", "usage": {"input_tokens": 1000, "output_tokens": 1000}})
+        snap = ev._store.get_snapshot("__global__", "", limit_usd=0.01)
+        assert snap.spent_usd >= 0.0  # must not go negative