release: v0.1.2 — project-tunable regress baselines + config goldens_path

dzmitrys-dev · claude · dzmitrys-dev · commit a03be866f849 · 2026-04-29T13:39:32.000+03:00
Unblocks brownfield projects (e.g. SoftChat Plan 80.6-14) where the bundled
Phase 80.1 thresholds — calibrated against the supamem-internal corpus —
don't fit the project's corpus size.

Adds three [supamem.eval] config keys plus matching env-var overrides:
  baseline_recall_at_5  / SUPAMEM_BASELINE_RECALL_AT_5
  baseline_total_tokens / SUPAMEM_BASELINE_TOTAL_TOKENS
  baseline_p95_latency_ms / SUPAMEM_BASELINE_P95_LATENCY_MS

Wires cfg.goldens_path as fallback when --goldens flag is omitted (was
previously dead config). Defaults preserved — callers without overrides see
identical behavior.

188/188 tests green (8 new); ruff clean; twine check PASSED.

Co-Authored-By: Claude Opus 4.7 (1M context) &lt;noreply@anthropic.com&gt;
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -2,6 +2,29 @@
 
 All notable changes to `supamem` will be documented in this file.
 
+## v0.1.2 — 2026-04-29
+
+Project-tunable regress baselines and config-resolved goldens path. Unblocks
+brownfield projects (e.g. SoftChat, Plan 80.6-14) where the bundled Phase
+80.1 thresholds — calibrated against the supamem-internal corpus — don't fit
+the project's corpus size.
+
+### Added
+
+- `[supamem.eval]` config block accepts `baseline_recall_at_5`,
+  `baseline_total_tokens`, `baseline_p95_latency_ms` to override the bundled
+  D-19 defaults per project.
+- Env-var overrides (highest precedence): `SUPAMEM_BASELINE_RECALL_AT_5`,
+  `SUPAMEM_BASELINE_TOTAL_TOKENS`, `SUPAMEM_BASELINE_P95_LATENCY_MS`.
+- `cfg.goldens_path` now used as fallback when `--goldens` flag is omitted —
+  previously the config field existed but was ignored by the eval runner.
+
+### Fixed
+
+- `supamem eval --regress` no longer fails projects with healthy retrieval
+  but corpus sizes outside Phase 80.1's calibration window. Default behavior
+  is unchanged for callers that don't set overrides.
+
 ## v0.1.1 — 2026-04-29
 
 First PyPI release. Hardens v0.1.0 with CI fixes, agent guides, an update-check
diff --git a/pyproject.toml b/pyproject.toml
@@ -4,7 +4,7 @@ build-backend = "hatchling.build"
 
 [project]
 name = "supamem"
-version = "0.1.1"
+version = "0.1.2"
 description = "Project-agnostic dual-memory tooling for Claude Code, Cursor, and opencode"
 readme = "README.md"
 license = "MIT"
diff --git a/src/supamem/__init__.py b/src/supamem/__init__.py
@@ -1,2 +1,2 @@
 """supamem — project-agnostic dual-memory tooling."""
-__version__ = "0.1.1"
+__version__ = "0.1.2"
diff --git a/src/supamem/config.py b/src/supamem/config.py
@@ -47,6 +47,11 @@ class ResolvedConfig:
     goldens_path: str = ""
     cache_dir: str = ""
     allow_legacy_collection: bool = False
+    # Regress baselines — Phase 80.1 D-19 defaults; project-tunable for
+    # corpora outside the supamem-internal calibration set (added v0.1.2).
+    regress_baseline_recall_at_5: float = 0.60
+    regress_baseline_total_tokens: int = 4000
+    regress_baseline_p95_latency_ms: int = 500
 
 
 @dataclass
@@ -62,6 +67,9 @@ class ConfigChain:
     drop_tokens: Source = "default"
     goldens_path: Source = "default"
     cache_dir: Source = "default"
+    regress_baseline_recall_at_5: Source = "default"
+    regress_baseline_total_tokens: Source = "default"
+    regress_baseline_p95_latency_ms: Source = "default"
 
 
 _LEGACY_ENV: dict[str, str] = {
@@ -73,7 +81,15 @@ class ConfigChain:
 
 _NESTED_TABLES: list[tuple[str, dict[str, str]]] = [
     ("hook", {"drop_tokens": "drop_tokens"}),
-    ("eval", {"goldens_path": "goldens_path"}),
+    (
+        "eval",
+        {
+            "goldens_path": "goldens_path",
+            "baseline_recall_at_5": "regress_baseline_recall_at_5",
+            "baseline_total_tokens": "regress_baseline_total_tokens",
+            "baseline_p95_latency_ms": "regress_baseline_p95_latency_ms",
+        },
+    ),
     ("cache", {"cache_dir": "cache_dir"}),
 ]
 
diff --git a/src/supamem/eval/runner.py b/src/supamem/eval/runner.py
@@ -11,6 +11,7 @@
 
 import json
 import logging
+import os
 import time
 from importlib import resources
 from pathlib import Path
@@ -22,7 +23,9 @@
 
 log = logging.getLogger("supamem.eval.runner")
 
-# Phase 80.1 locked thresholds (D-19).
+# Phase 80.1 locked thresholds (D-19) — defaults; project-tunable since v0.1.2
+# via [supamem.eval] baseline_* keys in .supamem/config.toml or env vars
+# SUPAMEM_BASELINE_{RECALL_AT_5,TOTAL_TOKENS,P95_LATENCY_MS}.
 BASELINE = {
     "mean_recall_at_5": 0.60,
     "total_tokens": 4000,
@@ -32,6 +35,34 @@
 BUNDLED_GOLDENS = "phase_80_1_tuned_hybrid.jsonl"
 
 
+def _resolve_baseline(cfg: ResolvedConfig) -> dict[str, float]:
+    """Merge BASELINE defaults ← config ← env-var overrides.
+
+    Env vars (highest precedence): ``SUPAMEM_BASELINE_RECALL_AT_5``,
+    ``SUPAMEM_BASELINE_TOTAL_TOKENS``, ``SUPAMEM_BASELINE_P95_LATENCY_MS``.
+    Malformed values are logged and fall back to the config value.
+    """
+    out = {
+        "mean_recall_at_5": float(cfg.regress_baseline_recall_at_5),
+        "total_tokens": int(cfg.regress_baseline_total_tokens),
+        "p95_latency_ms": float(cfg.regress_baseline_p95_latency_ms),
+    }
+    overrides = (
+        ("SUPAMEM_BASELINE_RECALL_AT_5", "mean_recall_at_5", float),
+        ("SUPAMEM_BASELINE_TOTAL_TOKENS", "total_tokens", int),
+        ("SUPAMEM_BASELINE_P95_LATENCY_MS", "p95_latency_ms", float),
+    )
+    for env_var, key, caster in overrides:
+        raw = os.environ.get(env_var, "").strip()
+        if not raw:
+            continue
+        try:
+            out[key] = caster(raw)
+        except ValueError:
+            log.warning("supamem eval: ignoring malformed %s=%r", env_var, raw)
+    return out
+
+
 def _load_goldens(path: str | None) -> list[dict[str, Any]]:
     """Load JSONL records from ``path`` or the bundled corpus."""
     if path:
@@ -79,8 +110,10 @@ def run_bench(
 ) -> int:
     """Run the bench. Returns 0 on pass, 1 on regression / fatal."""
     cfg = config or ResolvedConfig()
+    # CLI flag wins over config; both win over bundled goldens (path=None).
+    resolved_goldens = goldens_path or (cfg.goldens_path or None)
     try:
-        records = _load_goldens(goldens_path)
+        records = _load_goldens(resolved_goldens)
     except (FileNotFoundError, OSError) as exc:
         log.error("supamem eval: failed to load goldens: %s", exc)
         return 1
@@ -130,18 +163,19 @@ def run_bench(
     if not regress:
         return 0
 
+    baseline = _resolve_baseline(cfg)
     breaches: list[str] = []
-    if mean_recall < BASELINE["mean_recall_at_5"]:
+    if mean_recall < baseline["mean_recall_at_5"]:
         breaches.append(
-            f"mean_recall_at_5={mean_recall:.4f} < baseline {BASELINE['mean_recall_at_5']}"
+            f"mean_recall_at_5={mean_recall:.4f} < baseline {baseline['mean_recall_at_5']}"
         )
-    if total_tokens > BASELINE["total_tokens"]:
+    if total_tokens > baseline["total_tokens"]:
         breaches.append(
-            f"total_tokens={total_tokens} > baseline {BASELINE['total_tokens']}"
+            f"total_tokens={total_tokens} > baseline {baseline['total_tokens']}"
         )
-    if p95 > BASELINE["p95_latency_ms"]:
+    if p95 > baseline["p95_latency_ms"]:
         breaches.append(
-            f"p95_latency_ms={p95:.2f} > baseline {BASELINE['p95_latency_ms']}"
+            f"p95_latency_ms={p95:.2f} > baseline {baseline['p95_latency_ms']}"
         )
 
     if breaches:
diff --git a/tests/test_eval_runner.py b/tests/test_eval_runner.py
@@ -134,3 +134,163 @@ def test_derive_required_substrings_is_deterministic() -> None:
 
 def test_bundled_goldens_constant() -> None:
     assert BUNDLED_GOLDENS.endswith(".jsonl")
+
+
+# ── v0.1.2: project-tunable regress baselines ────────────────────────────────
+
+
+def test_resolve_baseline_uses_config_defaults() -> None:
+    from supamem.eval.runner import _resolve_baseline
+
+    cfg = ResolvedConfig()
+    out = _resolve_baseline(cfg)
+    assert out["mean_recall_at_5"] == 0.60
+    assert out["total_tokens"] == 4000
+    assert out["p95_latency_ms"] == 500
+
+
+def test_resolve_baseline_config_override() -> None:
+    from supamem.eval.runner import _resolve_baseline
+
+    cfg = ResolvedConfig(
+        regress_baseline_recall_at_5=0.5,
+        regress_baseline_total_tokens=20000,
+        regress_baseline_p95_latency_ms=1000,
+    )
+    out = _resolve_baseline(cfg)
+    assert out["mean_recall_at_5"] == 0.5
+    assert out["total_tokens"] == 20000
+    assert out["p95_latency_ms"] == 1000
+
+
+def test_resolve_baseline_env_override_beats_config(monkeypatch: pytest.MonkeyPatch) -> None:
+    from supamem.eval.runner import _resolve_baseline
+
+    cfg = ResolvedConfig(regress_baseline_total_tokens=10000)
+    monkeypatch.setenv("SUPAMEM_BASELINE_TOTAL_TOKENS", "25000")
+    monkeypatch.setenv("SUPAMEM_BASELINE_RECALL_AT_5", "0.40")
+    out = _resolve_baseline(cfg)
+    assert out["total_tokens"] == 25000
+    assert out["mean_recall_at_5"] == 0.40
+
+
+def test_resolve_baseline_malformed_env_falls_back(
+    monkeypatch: pytest.MonkeyPatch,
+) -> None:
+    from supamem.eval.runner import _resolve_baseline
+
+    monkeypatch.setenv("SUPAMEM_BASELINE_TOTAL_TOKENS", "not-a-number")
+    out = _resolve_baseline(ResolvedConfig())
+    assert out["total_tokens"] == 4000  # config default preserved
+
+
+def test_run_bench_regress_uses_overridden_baseline(
+    monkeypatch: pytest.MonkeyPatch,
+    tmp_path: Path,
+    capsys: pytest.CaptureFixture[str],
+) -> None:
+    """Custom baseline: token usage that would breach default passes a higher cap."""
+    p = tmp_path / "g.jsonl"
+    p.write_text(
+        json.dumps({"id": "c1", "query": "x", "required_substrings": ["chunk"]}) + "\n",
+        encoding="utf-8",
+    )
+
+    big_chunk = "chunk " + ("a" * 20_000)  # 5000+ tokens single hit
+    fake = MagicMock()
+    fake.query.return_value = [_hit(big_chunk)]
+
+    import supamem.eval.runner as mod
+
+    monkeypatch.setattr(mod, "_build_backend", lambda cfg: fake)
+
+    # Default baseline (4000 tokens) would breach
+    rc_default = run_bench(regress=True, goldens_path=str(p), config=_cfg())
+    assert rc_default == 1
+    assert "REGRESSION" in capsys.readouterr().out
+
+    # Project-tunable baseline raises the cap → passes
+    cfg_high = _cfg(regress_baseline_total_tokens=100_000)
+    rc_override = run_bench(regress=True, goldens_path=str(p), config=cfg_high)
+    assert rc_override == 0
+    assert "regress: PASS" in capsys.readouterr().out
+
+
+def test_run_bench_uses_config_goldens_path_when_flag_omitted(
+    monkeypatch: pytest.MonkeyPatch, tmp_path: Path
+) -> None:
+    """cfg.goldens_path is used as fallback when --goldens flag not passed (v0.1.2)."""
+    p = tmp_path / "g.jsonl"
+    p.write_text(
+        json.dumps({"id": "c1", "query": "hello", "required_substrings": ["world"]}) + "\n",
+        encoding="utf-8",
+    )
+
+    fake = MagicMock()
+    fake.query.return_value = [_hit("hello world")]
+
+    import supamem.eval.runner as mod
+
+    monkeypatch.setattr(mod, "_build_backend", lambda cfg: fake)
+
+    cfg = _cfg(goldens_path=str(p))
+    rc = run_bench(regress=False, goldens_path=None, config=cfg)
+    assert rc == 0
+    fake.query.assert_called_once()
+
+
+def test_run_bench_cli_flag_beats_config_goldens_path(
+    monkeypatch: pytest.MonkeyPatch, tmp_path: Path
+) -> None:
+    """Explicit --goldens still wins over cfg.goldens_path."""
+    cfg_path = tmp_path / "from-config.jsonl"
+    cfg_path.write_text(
+        json.dumps({"id": "from-config", "query": "ignored", "required_substrings": ["x"]})
+        + "\n",
+        encoding="utf-8",
+    )
+    cli_path = tmp_path / "from-flag.jsonl"
+    cli_path.write_text(
+        json.dumps({"id": "from-flag", "query": "actually-used", "required_substrings": ["x"]})
+        + "\n",
+        encoding="utf-8",
+    )
+
+    seen_queries: list[str] = []
+
+    def query(q: str, **_: Any) -> list[Any]:
+        seen_queries.append(q)
+        return [_hit("x")]
+
+    fake = MagicMock()
+    fake.query.side_effect = query
+
+    import supamem.eval.runner as mod
+
+    monkeypatch.setattr(mod, "_build_backend", lambda cfg: fake)
+
+    cfg = _cfg(goldens_path=str(cfg_path))
+    run_bench(regress=False, goldens_path=str(cli_path), config=cfg)
+    assert seen_queries == ["actually-used"]
+
+
+def test_eval_nested_table_loads_baseline_overrides(
+    tmp_path: Path, monkeypatch: pytest.MonkeyPatch
+) -> None:
+    """[supamem.eval] baseline_* keys land in ResolvedConfig fields."""
+    from supamem.config import load_config
+
+    (tmp_path / ".supamem").mkdir()
+    (tmp_path / ".supamem" / "config.toml").write_text(
+        '[supamem]\ncollection = "x"\n[supamem.eval]\n'
+        'baseline_recall_at_5 = 0.55\n'
+        'baseline_total_tokens = 18000\n'
+        'baseline_p95_latency_ms = 750\n',
+        encoding="utf-8",
+    )
+    monkeypatch.delenv("SUPAMEM_CONFIG", raising=False)
+    cfg, chain = load_config(cwd=tmp_path)
+    assert cfg.regress_baseline_recall_at_5 == 0.55
+    assert cfg.regress_baseline_total_tokens == 18000
+    assert cfg.regress_baseline_p95_latency_ms == 750
+    assert chain.regress_baseline_recall_at_5 == "supamem_toml"

Original file line number	Diff line number	Diff line change
`@@ -1,2 +1,2 @@`
`1`	`1`	`"""supamem — project-agnostic dual-memory tooling."""`
`2`		`-__version__ = "0.1.1"`
	`2`	`+__version__ = "0.1.2"`