Evaluation

veronica-core includes reproducible evaluation of runtime containment across four canonical runaway failure modes (retry amplification, recursive tools, multi-agent loops, WebSocket runaway):

Technical paper -- system design, threat model, formal safety guarantees (G1-G6), evaluation
Baseline comparison -- no containment vs veronica across four scenarios (avg 78.8% call reduction)
Ablation study -- incremental component contribution (BudgetEnforcer, AgentStepGuard, CircuitBreaker, RetryContainer)
Real incident reproduction -- five real-world failure scenarios with before/after comparison
Scale simulation -- 1 to 1000 concurrent agent chains (~83.1% reduction, ~12.63 us/chain overhead)
Reproducibility guide -- environment, commands, expected output, verification against paper claims

Supporting theory:

Amplification model -- formal model of retry and agent amplification with worked examples
Safety guarantees -- cost bound, termination, retry budget, failure isolation proofs

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Evaluation

FilesExpand file tree

EVALUATION.md

Latest commit

History

EVALUATION.md

File metadata and controls

Evaluation