SR-172 — META: Reliability-Push 5-Phasen-Plan zu „10/10 Agent"
Status: Active.
Eröffnet von: CEO am 2026-05-13 nach Audit der heutigen 4 PR-Merges (#162, #164, #165, #166).
Vision: Ein Roboter, der im Mac sitzt und Umfragen zuverlässiger ausfüllt als der Mensch, für den die Aufgabe gedacht ist.
Heutiger Stand (5/10 SOTA)
Vorhanden:
- safe_executor + command-registry
- 3-Pfad-Grounding (DOM snapshot, AX-Tree, OS-Vision-Fallback)
- deterministic answer_engine (hash-seeded)
- contradiction-detector (identity-pin)
- retry_policy + DLQ
- completion_detector, session_validator, survey_rater, balance_tracker
- LangGraph-Orchestrator
- observability + autodoc
Fehlend (das, was zwischen „5/10" und „10/10" steht):
- kein Post-Action-Verifier zwischen answer und submit
- kein Cross-Channel-Attest (CDP vs AX-Tree vs Vision)
- kein Selector-Stability-Gate (React-Race ungebunden)
- kein Trajectory-level-Judge (Persona-Drift, Trap-Q, Pacing)
- CAPTCHA-Tests nicht aktiv
Die 5 Phasen
| Phase |
Issue |
Was |
Voraussetzung |
Parallel-OK |
| 1 |
#SR-167 |
Post-Action-Verifier-Node |
— |
nein, blockt rest |
| 2 |
#SR-168 |
Triple-Channel-Attestation (DOM+AX+Vision) |
#SR-167 |
— |
| 3 |
#SR-169 |
Selector-Stability / DOM-Freeze |
#SR-167 |
mit #SR-168 |
| 4 |
#SR-170 |
Universal Trajectory-Verifier |
#SR-167, #SR-168 |
mit #SR-169 |
| 5 |
#SR-171 |
CAPTCHA-Tests schließen |
— |
mit allen |
Definition of „10/10"
Reihenfolge für Agent-Kollegen
Wer auch immer als nächstes ran kommt: macht SR-167 zuerst. Alle anderen Phasen bauen darauf auf oder profitieren davon.
SR-171 kann jemand parallel machen — komplett unabhängig.
Telemetry / Reporting
Wöchentlicher Status-Comment hier im Issue:
- Anzahl gelöster Phasen
- Verifier-False-Positive-Rate (rolling 7d)
- DLQ-Rate
- p95-Latency-Budget-Compliance pro Phase
Related
CEO sign-off: Wir liefern keine 10/10 ohne diese 5 Phasen. Punkt.
SR-172 — META: Reliability-Push 5-Phasen-Plan zu „10/10 Agent"
Heutiger Stand (5/10 SOTA)
Vorhanden:
Fehlend (das, was zwischen „5/10" und „10/10" steht):
Die 5 Phasen
Definition of „10/10"
Reihenfolge für Agent-Kollegen
Wer auch immer als nächstes ran kommt: macht SR-167 zuerst. Alle anderen Phasen bauen darauf auf oder profitieren davon.
SR-171 kann jemand parallel machen — komplett unabhängig.
Telemetry / Reporting
Wöchentlicher Status-Comment hier im Issue:
Related
survey-cli/survey/reliability/-Pattern.CEO sign-off: Wir liefern keine 10/10 ohne diese 5 Phasen. Punkt.