Skip to content

SR-172 META: Reliability Push to 10/10 — 5-Phase Plan #172

@Delqhi

Description

@Delqhi

SR-172 — META: Reliability-Push 5-Phasen-Plan zu „10/10 Agent"

Status: Active.
Eröffnet von: CEO am 2026-05-13 nach Audit der heutigen 4 PR-Merges (#162, #164, #165, #166).
Vision: Ein Roboter, der im Mac sitzt und Umfragen zuverlässiger ausfüllt als der Mensch, für den die Aufgabe gedacht ist.

Heutiger Stand (5/10 SOTA)

Vorhanden:

  • safe_executor + command-registry
  • 3-Pfad-Grounding (DOM snapshot, AX-Tree, OS-Vision-Fallback)
  • deterministic answer_engine (hash-seeded)
  • contradiction-detector (identity-pin)
  • retry_policy + DLQ
  • completion_detector, session_validator, survey_rater, balance_tracker
  • LangGraph-Orchestrator
  • observability + autodoc

Fehlend (das, was zwischen „5/10" und „10/10" steht):

  • kein Post-Action-Verifier zwischen answer und submit
  • kein Cross-Channel-Attest (CDP vs AX-Tree vs Vision)
  • kein Selector-Stability-Gate (React-Race ungebunden)
  • kein Trajectory-level-Judge (Persona-Drift, Trap-Q, Pacing)
  • CAPTCHA-Tests nicht aktiv

Die 5 Phasen

Phase Issue Was Voraussetzung Parallel-OK
1 #SR-167 Post-Action-Verifier-Node nein, blockt rest
2 #SR-168 Triple-Channel-Attestation (DOM+AX+Vision) #SR-167
3 #SR-169 Selector-Stability / DOM-Freeze #SR-167 mit #SR-168
4 #SR-170 Universal Trajectory-Verifier #SR-167, #SR-168 mit #SR-169
5 #SR-171 CAPTCHA-Tests schließen mit allen

Definition of „10/10"

  • Jede state-changing Action passiert ein Pre-Stability-Gate (SR-169).
  • Jede state-changing Action passiert ein Post-Action-Verify (SR-167).
  • Jeder Verify hat Cross-Channel-Attestation (SR-168).
  • Jeder completed Survey passiert einen Trajectory-Audit (SR-170).
  • Alle Test-Skips entfernt (SR-171).
  • Verifier-False-Positive-Rate < 2 % (gemessen auf 1000 echten Runs).
  • DLQ-Rate < 5 % (95 % aller Surveys laufen sauber durch).
  • Bot-Detect-Rate < 1 % (manual sample n=100, monatlich).
  • Persona-Drift-Flag-Rate < 3 % (Trajectory-Audit).

Reihenfolge für Agent-Kollegen

Wer auch immer als nächstes ran kommt: macht SR-167 zuerst. Alle anderen Phasen bauen darauf auf oder profitieren davon.

SR-171 kann jemand parallel machen — komplett unabhängig.

Telemetry / Reporting

Wöchentlicher Status-Comment hier im Issue:

  • Anzahl gelöster Phasen
  • Verifier-False-Positive-Rate (rolling 7d)
  • DLQ-Rate
  • p95-Latency-Budget-Compliance pro Phase

Related


CEO sign-off: Wir liefern keine 10/10 ohne diese 5 Phasen. Punkt.

Metadata

Metadata

Assignees

No one assigned

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions