Ce protocole définit comment évaluer un agent sur sa capacité à raisonner structurellement.
L'agent prend-il les bonnes décisions ?
- Accepted : Quand les signaux convergent suffisamment
- Partial : Quand l'instabilité est trop élevée
- Refused : Quand les signaux sont insuffisants
L'agent peut-il justifier ses décisions ?
- Le chemin de raisonnement est-il traçable ?
- Les pivots utilisés sont-ils identifiés ?
- La justification est-elle structurée ?
L'agent gère-t-il correctement l'incertitude ?
- Les décisions
partialsont-elles appropriées ? - Les cas limites sont-ils gérés ?
- L'instabilité est-elle détectée ?
Créer des scénarios couvrant :
- Scénarios normaux : Signaux convergents →
accepted - Scénarios instables : Signaux incertains →
partial - Scénarios insuffisants : Signaux faibles →
refused - Cas limites : Situations ambiguës
Exécuter l'agent sur chaque scénario et collecter :
- La décision prise (
accepted,partial,refused) - La justification fournie
- Le chemin de raisonnement
- Les pivots utilisés
Valider que :
- Les décisions sont correctes
- Les justifications sont cohérentes
- Les invariants sont respectés
- Les cas limites sont gérés
Comparer avec :
- Les résultats attendus
- Les résultats d'autres agents
- Les benchmarks existants
Taux = (Décisions correctes) / (Total des décisions)
Évaluer la qualité de la justification sur :
- Traçabilité : Le chemin est-il traçable ?
- Cohérence : La justification est-elle cohérente ?
- Complétude : Tous les éléments sont-ils expliqués ?
Évaluer la robustesse sur :
- Gestion de l'incertitude : Les décisions
partialsont-elles appropriées ? - Cas limites : Les cas limites sont-ils gérés ?
- Stabilité : Les résultats sont-ils stables ?
- Voir
02_training_framework/evaluation.mdpour plus de détails - Voir
03_domains/devops/benchmark.mdpour les résultats DevOps