Skip to content

Latest commit

 

History

History
137 lines (94 loc) · 3.42 KB

File metadata and controls

137 lines (94 loc) · 3.42 KB

Protocole d'Évaluation

🎯 Objectif

Ce protocole explique comment évaluer un agent sur sa capacité à raisonner structurellement.

📊 Critères d'Évaluation

1. Exactitude des Décisions

L'agent prend-il les bonnes décisions ?

  • Accepted : Quand les signaux convergent suffisamment
  • Partial : Quand l'instabilité est trop élevée
  • Refused : Quand les signaux sont insuffisants

2. Explicabilité

L'agent peut-il justifier ses décisions ?

  • Le chemin de raisonnement est-il traçable ?
  • Les pivots utilisés sont-ils identifiés ?
  • La justification est-elle structurée ?

3. Robustesse

L'agent gère-t-il correctement l'incertitude ?

  • Les décisions partial sont-elles appropriées ?
  • Les cas limites sont-ils gérés ?
  • L'instabilité est-elle détectée ?

🧪 Protocole d'Évaluation

Étape 1 : Scénarios de Test

Créer des scénarios couvrant :

  • Scénarios normaux : Signaux convergents → accepted
  • Scénarios instables : Signaux incertains → partial
  • Scénarios insuffisants : Signaux faibles → refused
  • Cas limites : Situations ambiguës

Étape 2 : Exécution

Exécuter l'agent sur chaque scénario et collecter :

  • La décision prise (accepted, partial, refused)
  • La justification fournie
  • Le chemin de raisonnement
  • Les pivots utilisés

Étape 3 : Validation

Valider que :

  • Les décisions sont correctes
  • Les justifications sont cohérentes
  • Les invariants sont respectés
  • Les cas limites sont gérés

Étape 4 : Comparaison

Comparer avec :

  • Les résultats attendus
  • Les résultats d'autres agents
  • Les benchmarks existants

📈 Métriques

Métrique 1 : Taux de Décision Correcte

Taux = (Décisions correctes) / (Total des décisions)

Métrique 2 : Qualité de la Justification

Évaluer la qualité de la justification sur :

  • Traçabilité : Le chemin est-il traçable ?
  • Cohérence : La justification est-elle cohérente ?
  • Complétude : Tous les éléments sont-ils expliqués ?

Métrique 3 : Robustesse

Évaluer la robustesse sur :

  • Gestion de l'incertitude : Les décisions partial sont-elles appropriées ?
  • Cas limites : Les cas limites sont-ils gérés ?
  • Stabilité : Les résultats sont-ils stables ?

🎓 Exemple : Évaluation DevOps

Scénario 1 : Déploiement Normal

Signaux :

  • Code merged (PROVEN)
  • Tests passed (PROVEN)
  • Security scan clean (PROVEN)

Résultat attendu : accepted

Validation :

  • ✅ Décision correcte
  • ✅ Justification cohérente
  • ✅ Invariants respectés

Scénario 2 : Instabilité Globale

Signaux :

  • Code merged (PROVEN)
  • Tests passed (UNCERTAIN)
  • Security scan clean (UNCERTAIN)
  • Infra stable (UNCERTAIN)

Résultat attendu : partial

Validation :

  • ✅ Décision correcte (instabilité détectée)
  • ✅ Justification mentionne l'instabilité
  • ✅ Invariants respectés

Scénario 3 : Signal Insuffisant

Signaux :

  • Code merged (PROVEN)
  • Tests passed (UNCERTAIN)
  • Security scan clean (UNCERTAIN)

Résultat attendu : refused (signal isolé insuffisant)

Validation :

  • ✅ Décision correcte
  • ✅ Justification mentionne l'insuffisance
  • ✅ Invariants respectés

📚 Références

  • Voir 06_benchmark/ pour les résultats des benchmarks
  • Voir 03_domains/devops/exercises/ pour des exemples d'exercices
  • Voir methodology.md pour la méthodologie d'entraînement