Skip to content

Latest commit

 

History

History
91 lines (61 loc) · 2.4 KB

File metadata and controls

91 lines (61 loc) · 2.4 KB

Protocole d'Évaluation

🎯 Objectif

Ce protocole définit comment évaluer un agent sur sa capacité à raisonner structurellement.

📋 Critères d'Évaluation

1. Exactitude des Décisions

L'agent prend-il les bonnes décisions ?

  • Accepted : Quand les signaux convergent suffisamment
  • Partial : Quand l'instabilité est trop élevée
  • Refused : Quand les signaux sont insuffisants

2. Explicabilité

L'agent peut-il justifier ses décisions ?

  • Le chemin de raisonnement est-il traçable ?
  • Les pivots utilisés sont-ils identifiés ?
  • La justification est-elle structurée ?

3. Robustesse

L'agent gère-t-il correctement l'incertitude ?

  • Les décisions partial sont-elles appropriées ?
  • Les cas limites sont-ils gérés ?
  • L'instabilité est-elle détectée ?

🧪 Protocole

Étape 1 : Scénarios de Test

Créer des scénarios couvrant :

  • Scénarios normaux : Signaux convergents → accepted
  • Scénarios instables : Signaux incertains → partial
  • Scénarios insuffisants : Signaux faibles → refused
  • Cas limites : Situations ambiguës

Étape 2 : Exécution

Exécuter l'agent sur chaque scénario et collecter :

  • La décision prise (accepted, partial, refused)
  • La justification fournie
  • Le chemin de raisonnement
  • Les pivots utilisés

Étape 3 : Validation

Valider que :

  • Les décisions sont correctes
  • Les justifications sont cohérentes
  • Les invariants sont respectés
  • Les cas limites sont gérés

Étape 4 : Comparaison

Comparer avec :

  • Les résultats attendus
  • Les résultats d'autres agents
  • Les benchmarks existants

📈 Métriques

Métrique 1 : Taux de Décision Correcte

Taux = (Décisions correctes) / (Total des décisions)

Métrique 2 : Qualité de la Justification

Évaluer la qualité de la justification sur :

  • Traçabilité : Le chemin est-il traçable ?
  • Cohérence : La justification est-elle cohérente ?
  • Complétude : Tous les éléments sont-ils expliqués ?

Métrique 3 : Robustesse

Évaluer la robustesse sur :

  • Gestion de l'incertitude : Les décisions partial sont-elles appropriées ?
  • Cas limites : Les cas limites sont-ils gérés ?
  • Stabilité : Les résultats sont-ils stables ?

📚 Références

  • Voir 02_training_framework/evaluation.md pour plus de détails
  • Voir 03_domains/devops/benchmark.md pour les résultats DevOps