Protocole d'Évaluation

🎯 Objectif

Ce protocole explique comment évaluer un agent sur sa capacité à raisonner structurellement.

📊 Critères d'Évaluation

1. Exactitude des Décisions

L'agent prend-il les bonnes décisions ?

Accepted : Quand les signaux convergent suffisamment
Partial : Quand l'instabilité est trop élevée
Refused : Quand les signaux sont insuffisants

2. Explicabilité

L'agent peut-il justifier ses décisions ?

Le chemin de raisonnement est-il traçable ?
Les pivots utilisés sont-ils identifiés ?
La justification est-elle structurée ?

3. Robustesse

L'agent gère-t-il correctement l'incertitude ?

Les décisions partial sont-elles appropriées ?
Les cas limites sont-ils gérés ?
L'instabilité est-elle détectée ?

🧪 Protocole d'Évaluation

Étape 1 : Scénarios de Test

Créer des scénarios couvrant :

Scénarios normaux : Signaux convergents → accepted
Scénarios instables : Signaux incertains → partial
Scénarios insuffisants : Signaux faibles → refused
Cas limites : Situations ambiguës

Étape 2 : Exécution

Exécuter l'agent sur chaque scénario et collecter :

La décision prise (accepted, partial, refused)
La justification fournie
Le chemin de raisonnement
Les pivots utilisés

Étape 3 : Validation

Valider que :

Les décisions sont correctes
Les justifications sont cohérentes
Les invariants sont respectés
Les cas limites sont gérés

Étape 4 : Comparaison

Comparer avec :

Les résultats attendus
Les résultats d'autres agents
Les benchmarks existants

📈 Métriques

Métrique 1 : Taux de Décision Correcte

Taux = (Décisions correctes) / (Total des décisions)

Métrique 2 : Qualité de la Justification

Évaluer la qualité de la justification sur :

Traçabilité : Le chemin est-il traçable ?
Cohérence : La justification est-elle cohérente ?
Complétude : Tous les éléments sont-ils expliqués ?

Métrique 3 : Robustesse

Évaluer la robustesse sur :

Gestion de l'incertitude : Les décisions partial sont-elles appropriées ?
Cas limites : Les cas limites sont-ils gérés ?
Stabilité : Les résultats sont-ils stables ?

🎓 Exemple : Évaluation DevOps

Scénario 1 : Déploiement Normal

Signaux :

Code merged (PROVEN)
Tests passed (PROVEN)
Security scan clean (PROVEN)

Résultat attendu : accepted

Validation :

✅ Décision correcte
✅ Justification cohérente
✅ Invariants respectés

Scénario 2 : Instabilité Globale

Signaux :

Code merged (PROVEN)
Tests passed (UNCERTAIN)
Security scan clean (UNCERTAIN)
Infra stable (UNCERTAIN)

Résultat attendu : partial

Validation :

✅ Décision correcte (instabilité détectée)
✅ Justification mentionne l'instabilité
✅ Invariants respectés

Scénario 3 : Signal Insuffisant

Signaux :

Code merged (PROVEN)
Tests passed (UNCERTAIN)
Security scan clean (UNCERTAIN)

Résultat attendu : refused (signal isolé insuffisant)

Validation :

✅ Décision correcte
✅ Justification mentionne l'insuffisance
✅ Invariants respectés

📚 Références

Voir 06_benchmark/ pour les résultats des benchmarks
Voir 03_domains/devops/exercises/ pour des exemples d'exercices
Voir methodology.md pour la méthodologie d'entraînement

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Protocole d'Évaluation

🎯 Objectif

📊 Critères d'Évaluation

1. Exactitude des Décisions

2. Explicabilité

3. Robustesse

🧪 Protocole d'Évaluation

Étape 1 : Scénarios de Test

Étape 2 : Exécution

Étape 3 : Validation

Étape 4 : Comparaison

📈 Métriques

Métrique 1 : Taux de Décision Correcte

Métrique 2 : Qualité de la Justification

Métrique 3 : Robustesse

🎓 Exemple : Évaluation DevOps

Scénario 1 : Déploiement Normal

Scénario 2 : Instabilité Globale

Scénario 3 : Signal Insuffisant

📚 Références

FilesExpand file tree

evaluation.md

Latest commit

History

evaluation.md

File metadata and controls

Protocole d'Évaluation

🎯 Objectif

📊 Critères d'Évaluation

1. Exactitude des Décisions

2. Explicabilité

3. Robustesse

🧪 Protocole d'Évaluation

Étape 1 : Scénarios de Test

Étape 2 : Exécution

Étape 3 : Validation

Étape 4 : Comparaison

📈 Métriques

Métrique 1 : Taux de Décision Correcte

Métrique 2 : Qualité de la Justification

Métrique 3 : Robustesse

🎓 Exemple : Évaluation DevOps

Scénario 1 : Déploiement Normal

Scénario 2 : Instabilité Globale

Scénario 3 : Signal Insuffisant

📚 Références