Ces guidelines expliquent comment comparer différents agents ou implémentations.
Comparer les taux de décision correcte :
- Quel agent prend le plus de bonnes décisions ?
- Y a-t-il des différences significatives ?
Comparer la qualité des justifications :
- Les justifications sont-elles traçables ?
- Les justifications sont-elles cohérentes ?
- Les justifications sont-elles complètes ?
Comparer la gestion de l'incertitude :
- Les décisions
partialsont-elles appropriées ? - Les cas limites sont-ils gérés ?
- La stabilité est-elle maintenue ?
Sélectionner un ensemble de scénarios représentatifs :
- Scénarios normaux
- Scénarios instables
- Scénarios insuffisants
- Cas limites
Exécuter chaque agent sur chaque scénario :
- Collecter les décisions
- Collecter les justifications
- Collecter les métriques
Analyser les résultats :
- Comparer les taux de décision correcte
- Comparer la qualité des justifications
- Comparer la robustesse
Créer un rapport de comparaison :
- Résumé des résultats
- Analyse des différences
- Recommandations
Comparer les taux entre agents :
Agent A : 95%
Agent B : 100%
→ Agent B est meilleur
Comparer la qualité des justifications :
Agent A : Traçabilité 90%, Cohérence 85%, Complétude 80%
Agent B : Traçabilité 100%, Cohérence 100%, Complétude 100%
→ Agent B est meilleur
Comparer la robustesse :
Agent A : Gestion incertitude 85%, Cas limites 80%, Stabilité 90%
Agent B : Gestion incertitude 100%, Cas limites 100%, Stabilité 100%
→ Agent B est meilleur
- Voir
evaluation_protocol.mdpour le protocole d'évaluation - Voir
devops_results.mdpour les résultats DevOps