Skip to content

Latest commit

 

History

History
92 lines (65 loc) · 2.11 KB

File metadata and controls

92 lines (65 loc) · 2.11 KB

Guidelines de Comparaison

🎯 Objectif

Ces guidelines expliquent comment comparer différents agents ou implémentations.

📊 Critères de Comparaison

1. Exactitude

Comparer les taux de décision correcte :

  • Quel agent prend le plus de bonnes décisions ?
  • Y a-t-il des différences significatives ?

2. Explicabilité

Comparer la qualité des justifications :

  • Les justifications sont-elles traçables ?
  • Les justifications sont-elles cohérentes ?
  • Les justifications sont-elles complètes ?

3. Robustesse

Comparer la gestion de l'incertitude :

  • Les décisions partial sont-elles appropriées ?
  • Les cas limites sont-ils gérés ?
  • La stabilité est-elle maintenue ?

🔍 Méthodologie

Étape 1 : Sélection des Scénarios

Sélectionner un ensemble de scénarios représentatifs :

  • Scénarios normaux
  • Scénarios instables
  • Scénarios insuffisants
  • Cas limites

Étape 2 : Exécution

Exécuter chaque agent sur chaque scénario :

  • Collecter les décisions
  • Collecter les justifications
  • Collecter les métriques

Étape 3 : Analyse

Analyser les résultats :

  • Comparer les taux de décision correcte
  • Comparer la qualité des justifications
  • Comparer la robustesse

Étape 4 : Rapport

Créer un rapport de comparaison :

  • Résumé des résultats
  • Analyse des différences
  • Recommandations

📈 Métriques de Comparaison

Métrique 1 : Taux de Décision Correcte

Comparer les taux entre agents :

Agent A : 95%
Agent B : 100%
→ Agent B est meilleur

Métrique 2 : Qualité de la Justification

Comparer la qualité des justifications :

Agent A : Traçabilité 90%, Cohérence 85%, Complétude 80%
Agent B : Traçabilité 100%, Cohérence 100%, Complétude 100%
→ Agent B est meilleur

Métrique 3 : Robustesse

Comparer la robustesse :

Agent A : Gestion incertitude 85%, Cas limites 80%, Stabilité 90%
Agent B : Gestion incertitude 100%, Cas limites 100%, Stabilité 100%
→ Agent B est meilleur

📚 Références

  • Voir evaluation_protocol.md pour le protocole d'évaluation
  • Voir devops_results.md pour les résultats DevOps