|
| 1 | += LLM-Evaluations |
| 2 | +:categories: testing-quality |
| 3 | +:roles: data-scientist, software-developer, qa-engineer, software-architect |
| 4 | +:related: chain-of-thought, sota, mutation-testing |
| 5 | +:proponents: Percy Liang (Stanford HELM), EleutherAI (Open LLM Leaderboard), LMSYS (Chatbot Arena) |
| 6 | +:tags: llm, evaluation, benchmarks, metrics, leaderboard, nlp, ai |
| 7 | + |
| 8 | +[%collapsible] |
| 9 | +==== |
| 10 | +Vollständiger Name:: Large Language Model Evaluations (Bewertung großer Sprachmodelle) |
| 11 | + |
| 12 | +Auch bekannt als:: LLM-Benchmarking, LLM-Bewertung, Foundation-Model-Evaluation |
| 13 | + |
| 14 | +[discrete] |
| 15 | +== *Kernkonzepte*: |
| 16 | + |
| 17 | +Benchmark-Suiten:: Standardisierte Datensätze und Aufgaben zum Vergleich von LLM-Fähigkeiten — MMLU (Massive Multitask Language Understanding), HellaSwag, HumanEval, BIG-Bench, GSM8K, TruthfulQA, ARC |
| 18 | + |
| 19 | +Evaluationsmetriken:: Quantitative Maße für Modellqualität — Perplexity, Genauigkeit, BLEU, ROUGE, F1, pass@k (Code-Generierung), Exact Match, Kalibrierung |
| 20 | + |
| 21 | +Automatische vs. menschliche Evaluation:: Automatisierte Bewertung über Metriken oder Referenzausgaben (schnell, skalierbar) vs. menschliches Urteil (differenziert, kostenintensiv); hybride Ansätze wie LLM-as-Judge |
| 22 | + |
| 23 | +HELM (Holistic Evaluation of Language Models):: Stanford-Framework, das Modelle über mehrere Szenarien und Metriken gleichzeitig bewertet, um Kompromisse bei Genauigkeit, Robustheit, Fairness und Effizienz sichtbar zu machen |
| 24 | + |
| 25 | +Chatbot Arena / Elo-Rating:: Präferenzbasierte Evaluation, bei der zwei Modelle auf denselben Prompt antworten und Menschen die bessere Antwort wählen; erzeugt Elo-ähnliche Ranglisten |
| 26 | + |
| 27 | +Open LLM Leaderboard:: Von Hugging Face / EleutherAI gehostetes Ranking von Open-Source-Modellen anhand standardisierter Benchmarks für reproduzierbare Vergleiche |
| 28 | + |
| 29 | +Red-Teaming & Sicherheitsevaluation:: Systematisches adversariales Testen auf schädliche Ausgaben, Jailbreaks und Fehlerszenarien; notwendiger Schritt vor dem Produktionseinsatz |
| 30 | + |
| 31 | +Datenkontamination & Overfitting:: Risiko, dass Trainingsdaten eines Modells die Test-Sets der Benchmarks enthalten und so die scheinbare Leistung aufblähen; Gegenmaßnahmen: zurückgehaltene oder dynamische Benchmarks |
| 32 | + |
| 33 | +Aufgabenspezifische vs. allgemeine Evaluation:: Gezielte Bewertung für einen spezifischen Anwendungsfall (z. B. Code, Zusammenfassung, RAG-Retrieval) vs. breite Fähigkeitsbewertung über diverse Domänen |
| 34 | + |
| 35 | +Schlüsselvertreter:: Percy Liang et al. (Stanford, "Holistic Evaluation of Language Models"), EleutherAI ("Language Model Evaluation Harness"), LMSYS ("Chatbot Arena: Benchmarking LLMs in the Wild") |
| 36 | + |
| 37 | +[discrete] |
| 38 | +== *Wann zu verwenden*: |
| 39 | + |
| 40 | +* Auswahl eines Foundation-Modells für eine spezifische Anwendungsdomäne |
| 41 | +* Vergleich feinjustierter Modellversionen während des iterativen Trainings |
| 42 | +* Validierung, dass ein Modell Qualitäts-, Sicherheits- und Fairness-Anforderungen vor dem Deployment erfüllt |
| 43 | +* Reproduzieren oder Hinterfragen veröffentlichter Modell-Leistungsaussagen |
| 44 | +* Erstellen von Regressions-Baselines beim Update eines eingesetzten Modells |
| 45 | +* Kommunikation von Modellstärken und -grenzen an nicht-technische Stakeholder |
| 46 | + |
| 47 | +[discrete] |
| 48 | +== *Verwandte Anker*: |
| 49 | + |
| 50 | +* <<chain-of-thought,Chain of Thought (CoT)>> |
| 51 | +* <<sota,SOTA (State-of-the-Art)>> |
| 52 | +* <<mutation-testing,Mutation Testing>> |
| 53 | +==== |
0 commit comments