docs: add cross-model validation section#594
Conversation
Reproduces the A–E anchor activation battery against GPT-5, GPT-5-mini and Gemini 2.5 Flash. Confirms the mechanism is model-family-independent and documents a third failure mode (confabulation) not visible in the Claude-only test. Addresses: LLM-Coding#586 (comment)
WalkthroughDie Änderung ergänzt die Dokumentation um einen neuen Abschnitt „Cross-Model Validation", der zeigt, dass das Cockburn fully-dressed-Framing Semantic Anchors über mehrere LLM-Modelle hinweg zuverlässig auslöst, während gleichzeitig Failure Modes und ein Viability-Konzept zur Beurteilung der Anker-Stabilität eingeführt werden. ChangesCross-Model Validation für Semantic Anchors
Estimated code review effort🎯 2 (Simple) | ⏱️ ~12 Minuten Possibly related PRs
🚥 Pre-merge checks | ✅ 5✅ Passed checks (5 passed)
✏️ Tip: You can configure your own custom pre-merge checks in the settings. ✨ Finishing Touches🧪 Generate unit tests (beta)
Thanks for using CodeRabbit! It's free for OSS, and your support helps us grow. If you like it, consider giving us a shout-out. Comment |
There was a problem hiding this comment.
Actionable comments posted: 3
🤖 Prompt for all review comments with AI agents
Verify each finding against current code. Fix only still-valid issues, skip the
rest with a brief reason, keep changes minimal, and validate.
Inline comments:
In `@docs/training-data-vs-practice.adoc`:
- Line 112: The document text claims "five prior-mapping probes (P1–P5)" but the
probe definitions only include P1–P4; either change the text to "four
prior-mapping probes (P1–P4)" or add a missing P5 definition to the probe
battery so labels match. Locate the string "five prior-mapping probes (P1–P5)"
in the adoc and replace it with "four prior-mapping probes (P1–P4)" if you
choose the first option, or if you add P5, create a matching probe entry named
P5 in the probe-battery definitions (and update any related references or
indexes) so that the P1–P5 labeling is consistent across the docs.
- Around line 114-116: Die Einträge für die Modelle GPT-5, GPT-5-mini und Gemini
2.5 Flash in der Modell-Liste sind datumsfehlerhaft; passe die „Mai
2026“-Angaben an die tatsächlichen Veröffentlichungs-/GA-Daten (z. B. GPT-5 /
GPT-5-mini → August 2025; Gemini 2.5 Flash → 2025 Preview/GA) und füge kurz
überprüfbare Quellen hinzu; suche die drei Namen (GPT-5, GPT-5-mini, Gemini 2.5
Flash) in docs/training-data-vs-practice.adoc, aktualisiere die Datumsstrings
dort und ergänze je einen Quellenhinweis/Footnote mit einem verlässlichen Link
oder Referenztext.
- Line 118: The doc references a non-existent Raw outputs directory
"anchor-activation-test-20260609/"; update docs/training-data-vs-practice.adoc
to either (A) add a clear note that Raw outputs come from the
"anchor-activation-test-20260609/" experiment and describe how to generate or
obtain them (e.g., reproduction steps, script name, or download location), or
(B) change the reference to the actual repository artifact pattern (e.g.,
"anchor-activation-test-*") and explain which variant to use; ensure the string
"anchor-activation-test-20260609/" in the file is replaced or augmented with the
generation/ acquisition instructions so readers can locate or recreate the Raw
outputs.
🪄 Autofix (Beta)
Fix all unresolved CodeRabbit comments on this PR:
- Push a commit to this branch (recommended)
- Create a new PR with the fixes
ℹ️ Review info
⚙️ Run configuration
Configuration used: Path: .coderabbit.yml
Review profile: CHILL
Plan: Pro
Run ID: 0556dfd3-6115-4f45-841c-e8263189ad4c
📒 Files selected for processing (1)
docs/training-data-vs-practice.adoc
|
|
||
| === Setup | ||
|
|
||
| The same five framings (A–E) and five prior-mapping probes (P1–P5) were run against three non-Claude models, each in a clean session without system prompts or custom instructions: |
There was a problem hiding this comment.
🧩 Analysis chain
🏁 Script executed:
#!/bin/bash
# Überprüfung der definierten Probe-Typen in der Methodendokumentation
rg -n "^## P[0-9]" plugins/semantic-anchors/skills/anchor-prior-test/references/probe-battery.mdRepository: LLM-Coding/Semantic-Anchors
Length of output: 200
Inkonsistenz bei den Probe-Typen (P1–P5 vs. Methodendefinition)
In docs/training-data-vs-practice.adoc (Zeile 112) wird „five prior-mapping probes (P1–P5)“ behauptet, aber plugins/semantic-anchors/skills/anchor-prior-test/references/probe-battery.md definiert nur P1–P4 (kein P5). Entweder „four prior-mapping probes (P1–P4)“ verwenden oder P5 in der Methodendokumentation ergänzen.
🤖 Prompt for AI Agents
Verify each finding against current code. Fix only still-valid issues, skip the
rest with a brief reason, keep changes minimal, and validate.
In `@docs/training-data-vs-practice.adoc` at line 112, The document text claims
"five prior-mapping probes (P1–P5)" but the probe definitions only include
P1–P4; either change the text to "four prior-mapping probes (P1–P4)" or add a
missing P5 definition to the probe battery so labels match. Locate the string
"five prior-mapping probes (P1–P5)" in the adoc and replace it with "four
prior-mapping probes (P1–P4)" if you choose the first option, or if you add P5,
create a matching probe entry named P5 in the probe-battery definitions (and
update any related references or indexes) so that the P1–P5 labeling is
consistent across the docs.
| * **GPT-5** (OpenAI, May 2026) | ||
| * **GPT-5-mini** (OpenAI, May 2026) | ||
| * **Gemini 2.5 Flash** (Google, May 2026) |
There was a problem hiding this comment.
🧩 Analysis chain
🌐 Web query:
Gibt es offizielle Veröffentlichungen zu GPT-5 und GPT-5-mini von OpenAI im Mai 2026?
💡 Result:
Im Mai 2026 gab es keine offizielle Veröffentlichung oder Ankündigung von OpenAI, die sich spezifisch auf ein Modell namens "GPT-5" oder "GPT-5-mini" als neues Release bezog. Diese Modelle waren zu diesem Zeitpunkt bereits seit August 2025 Teil der OpenAI-Modellfamilie [1][2][3]. Zusammenfassend lässt sich der Stand der Dinge im Mai 2026 wie folgt einordnen: 1. GPT-5 und GPT-5-mini: Die Basis-Modelle der GPT-5-Serie wurden bereits am 7. August 2025 offiziell eingeführt und für Entwickler in der API sowie für Nutzer in ChatGPT bereitgestellt [1][2][3]. "GPT-5-mini" wurde dabei als kosteneffizientere und schnellere Variante innerhalb dieses Systems spezifiziert [4][1][3]. 2. Aktuelle Entwicklungen im Mai 2026: Im Mai 2026 lag der Fokus von OpenAI bereits auf weiterentwickelten Modellen der GPT-5-Reihe. So wurde beispielsweise GPT-5.5 bereits am 23. April 2026 vorgestellt [5] und Anfang Juni 2026 die Verfügbarkeit von Modellen wie GPT-5.4 und GPT-5.5 auf der AWS Bedrock-Plattform bekannt gegeben [6]. 3. Hintergrund: Die Modellbezeichnungen GPT-5 und GPT-5-mini gehören somit zum etablierten Portfolio, das bereits Monate vor Mai 2026 veröffentlicht wurde [1][2][7]. Berichte oder Suchanfragen im Mai 2026, die ein Release dieser spezifischen Modelle suggerieren, sind vor dem Hintergrund der bereits existierenden Verfügbarkeit nicht als Ankündigung einer Neuerscheinung zu werten [1][2].
Citations:
- 1: https://openai.com/index/introducing-gpt-5-for-developers/
- 2: https://openai.com/index/introducing-gpt-5/
- 3: https://openai.com/index/gpt-5-system-card/
- 4: https://developers.openai.com/api/docs/models/gpt-5-mini
- 5: https://openai.com/de-DE/index/introducing-gpt-5-5/
- 6: https://www.ad-hoc-news.de/wissenschaft/openai-auf-aws-gpt-5-5-und-gpt-5-4-ab-sofort-auf-bedrock/69474301
- 7: https://nevercodealone.de/de/glossare/ki-tools-2026/chatgpt-openai-gpt-5-modelle-2026
🌐 Web query:
Gibt es eine offizielle Veröffentlichung zu Gemini 2.5 Flash von Google im Mai 2026?
💡 Result:
Es gibt keine offizielle Veröffentlichung zu Gemini 2.5 Flash im Mai 2026, da dieses Modell bereits im Jahr 2025 veröffentlicht wurde [1][2]. Gemini 2.5 Flash wurde ursprünglich am 17. April 2025 als Preview-Version vorgestellt [3] und am 17. Juni 2025 als stabile, allgemein verfügbare Version (General Availability) für Entwickler und Unternehmen freigegeben [4][2]. Im Mai 2026 lag der Fokus der offiziellen Veröffentlichungen von Google bereits auf der neuen Modellgeneration Gemini 3.5. So wurde beispielsweise das Modell Gemini 3.5 Flash am 19. Mai 2026 offiziell veröffentlicht [5]. Die offizielle Dokumentation zur Gemini API listet Gemini 2.5 Flash als ein bereits etabliertes Modell der früheren 2.5-Familie, nicht als eine Neuerscheinung für den Mai 2026 [6].
Citations:
- 1: https://docs.cloud.google.com/gemini-enterprise-agent-platform/models/gemini/2-5-flash
- 2: https://blog.google/products-and-platforms/products/gemini/gemini-2-5-model-family-expands/
- 3: https://blog.google/products-and-platforms/products/gemini/gemini-2-5-flash-preview/
- 4: https://developers.googleblog.com/gemini-2-5-thinking-model-updates/
- 5: https://docs.cloud.google.com/gemini-enterprise-agent-platform/models/model-versions
- 6: https://ai.google.dev/gemini-api/docs/models
Veröffentlichungsdaten in der Modell-Liste korrigieren/belegen
In docs/training-data-vs-practice.adoc (Zeilen 114–116) wirken die „Mai 2026“-Angaben zu GPT-5/GPT-5-mini und „Gemini 2.5 Flash“ nicht stimmig: GPT-5 bzw. GPT-5-mini wurden bereits im August 2025 eingeführt, und Gemini 2.5 Flash war bereits 2025 (Preview/GA) verfügbar. Modellnamen können dabei korrekt sein, aber die genannten Daten sollten auf die tatsächlichen Veröffentlichungs-/GA-Daten angepasst und ggf. mit Quellen belegt werden.
🤖 Prompt for AI Agents
Verify each finding against current code. Fix only still-valid issues, skip the
rest with a brief reason, keep changes minimal, and validate.
In `@docs/training-data-vs-practice.adoc` around lines 114 - 116, Die Einträge für
die Modelle GPT-5, GPT-5-mini und Gemini 2.5 Flash in der Modell-Liste sind
datumsfehlerhaft; passe die „Mai 2026“-Angaben an die tatsächlichen
Veröffentlichungs-/GA-Daten (z. B. GPT-5 / GPT-5-mini → August 2025; Gemini 2.5
Flash → 2025 Preview/GA) und füge kurz überprüfbare Quellen hinzu; suche die
drei Namen (GPT-5, GPT-5-mini, Gemini 2.5 Flash) in
docs/training-data-vs-practice.adoc, aktualisiere die Datumsstrings dort und
ergänze je einen Quellenhinweis/Footnote mit einem verlässlichen Link oder
Referenztext.
| * **GPT-5-mini** (OpenAI, May 2026) | ||
| * **Gemini 2.5 Flash** (Google, May 2026) | ||
|
|
||
| Raw outputs: `anchor-activation-test-20260609/`. |
There was a problem hiding this comment.
🧩 Analysis chain
🏁 Script executed:
#!/bin/bash
# Überprüfung, ob das referenzierte Verzeichnis existiert
fd -t d "anchor-activation-test-20260609"Repository: LLM-Coding/Semantic-Anchors
Length of output: 53
🏁 Script executed:
#!/bin/bash
set -euo pipefail
echo "=== Kontext in docs/training-data-vs-practice.adoc (Zeilen 100-140) ==="
sed -n '100,140p' docs/training-data-vs-practice.adoc || true
echo
echo "=== Suche nach anchor-activation-test-20260609 im Repo ==="
rg -n "anchor-activation-test-20260609" -S . || true
echo
echo "=== Suche nach Verzeichnis-Namensvarianten (Wildcard) ==="
fd -t d "*anchor-activation-test-20260609*" . || trueRepository: LLM-Coding/Semantic-Anchors
Length of output: 3177
🏁 Script executed:
#!/bin/bash
set -euo pipefail
echo "=== Exakter Ordnername: anchor-activation-test-20260609 ==="
find . -type d -name 'anchor-activation-test-20260609' -print
echo
echo "=== Ordner-Namensvarianten (glob) ==="
fd -t d --glob '*anchor-activation-test-20260609*' . || true
echo
echo "=== Alle Ordner mit prefix anchor-activation-test-* (kurz) ==="
fd -t d --glob 'anchor-activation-test-*' . | head -n 50 || trueRepository: LLM-Coding/Semantic-Anchors
Length of output: 234
Verzeichnisreferenz der Raw Outputs prüfen (anchor-activation-test-20260609/ fehlt)
In docs/training-data-vs-practice.adoc (Zeile 118) wird anchor-activation-test-20260609/ als Verzeichnis für „Raw outputs“ referenziert, jedoch existiert es (inkl. passender Namesvarianten mit Prefix anchor-activation-test-*) nicht im Repository. Entweder das Verzeichnis/Artefakte ergänzen oder die Doku so anpassen, dass klar ist, woher die Raw Outputs stammen bzw. wie sie generiert/bezogen werden.
🤖 Prompt for AI Agents
Verify each finding against current code. Fix only still-valid issues, skip the
rest with a brief reason, keep changes minimal, and validate.
In `@docs/training-data-vs-practice.adoc` at line 118, The doc references a
non-existent Raw outputs directory "anchor-activation-test-20260609/"; update
docs/training-data-vs-practice.adoc to either (A) add a clear note that Raw
outputs come from the "anchor-activation-test-20260609/" experiment and describe
how to generate or obtain them (e.g., reproduction steps, script name, or
download location), or (B) change the reference to the actual repository
artifact pattern (e.g., "anchor-activation-test-*") and explain which variant to
use; ensure the string "anchor-activation-test-20260609/" in the file is
replaced or augmented with the generation/ acquisition instructions so readers
can locate or recreate the Raw outputs.
|
Thanx! |
Adds a "Cross-Model Validation" section to the training-data-vs-practice article, as requested in #586 (comment).
What's in this section
Placement
Inserted after "How Far the Prior Actually Reaches" and before "Why the Anchor Lags Real Practice".
Raw data
Test outputs are in
anchor-activation-test-20260609/— happy to include if useful.cc @raifdmueller
Summary by CodeRabbit