fix: scale test failures — goldeneye in commander pool, 8 reviewer pairs, SS-100 domains

Gregg Cochran · Copilot · Gregg Cochran · commit d966a73592ae · 2026-04-13T14:12:49.000-07:00
Scale verification tests (SS-50, SS-100, SS-250) found remaining issues:

SKILL.md:
- Commander pool: 9 → 10 models (add goldeneye)
- Reviewer pairs: 7 → 8 (add goldeneye↔gpt-4.1)
- SS-250 pool reference: 'pool of 9' → 'pool of 10'

README.md:
- Commander pool: 9 → 10, add goldeneye
- Reviewer pairs: 7 → 8, add goldeneye↔gpt-4.1
- Squad Leads marked (SS-250 only)

docs/scaling.md:
- SS-100 domains: '3 of 5' → 'All 5'
- SS-100 reviewers: '7 cross-family pairs' → '3-4 review pairs'
- SS-250 reviewers: '7 pairs' → '8 pairs' (3 locations)

docs/architecture.md:
- Reviewer pairs: 7 → 8

config.yml:
- SS-50 commanders comment: clarify 2-3 range

.github/skills/: synced with skills/ copy

Co-authored-by: Copilot &lt;223556219+Copilot@users.noreply.github.com&gt;
diff --git a/.github/skills/swarm-command/SKILL.md b/.github/skills/swarm-command/SKILL.md
diff --git a/README.md b/README.md
@@ -551,10 +551,10 @@ See [docs/scaling.md](docs/scaling.md) for full scaling configuration and cost e
 | Role | Models |
 |---|---|
 | **Nexus** | claude-opus-4.6 |
-| **Commanders** (pool: 9) | claude-opus-4.6, claude-opus-4.5, claude-opus-4.6-1m, claude-sonnet-4.6, claude-sonnet-4.5, claude-sonnet-4, gpt-5.4, gpt-5.2, gpt-5.1 |
-| **Squad Leads** | claude-haiku-4.5, gpt-5.4-mini |
+| **Commanders** (pool: 10) | claude-opus-4.6, claude-opus-4.5, claude-opus-4.6-1m, claude-sonnet-4.6, claude-sonnet-4.5, claude-sonnet-4, gpt-5.4, gpt-5.2, gpt-5.1, goldeneye |
+| **Squad Leads** (SS-250 only) | claude-haiku-4.5, gpt-5.4-mini |
 | **Workers** (pool: 6) | claude-haiku-4.5, gpt-5.4-mini, gpt-5-mini, gpt-4.1, gpt-5.3-codex, gpt-5.2-codex |
-| **Reviewers** (7 pairs) | claude-opus-4.6↔gpt-5.4, claude-opus-4.5↔gpt-5.2, claude-opus-4.6-1m↔gpt-5.1, claude-sonnet-4.6↔gpt-5.3-codex, claude-sonnet-4.5↔gpt-5.2-codex, claude-sonnet-4↔gpt-5.4-mini, claude-haiku-4.5↔gpt-5-mini |
+| **Reviewers** (8 pairs) | claude-opus-4.6↔gpt-5.4, claude-opus-4.5↔gpt-5.2, claude-opus-4.6-1m↔gpt-5.1, claude-sonnet-4.6↔gpt-5.3-codex, claude-sonnet-4.5↔gpt-5.2-codex, claude-sonnet-4↔gpt-5.4-mini, claude-haiku-4.5↔gpt-5-mini, goldeneye↔gpt-4.1 |
 
 ---
 
diff --git a/config.yml b/config.yml
@@ -2,7 +2,7 @@ swarm_command:
   default_scale: "ss-100"
   scales:
     ss-50:
-      commanders: 3
+      commanders: 3  # max; runtime selects 2-3 most relevant domains
       workers_per_commander: 15  # No squad leads — commanders spawn workers directly
       max_depth: 2               # Nexus[0] → Commander[1] → Worker[2]
       reviewers: 3
diff --git a/docs/architecture.md b/docs/architecture.md
@@ -246,7 +246,7 @@ For maximum insight diversity, models from different families are paired within
 | Squad Lead | claude-haiku-4.5 | gpt-5.4-mini | Keep fan-out cheap while mixing reasoning styles |
 | Scout Worker | claude-haiku-4.5 | gpt-5.4-mini, gpt-5-mini, gpt-4.1 | Increase search and interpretation diversity |
 | Executor Worker | gpt-5.3-codex | gpt-5.2-codex | Prefer code execution specialists for build/test |
-| Reviewer | 7 cross-family pairs | — | Final scoring should not be self-referential |
+| Reviewer | 8 cross-family pairs | — | Final scoring should not be self-referential |
 
 ---
 
diff --git a/docs/scaling.md b/docs/scaling.md
@@ -108,10 +108,10 @@ Time:  ~45s wall-clock
 | Parameter | Value |
 |---|---|
 | Commanders | 5 |
-| Domains covered | 3 of 5 (auto-selected by task type) |
+| Domains covered | All 5 |
 | Squad Leads per Commander | — |
 | Workers per Commander | 15 |
-| Reviewers | 8 reviewers (7 cross-family pairs) |
+| Reviewers | 8 reviewers (3-4 cross-family review pairs) |
 | Shadow scoring | 8 sealed criteria, hardening at >15% |
 | Cost ceiling | $10.00 |
 | Timeout cascade | 75/50/35/25s |
@@ -135,7 +135,7 @@ L0: 1 Nexus (claude-opus-4.6)
 L1: 5 Commanders (commander pool — 10 models)
 L2: 50 Squad Leads (claude-haiku-4.5 | gpt-5.4-mini)  — 10 per commander
 L3: 250 Workers (worker pool — 6 models)               — 5 per squad lead
-L4: 10 Reviewers (7 cross-family pairs)
+L4: 10 Reviewers (8 cross-family pairs, cycled to fill 10 slots)
     Shadow Scoring (Nexus-internal, sealed criteria)
 ──────────────────────────
 Total: ~316 agents
@@ -173,7 +173,7 @@ Time:  ~65–90s wall-clock
 | Commanders (L1) | 5 | commander pool | 30K × 5 | 4K × 5 | $0.75 |
 | Squad Leads (L2) | 50 | haiku / gpt-5.4-mini | 8K × 50 | 2K × 50 | $0.72 |
 | Workers (L3) | 250 | worker pool | 2K × 250 | 0.5K × 250 | $0.90 |
-| Reviewers (L4) | 10 | 7 cross-family pairs | 10K × 10 | 2K × 10 | $0.60 |
+| Reviewers (L4) | 10 | 8 cross-family pairs | 10K × 10 | 2K × 10 | $0.60 |
 | **Total** | **316** | | | | **$4.32** (optimistic) |
 
 ---
diff --git a/skills/swarm-command/SKILL.md b/skills/swarm-command/SKILL.md
@@ -245,10 +245,10 @@ Launch Commanders in PARALLEL using the `task` tool:
 
 ### Scale-Specific Deployment
 
-**Commander pool (9 models — draw in order, alternate Claude↔GPT for diversity):**
+**Commander pool (10 models — draw in order, alternate Claude↔GPT for diversity):**
 ```
 claude-opus-4.6, claude-opus-4.5, claude-opus-4.6-1m, claude-sonnet-4.6, claude-sonnet-4.5,
-claude-sonnet-4, gpt-5.4, gpt-5.2, gpt-5.1
+claude-sonnet-4, gpt-5.4, gpt-5.2, gpt-5.1, goldeneye
 ```
 
 **SS-50 (2-3 Commanders):**
@@ -267,7 +267,7 @@ Commander 4: agent_type="general-purpose", model="gpt-5.2"
 Commander 5: agent_type="general-purpose", model="claude-sonnet-4"
 ```
 
-**SS-250 (5 Commanders — drawn from commander pool of 9):**
+**SS-250 (5 Commanders — drawn from commander pool of 10):**
 ```
 Commander 1 (ARCH): agent_type="general-purpose", model="claude-opus-4.6"
 Commander 2 (IMPL): agent_type="general-purpose", model="gpt-5.4"
@@ -421,7 +421,7 @@ Pair bundles from different domains for cross-review:
 | 6 | CMD-ARCH | CMD-TEST | claude-sonnet-4 ↔ gpt-5.4-mini |
 | 7 | CMD-IMPL | CMD-DOCS | claude-haiku-4.5 ↔ gpt-5-mini |
 
-For SS-50/SS-100: Use 3-4 review pairs based on available bundles. For SS-250: Use all 7 cross-family pairs (10 reviewer slots filled by cycling through pairs).
+For SS-50/SS-100: Use 3-4 review pairs based on available bundles. For SS-250: Use all 8 cross-family pairs (10 reviewer slots filled by cycling through pairs).
 
 ### Reviewer Prompt
 
@@ -1012,10 +1012,10 @@ Apply these 7 critical optimizations:
 | Role | Model Pool | Rule |
 |---|---|---|
 | Nexus (you) | `claude-opus-4.6` | Always opus — top reasoning model |
-| Commander (pool: 9) | `claude-opus-4.6`, `claude-opus-4.5`, `claude-opus-4.6-1m`, `claude-sonnet-4.6`, `claude-sonnet-4.5`, `claude-sonnet-4`, `gpt-5.4`, `gpt-5.2`, `gpt-5.1` | Draw in order; alternate Claude↔GPT for diversity |
+| Commander (pool: 10) | `claude-opus-4.6`, `claude-opus-4.5`, `claude-opus-4.6-1m`, `claude-sonnet-4.6`, `claude-sonnet-4.5`, `claude-sonnet-4`, `gpt-5.4`, `gpt-5.2`, `gpt-5.1`, `goldeneye` | Draw in order; alternate Claude↔GPT for diversity |
 | Squad Lead (SS-250 only) | `claude-haiku-4.5`, `gpt-5.4-mini` | Alternate within commander for cross-family diversity |
 | Worker (pool: 6) | `claude-haiku-4.5`, `gpt-5.4-mini`, `gpt-5-mini`, `gpt-4.1`, `gpt-5.3-codex`, `gpt-5.2-codex` | Mix within pod; Codex variants for build/test tasks |
-| Reviewer (7 pairs) | `claude-opus-4.6`↔`gpt-5.4`, `claude-opus-4.5`↔`gpt-5.2`, `claude-opus-4.6-1m`↔`gpt-5.1`, `claude-sonnet-4.6`↔`gpt-5.3-codex`, `claude-sonnet-4.5`↔`gpt-5.2-codex`, `claude-sonnet-4`↔`gpt-5.4-mini`, `claude-haiku-4.5`↔`gpt-5-mini` | Always cross-family pairs |
+| Reviewer (8 pairs) | `claude-opus-4.6`↔`gpt-5.4`, `claude-opus-4.5`↔`gpt-5.2`, `claude-opus-4.6-1m`↔`gpt-5.1`, `claude-sonnet-4.6`↔`gpt-5.3-codex`, `claude-sonnet-4.5`↔`gpt-5.2-codex`, `claude-sonnet-4`↔`gpt-5.4-mini`, `claude-haiku-4.5`↔`gpt-5-mini`, `goldeneye`↔`gpt-4.1` | Always cross-family pairs |
 | Shadow Scoring | Nexus-internal | Nexus validates against sealed criteria (Shadow Score Spec L2) |
 
 ---