docs(agents): 更新 subagent 模型分工

DeliciousBuding · DeliciousBuding · commit 442460a1f028 · 2026-06-06T00:16:33.000+08:00
diff --git a/.agents/skills/dev-loop/SKILL.md b/.agents/skills/dev-loop/SKILL.md
@@ -10,18 +10,20 @@ description: "自主开发推进引擎——ROADMAP 驱动、模型分配、并
 
 ## 模型分配策略
 
-> 最后更新：2026-05-24。与 AGENTS.md 保持同步。
+> 最后更新：2026-06-05。与 AGENTS.md 保持同步。`opus` / `sonnet` / `haiku` 是 Claude CLI 路由别名；Codex 自带 agent 工具单独建模。
 
-| 别名 | 实际模型 | 上下文 | 角色 | 派发策略 |
-|---|---|---|---|---|
-| **opus** | DeepSeek-V4-Pro | 1M | 推理/架构/审查 | 主 Agent 决策、安全审查、DI 重构、复杂跨文件变更 |
-| **sonnet** | Kimi-K2.6 | 256k | 前端/多模态/快速并行 | Desktop UI、IM 界面、视觉审查、批量格式化/重命名 |
-| **haiku** | GLM-5.1 | 200k | 高智力编码/业务逻辑 | Go 后端编码、bug 修复、测试生成、算法实现。优先用，失败换 opus |
+| 入口 | 别名/模型 | 上下文 | 强项 | 派发策略 |
+|---|---|---:|---|---|
+| Codex 自带 agent 工具 | GPT-5.5 | 256k | 全方面强，代码、agentic 执行、审查都稳 | 中等上下文内的核心实现、跨前后端小集成、关键 review |
+| Claude CLI | **opus** = DeepSeek-V4-Pro | 1M | 长上下文推理、架构、竞品仓库研究、安全/方案审查 | 大范围阅读、路线图/架构判断、复杂设计评审 |
+| Claude CLI | **sonnet** = GLM-5.1 | 200k | 代码和 agentic 能力强，上下文短 | 窄范围代码实现、测试修复、Go/TS 小切片 |
+| Claude CLI | **haiku** = mimo-v2.5 | 适中 | 多模态、看图、视觉判断 | 竞品截图复核、Desktop 视觉 QA、UI 可读性/布局审查 |
 
-- **主 Agent**：opus — 设计决策、审查输出、编辑核心文件（AGENTS.md/ROADMAP.md）
-- **前端 subagent**：sonnet — UI 组件、CSS、多模态视觉审查
-- **后端 subagent**：haiku — Go 编码 + 测试。实际失败才换 opus
-- **批量机械**：sonnet — 翻译、格式化、重命名、测试生成
+- **主 Agent**：设计决策、审查输出、编辑核心文件（AGENTS.md/STATE.md/ROADMAP.md）。
+- **Codex GPT-5.5 subagent**：工具可用时优先派给高价值代码实现和强 review；不要给超 256k 的大仓库研究。
+- **Claude opus**：长上下文推理、竞品研究、安全/架构审查。
+- **Claude sonnet**：明确路径内的实现和 focused tests；prompt 精简，只传必要文件。
+- **Claude haiku**：截图/多模态/UI 视觉审查，不作为代码主力。
 
 ## CC 原生工具配合
 
@@ -56,15 +58,16 @@ dev-loop 配合两个 CC 内置命令使用效果最好：
 - 不确定的设计先做轻量探索（只读 agent）
 
 ### 3. 执行
-- **自己（opus 主 session）**：设计决策、审查输出、编辑核心文件（AGENTS.md/STATE.md/ROADMAP.md）
-- **派 opus subagent**：复杂功能、架构重构、安全审查、多维度审计
-- **派 sonnet subagent**：批量机械工作（翻译、格式化、测试生成、重命名）
-- **派 haiku subagent**：编码实现、bug 修复、算法。优先用 haiku，实际失败才换 opus
+- **自己（主 session）**：设计决策、审查输出、编辑核心文件（AGENTS.md/STATE.md/ROADMAP.md）
+- **派 Codex GPT-5.5 subagent**：中等上下文内的核心实现、跨模块小集成、关键代码 review
+- **派 Claude opus**：复杂架构推理、长上下文研究、安全审查、多维度审计
+- **派 Claude sonnet**：窄范围编码实现、bug 修复、focused tests
+- **派 Claude haiku**：截图/多模态视觉 QA、UI 对比和可读性审查
 - 每次 subagent 完成后审查其输出
 
 ### 4. 审查
-- 完成一批变更后启动交叉审查：4-5 个 opus agent 并行
-- 维度：结构、文档、安全、架构、易用性
+- 完成一批变更后启动交叉审查：按维度混用 Codex GPT-5.5、Claude opus、Claude sonnet、Claude haiku
+- 维度：结构、文档、安全、架构、易用性、视觉 QA
 - 让其他 agent 提问题："审查这个变更，列出你担心的问题"
 - 修复高优先级项
 
diff --git a/.agents/skills/dev-loop/references/model-strategy.md b/.agents/skills/dev-loop/references/model-strategy.md
@@ -1,73 +1,59 @@
 # 模型选择决策树
 
-最后更新：2026-05-23
+最后更新：2026-06-05
 
-## 可用模型
+## 可用 subagent 入口
 
-| 别名 | 实际后端 | 上下文 | 优势 | 限制 |
-|---|---|---|---|---|
-| **opus** | deepseek-v4-pro | 1M | 深度推理、架构设计、安全审查、复杂重构 | 慢、贵 |
-| **sonnet** | deepseek-v4-flash | 1M | 快速并行执行、批量操作、格式统一 | 编码能力不如 haiku |
-| **haiku** | glm-5.1 | **200k** | 简短复杂逻辑、业务编码、算法 | **上下文小**、不稳定 |
+| 入口 | 别名/模型 | 上下文 | 优势 | 限制 |
+|---|---|---:|---|---|
+| Codex 自带 agent 工具 | GPT-5.5 | 256k | 全方面强，代码、agentic 执行、审查都稳 | 上下文不如 Claude opus，不能吃超大仓库研究 |
+| Claude CLI | **opus** = DeepSeek-V4-Pro | 1M | 长上下文推理、架构设计、安全审查、竞品仓库研究 | 代码实现不作为首选 |
+| Claude CLI | **sonnet** = GLM-5.1 | 200k | 代码和 agentic 能力强，适合聚焦实现 | 上下文短，不能给大批量阅读 |
+| Claude CLI | **haiku** = mimo-v2.5 | 适中 | 多模态、看图、视觉判断、UI 对比 | 不作为代码主力 |
 
-## Haiku 定位
+## 选择原则
 
-haiku 专精于**短上下文内的复杂逻辑**——单个函数的精巧算法、棘手的业务规则、深度 bug 分析。不适合大批量文件操作或需要加载大量参考文档的任务。
-
-**能用 haiku 的：**
-- 单个函数/模块的复杂算法实现
-- 聚焦的 bug 修复（错误 + 相关代码 < 200k）
-- 业务逻辑审查（单个文件或小范围）
-- 代码片段优化
-
-**不能用 haiku 的：**
-- 跨文件重构（上下文不够）
-- 批量文件操作（3+ 文件可能溢出）
-- 需要加载多个参考文档的任务
-- 翻译超过 5 个文件的批次
-
-**原则：haiku = 小而精。短上下文、高复杂度、单点突破。大任务→sonnet/opus。**
-
-## Haiku Fallback
-
-haiku 编码强但不稳定。首次编码用 haiku（前提：不超 200k）。返回乱码/截断→不重试，直接换 opus。批量大上下文→用 sonnet。
+- **先看入口**：Codex 自带 agent 工具和 Claude CLI 是两套执行面，不能把别名混用。
+- **先限上下文**：超过 256k 的研究、竞品仓库阅读、跨大量文件审查优先 Claude opus；不超过 256k 的核心代码实现优先 Codex GPT-5.5。
+- **先限写入范围**：任何编码 subagent 都必须有允许路径、禁止范围、验收命令和证据输出。
+- **多模态单独派发**：截图、竞品图、视觉 QA 优先 Claude haiku，不让代码 agent 猜图。
 
 ## 决策流程
 
 ```
 任务类型？
-├── 设计/架构/审查类
-│   └── → opus（主 session 或 opus subagent）
-├── 批量机械操作（翻译、格式化、重命名）
-│   ├── 5 个文件以内 → sonnet subagent
-│   └── 多文件大规模 → 拆批，每批 sonnet subagent
-├── 编码实现/功能开发
-│   ├── 单文件复杂逻辑 → haiku subagent（优先）
-│   ├── 小范围业务编码（1-2 文件）→ haiku subagent
-│   ├── 多文件重构 → opus subagent（haiku 上下文不够）
-│   └── haiku 不稳定 → 换 opus
-├── 交叉审查
-│   ├── 安全/架构/业务逻辑 → opus（需深度推理）
-│   └── 结构/文档/易用性 → sonnet（机械检查）
-├── 探索/搜索
-│   ├── 单个目标明确 → 自己做（Grep/Glob）
-│   ├── 多维度搜索 → 2-3 sonnet 并行 Explore agent
-│   └── 深度代码理解 → 1 opus Explore agent
-└── 安全审查
-    └── → opus subagent（必须，不能跳过）
+├── 核心实现 / 跨前后端小集成
+│   ├── 上下文 <= 256k → Codex GPT-5.5 subagent
+│   └── 上下文 > 256k → 拆小；设计交给 Claude opus，代码交给 GPT-5.5/sonnet
+├── 窄范围代码修复（明确 1-3 个文件）
+│   ├── Go/TS/测试小切片 → Claude sonnet（GLM-5.1）
+│   └── 高风险实现 review → Codex GPT-5.5 或 Claude opus 复核
+├── 长上下文推理 / 架构 / 安全 / 竞品仓库研究
+│   └── Claude opus（DeepSeek-V4-Pro, 1M）
+├── 截图 / 竞品图 / 视觉 QA / UI 可读性
+│   └── Claude haiku（mimo-v2.5，多模态）
+├── 机械批量文档或格式统一
+│   ├── 中等上下文 → Codex GPT-5.5
+│   └── 超大上下文或需要归纳 → Claude opus 先规划，再分片执行
+└── 交叉审查
+    ├── 安全/架构/长期方向 → Claude opus
+    ├── 代码正确性/集成风险 → Codex GPT-5.5
+    ├── 小范围实现细节 → Claude sonnet
+    └── UI 截图/视觉/布局 → Claude haiku
 ```
 
-## 并行度
+## 上下文管理
 
-- 独立任务：最大并行数 = 任务数
-- 审查任务：4-5 维度同时跑，opus 管安全/架构，sonnet 管结构/文档/易用性
-- 翻译任务：按文件数分片，~20-40 文件/sonnet subagent
-- haiku 子任务：每次只给 1-2 个文件，prompt 精简
+| Agent | 上限 | 策略 |
+|---|---:|---|
+| Codex GPT-5.5 | 256k | 给完整任务卡 + 必要文件；适合强实现和强 review |
+| Claude opus | 1M | 可给大仓库、大量文档、竞品源码；产出方案/审查，不直接机械改大批文件 |
+| Claude sonnet | 200k | prompt 精简，只传相关文件；适合窄范围代码和测试 |
+| Claude haiku | 适中 | 输入截图或少量 UI 代码；输出视觉问题和修改建议 |
 
-## 上下文管理
+## 并行度
 
-| 模型 | 上限 | 策略 |
-|---|---|---|
-| haiku | 200k | 精简 prompt，只传必要文件，不传大型参考文档 |
-| sonnet | 1M | 可传大量文件，适合批量操作 |
-| opus | 1M | 适合深度分析大型代码库 |
+- 写入范围互不重叠时才能并行。
+- R2/R4/R5/R3/R6A 这类 Desktop 队列按依赖顺序合并；只读 review 可并行。
+- 视觉 QA 可以和代码 review 并行，但修复必须由主 Agent 统一分派。
+- subagent 完成后，主 Agent 必须复核 diff、运行 targeted checks，再更新 roadmap 或合并。
diff --git a/.agents/skills/dev-team/SKILL.md b/.agents/skills/dev-team/SKILL.md
@@ -11,18 +11,25 @@ description: 多 Team 并行开发引擎 — 大规模 Issue 修复、跨模块
 
 ```
 你（主 Agent）
-  ├── Team Leader 1 (Opus) → Worktree A
-  │     ├── Worker 1 → 修 2-3 issues
-  │     ├── Worker 2 → 修 2-3 issues
-  │     ├── Worker 3 → 修 2-3 issues
-  │     └── Worker 4 → 测试 + 审查
-  ├── Team Leader 2 (Opus) → Worktree B
+  ├── Team Leader 1 (Codex GPT-5.5 或 Claude opus) → Worktree A
+  │     ├── Worker 1 (GPT-5.5 / Claude sonnet) → 修 1-3 issues
+  │     ├── Worker 2 (GPT-5.5 / Claude sonnet) → 修 1-3 issues
+  │     ├── Worker 3 (Claude haiku) → 截图 / 视觉 QA（如需要）
+  │     └── Worker 4 (GPT-5.5 / opus) → 测试 + 审查
+  ├── Team Leader 2 (Codex GPT-5.5 或 Claude opus) → Worktree B
   │     └── ... (同上)
   └── ... (最多 5 个 Team 并行)
 ```
 
 每个 Team 在自己的 worktree 中独立开发，文件范围完全不重叠。
 
+| Agent | 上下文 | 定位 |
+|---|---:|---|
+| Codex GPT-5.5 subagent | 256k | 全方面强，适合核心实现、跨模块小集成、强代码 review |
+| Claude opus = DeepSeek-V4-Pro | 1M | 长上下文推理、架构、安全、竞品仓库研究 |
+| Claude sonnet = GLM-5.1 | 200k | 代码和 agentic 能力强，适合明确文件范围内的实现和测试 |
+| Claude haiku = mimo-v2.5 | 适中 | 多模态，看图、视觉 QA、UI 对比 |
+
 ## 何时使用
 
 - 10+ Issue 需要按模块分组修复
@@ -83,11 +90,11 @@ You are Team Leader for {team_name}. Fix {N} issues ({batch_name}).
 
 1. Create worktree: git worktree add .worktrees/{worktree_name} -b feat/{branch_name}
 2. Read key source files: {file_list}
-3. Spawn 4 Opus workers (Agent tool, mode="bypassPermissions", run_in_background=true)
-   - Worker 1: {issue_list_1}
-   - Worker 2: {issue_list_2}
-   - Worker 3: {issue_list_3}
-   - Worker 4: {issue_list_4}
+3. Spawn workers by task type:
+   - Codex GPT-5.5: core implementation / integration review (<=256k context)
+   - Claude sonnet: narrow code fixes with explicit file whitelist
+   - Claude haiku: screenshot or visual QA
+   - Claude opus: long-context architecture/security review
 4. Each worker: read → write failing test → implement fix → go test passes
 5. Review all work, resolve conflicts, go test -race, commit
 6. Push branch
@@ -145,8 +152,8 @@ git branch -d feat/team-*
 ```
 输入：129 个 Issue，按 label 分组为 5 个批次
 Team 数：5
-每个 Team：1 Leader + 4 Workers = 5 Opus agents
-总 agent 数：25
+每个 Team：1 Leader + 3-4 Workers，按任务类型混用 GPT-5.5 / opus / sonnet / haiku
+总 agent 数：约 20-25
 Worktree 数：5
 
 文件隔离验证（零重叠）:
diff --git a/AGENTS.md b/AGENTS.md
@@ -179,18 +179,20 @@ git status --short --branch       # 确认只改了允许的路径
 
 ### 模型分配策略
 
-> 实际后端模型映射，AgentHub 项目专用。dev-loop skill 同步更新。
-
-| 别名 | 实际模型 | 上下文 | 角色 | 适用场景 |
-|---|---|---|---|---|
-| **opus** | DeepSeek-V4-Pro | 1M | 推理/架构/审查/复杂重构 | 主 Agent、架构设计、安全审查、DI 重构 |
-| **sonnet** | Kimi-K2.6 | 256k | 前端/多模态/快速并行 | Desktop UI、IM 界面、视觉审查、批量编码 |
-| **haiku** | GLM-5.1 | 200k | 高智力编码/业务逻辑 | 算法实现、bug 修复、Go 后端编码、测试生成 |
-
-- **主 Agent（本 session）** 使用 opus 做决策、审查、编辑核心文件
-- **前端 subagent** 派 sonnet（多模态 UI 能力）
-- **后端 subagent** 派 haiku（Go 编码 + 测试），失败才换 opus
-- **批量机械工作**（格式化、重命名、翻译）派 sonnet
+> AgentHub 项目专用。这里的 `opus` / `sonnet` / `haiku` 是本地 Claude CLI 路由别名，不等于公开 Claude 模型名；Codex 自带 agent 工具单独建模。dev-loop skill 同步更新。
+
+| 入口 | 别名/模型 | 上下文 | 强项 | 优先使用场景 |
+|---|---|---:|---|---|
+| Codex 自带 agent 工具 | GPT-5.5 | 256k | 全方面强，代码、agentic 执行、审查都稳 | 中等上下文内的核心实现、跨前后端小集成、主 Agent 复核前的强力 sidecar |
+| Claude CLI | **opus** = DeepSeek-V4-Pro | 1M | 长上下文推理、架构、竞品仓库研究、安全/方案审查 | 大范围阅读、路线图/架构判断、复杂设计评审 |
+| Claude CLI | **sonnet** = GLM-5.1 | 200k | 代码和 agentic 能力强，但上下文短 | 窄范围代码实现、测试修复、Go/TS 小切片、明确文件集的重构 |
+| Claude CLI | **haiku** = mimo-v2.5 | 适中 | 多模态、看图、视觉判断 | 竞品截图复核、Desktop 视觉 QA、UI 可读性/布局审查 |
+
+- **主 Agent（本 session）**：负责决策、分支治理、提交、roadmap、比赛材料和最终验收。
+- **Codex GPT-5.5 subagent**：工具可用时优先用于高价值代码实现或关键 review；上下文 256k，不承担超大仓库研究。
+- **Claude opus**：用于长上下文推理、竞品仓库研究、架构/安全审查。
+- **Claude sonnet**：用于明确路径内的代码实现和 focused tests；每次只给必要文件，避免 200k 上下文溢出。
+- **Claude haiku**：用于截图、多模态视觉审查和 UI/UX 对比，不派它做代码主力。
 
 ### Agent 间文件通信
 
diff --git a/docs/adr/ADR-005-worktree-subagent-isolation.md b/docs/adr/ADR-005-worktree-subagent-isolation.md
@@ -16,7 +16,7 @@
 - 一个 worktree = 一个短分支 = 一个 PR。不同 Agent 永远不会共享同一个 worktree。
 - 创建前必须同步 master：`git switch master && git pull --ff-only`。
 - Subagent 只能在当前 worktree 的指定路径内工作，不能访问其他 worktree 或项目外路径。
-- Dev Loop 引擎定义了模型分配策略（Opus 负责设计/审查，Sonnet 负责机械工作，Haiku 负责编码实现）。
+- Dev Loop 引擎定义入口感知的 subagent 分配策略：Codex GPT-5.5 负责中等上下文内的强实现/强审查，Claude opus 负责长上下文架构/安全/竞品研究，Claude sonnet 负责窄范围代码实现，Claude haiku 负责多模态视觉 QA。
 - 完成后执行验收命令、push 分支、开 PR，合并后删除 worktree。
 
 ## 后果
diff --git a/docs/roadmap.md b/docs/roadmap.md
@@ -14,7 +14,7 @@ AgentHub 是 IM 形态的多 Agent 协作平台。核心体验是用户像用飞
 - 先真实演示闭环，后长期工程债。SQLite、Web、Mobile、Remote Edge 等重要但不能阻塞 TeamRun Demo。
 - 每个完成项必须有证据：focused tests、截图、真实运行日志、TeamRun export、录屏片段或当前 PR 状态。
 - Roadmap 记录优先级、依赖、验收和长期方向，不写人工日程表。
-- 子代理只做窄任务：sonnet 做 Desktop UI/视觉，haiku 做 Go/Edge 小 blocker，opus 做架构/安全/审查。
+- 子代理只做窄任务：Codex GPT-5.5 做强实现/强审查，Claude sonnet 做窄范围代码，Claude haiku 做多模态视觉 QA，Claude opus 做长上下文推理/研究。
 
 ## 当前最高优先级
 
@@ -194,9 +194,11 @@ AgentHub 是 IM 形态的多 Agent 协作平台。核心体验是用户像用飞
 
 | 角色 | 适合任务 | 禁止事项 |
 |---|---|---|
-| 主 Agent / opus | 架构判断、PR 顺序、合并、roadmap、比赛材料、安全审查 | 不把未验证分支当完成 |
-| sonnet | Desktop UI、CSS、截图 QA、React focused tests、多模态视觉审查 | 不碰 Web/Mobile 大重组，不扩大写入范围 |
-| haiku | Go/Edge/Hub 小型 blocker、测试生成、业务逻辑修复 | 不接大面积读仓或前端 UI |
+| 主 Agent | 架构判断、PR 顺序、合并、roadmap、比赛材料、最终验收 | 不把未验证分支当完成 |
+| Codex GPT-5.5 subagent | 全方面强；中等上下文内的核心实现、跨模块小集成、关键 code review | 不承担超过 256k 的超大仓库研究 |
+| Claude opus = DeepSeek-V4-Pro | 1M 长上下文推理、竞品仓库研究、架构/安全审查 | 不做机械批量改文件 |
+| Claude sonnet = GLM-5.1 | 代码和 agentic 能力强；窄范围 Go/TS 实现、测试修复 | 不接大面积读仓；每次只给必要文件 |
+| Claude haiku = mimo-v2.5 | 多模态、看图、视觉 QA、竞品截图复核 | 不作为代码主力 |
 
 每次派工必须写清：允许路径、禁止范围、验收命令、证据输出。subagent 交付后由主 Agent 复核 diff 和测试。