|
1 | 1 | # 模型选择决策树 |
2 | 2 |
|
3 | | -最后更新:2026-05-23 |
| 3 | +最后更新:2026-06-05 |
4 | 4 |
|
5 | | -## 可用模型 |
| 5 | +## 可用 subagent 入口 |
6 | 6 |
|
7 | | -| 别名 | 实际后端 | 上下文 | 优势 | 限制 | |
8 | | -|---|---|---|---|---| |
9 | | -| **opus** | deepseek-v4-pro | 1M | 深度推理、架构设计、安全审查、复杂重构 | 慢、贵 | |
10 | | -| **sonnet** | deepseek-v4-flash | 1M | 快速并行执行、批量操作、格式统一 | 编码能力不如 haiku | |
11 | | -| **haiku** | glm-5.1 | **200k** | 简短复杂逻辑、业务编码、算法 | **上下文小**、不稳定 | |
| 7 | +| 入口 | 别名/模型 | 上下文 | 优势 | 限制 | |
| 8 | +|---|---|---:|---|---| |
| 9 | +| Codex 自带 agent 工具 | GPT-5.5 | 256k | 全方面强,代码、agentic 执行、审查都稳 | 上下文不如 Claude opus,不能吃超大仓库研究 | |
| 10 | +| Claude CLI | **opus** = DeepSeek-V4-Pro | 1M | 长上下文推理、架构设计、安全审查、竞品仓库研究 | 代码实现不作为首选 | |
| 11 | +| Claude CLI | **sonnet** = GLM-5.1 | 200k | 代码和 agentic 能力强,适合聚焦实现 | 上下文短,不能给大批量阅读 | |
| 12 | +| Claude CLI | **haiku** = mimo-v2.5 | 适中 | 多模态、看图、视觉判断、UI 对比 | 不作为代码主力 | |
12 | 13 |
|
13 | | -## Haiku 定位 |
| 14 | +## 选择原则 |
14 | 15 |
|
15 | | -haiku 专精于**短上下文内的复杂逻辑**——单个函数的精巧算法、棘手的业务规则、深度 bug 分析。不适合大批量文件操作或需要加载大量参考文档的任务。 |
16 | | - |
17 | | -**能用 haiku 的:** |
18 | | -- 单个函数/模块的复杂算法实现 |
19 | | -- 聚焦的 bug 修复(错误 + 相关代码 < 200k) |
20 | | -- 业务逻辑审查(单个文件或小范围) |
21 | | -- 代码片段优化 |
22 | | - |
23 | | -**不能用 haiku 的:** |
24 | | -- 跨文件重构(上下文不够) |
25 | | -- 批量文件操作(3+ 文件可能溢出) |
26 | | -- 需要加载多个参考文档的任务 |
27 | | -- 翻译超过 5 个文件的批次 |
28 | | - |
29 | | -**原则:haiku = 小而精。短上下文、高复杂度、单点突破。大任务→sonnet/opus。** |
30 | | - |
31 | | -## Haiku Fallback |
32 | | - |
33 | | -haiku 编码强但不稳定。首次编码用 haiku(前提:不超 200k)。返回乱码/截断→不重试,直接换 opus。批量大上下文→用 sonnet。 |
| 16 | +- **先看入口**:Codex 自带 agent 工具和 Claude CLI 是两套执行面,不能把别名混用。 |
| 17 | +- **先限上下文**:超过 256k 的研究、竞品仓库阅读、跨大量文件审查优先 Claude opus;不超过 256k 的核心代码实现优先 Codex GPT-5.5。 |
| 18 | +- **先限写入范围**:任何编码 subagent 都必须有允许路径、禁止范围、验收命令和证据输出。 |
| 19 | +- **多模态单独派发**:截图、竞品图、视觉 QA 优先 Claude haiku,不让代码 agent 猜图。 |
34 | 20 |
|
35 | 21 | ## 决策流程 |
36 | 22 |
|
37 | 23 | ``` |
38 | 24 | 任务类型? |
39 | | -├── 设计/架构/审查类 |
40 | | -│ └── → opus(主 session 或 opus subagent) |
41 | | -├── 批量机械操作(翻译、格式化、重命名) |
42 | | -│ ├── 5 个文件以内 → sonnet subagent |
43 | | -│ └── 多文件大规模 → 拆批,每批 sonnet subagent |
44 | | -├── 编码实现/功能开发 |
45 | | -│ ├── 单文件复杂逻辑 → haiku subagent(优先) |
46 | | -│ ├── 小范围业务编码(1-2 文件)→ haiku subagent |
47 | | -│ ├── 多文件重构 → opus subagent(haiku 上下文不够) |
48 | | -│ └── haiku 不稳定 → 换 opus |
49 | | -├── 交叉审查 |
50 | | -│ ├── 安全/架构/业务逻辑 → opus(需深度推理) |
51 | | -│ └── 结构/文档/易用性 → sonnet(机械检查) |
52 | | -├── 探索/搜索 |
53 | | -│ ├── 单个目标明确 → 自己做(Grep/Glob) |
54 | | -│ ├── 多维度搜索 → 2-3 sonnet 并行 Explore agent |
55 | | -│ └── 深度代码理解 → 1 opus Explore agent |
56 | | -└── 安全审查 |
57 | | - └── → opus subagent(必须,不能跳过) |
| 25 | +├── 核心实现 / 跨前后端小集成 |
| 26 | +│ ├── 上下文 <= 256k → Codex GPT-5.5 subagent |
| 27 | +│ └── 上下文 > 256k → 拆小;设计交给 Claude opus,代码交给 GPT-5.5/sonnet |
| 28 | +├── 窄范围代码修复(明确 1-3 个文件) |
| 29 | +│ ├── Go/TS/测试小切片 → Claude sonnet(GLM-5.1) |
| 30 | +│ └── 高风险实现 review → Codex GPT-5.5 或 Claude opus 复核 |
| 31 | +├── 长上下文推理 / 架构 / 安全 / 竞品仓库研究 |
| 32 | +│ └── Claude opus(DeepSeek-V4-Pro, 1M) |
| 33 | +├── 截图 / 竞品图 / 视觉 QA / UI 可读性 |
| 34 | +│ └── Claude haiku(mimo-v2.5,多模态) |
| 35 | +├── 机械批量文档或格式统一 |
| 36 | +│ ├── 中等上下文 → Codex GPT-5.5 |
| 37 | +│ └── 超大上下文或需要归纳 → Claude opus 先规划,再分片执行 |
| 38 | +└── 交叉审查 |
| 39 | + ├── 安全/架构/长期方向 → Claude opus |
| 40 | + ├── 代码正确性/集成风险 → Codex GPT-5.5 |
| 41 | + ├── 小范围实现细节 → Claude sonnet |
| 42 | + └── UI 截图/视觉/布局 → Claude haiku |
58 | 43 | ``` |
59 | 44 |
|
60 | | -## 并行度 |
| 45 | +## 上下文管理 |
61 | 46 |
|
62 | | -- 独立任务:最大并行数 = 任务数 |
63 | | -- 审查任务:4-5 维度同时跑,opus 管安全/架构,sonnet 管结构/文档/易用性 |
64 | | -- 翻译任务:按文件数分片,~20-40 文件/sonnet subagent |
65 | | -- haiku 子任务:每次只给 1-2 个文件,prompt 精简 |
| 47 | +| Agent | 上限 | 策略 | |
| 48 | +|---|---:|---| |
| 49 | +| Codex GPT-5.5 | 256k | 给完整任务卡 + 必要文件;适合强实现和强 review | |
| 50 | +| Claude opus | 1M | 可给大仓库、大量文档、竞品源码;产出方案/审查,不直接机械改大批文件 | |
| 51 | +| Claude sonnet | 200k | prompt 精简,只传相关文件;适合窄范围代码和测试 | |
| 52 | +| Claude haiku | 适中 | 输入截图或少量 UI 代码;输出视觉问题和修改建议 | |
66 | 53 |
|
67 | | -## 上下文管理 |
| 54 | +## 并行度 |
68 | 55 |
|
69 | | -| 模型 | 上限 | 策略 | |
70 | | -|---|---|---| |
71 | | -| haiku | 200k | 精简 prompt,只传必要文件,不传大型参考文档 | |
72 | | -| sonnet | 1M | 可传大量文件,适合批量操作 | |
73 | | -| opus | 1M | 适合深度分析大型代码库 | |
| 56 | +- 写入范围互不重叠时才能并行。 |
| 57 | +- R2/R4/R5/R3/R6A 这类 Desktop 队列按依赖顺序合并;只读 review 可并行。 |
| 58 | +- 视觉 QA 可以和代码 review 并行,但修复必须由主 Agent 统一分派。 |
| 59 | +- subagent 完成后,主 Agent 必须复核 diff、运行 targeted checks,再更新 roadmap 或合并。 |
0 commit comments