TokenDanceLab
diff --git a/‎.agents/skills/dev-loop/SKILL.md‎
Lines changed: 21 additions & 18 deletions b/‎.agents/skills/dev-loop/SKILL.md‎
Lines changed: 21 additions & 18 deletions
diff --git a/‎.agents/skills/dev-loop/references/model-strategy.md‎
Lines changed: 43 additions & 57 deletions b/‎.agents/skills/dev-loop/references/model-strategy.md‎
Lines changed: 43 additions & 57 deletions
diff --git a/‎.agents/skills/dev-team/SKILL.md‎
Lines changed: 20 additions & 13 deletions b/‎.agents/skills/dev-team/SKILL.md‎
Lines changed: 20 additions & 13 deletions
diff --git a/‎.agents/skills/ui-screenshot/scripts/capture.ts‎
Lines changed: 7 additions & 1 deletion b/‎.agents/skills/ui-screenshot/scripts/capture.ts‎
Lines changed: 7 additions & 1 deletion
diff --git a/‎.env.example‎
Lines changed: 1 addition & 0 deletions b/‎.env.example‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎.github/workflows/checks.yml‎
Lines changed: 2 additions & 5 deletions b/‎.github/workflows/checks.yml‎
Lines changed: 2 additions & 5 deletions
@@ -10,18 +10,20 @@ description: "自主开发推进引擎——ROADMAP 驱动、模型分配、并
 
 ## 模型分配策略
 
-> 最后更新：2026-05-24。与 AGENTS.md 保持同步。
+> 最后更新：2026-06-05。与 AGENTS.md 保持同步。`opus` / `sonnet` / `haiku` 是 Claude CLI 路由别名；Codex 自带 agent 工具单独建模。
 
-| 别名 | 实际模型 | 上下文 | 角色 | 派发策略 |
-|---|---|---|---|---|
-| **opus** | DeepSeek-V4-Pro | 1M | 推理/架构/审查 | 主 Agent 决策、安全审查、DI 重构、复杂跨文件变更 |
-| **sonnet** | Kimi-K2.6 | 256k | 前端/多模态/快速并行 | Desktop UI、IM 界面、视觉审查、批量格式化/重命名 |
-| **haiku** | GLM-5.1 | 200k | 高智力编码/业务逻辑 | Go 后端编码、bug 修复、测试生成、算法实现。优先用，失败换 opus |
+| 入口 | 别名/模型 | 上下文 | 强项 | 派发策略 |
+|---|---|---:|---|---|
+| Codex 自带 agent 工具 | GPT-5.5 | 256k | 全方面强，代码、agentic 执行、审查都稳 | 中等上下文内的核心实现、跨前后端小集成、关键 review |
+| Claude CLI | **opus** = DeepSeek-V4-Pro | 1M | 长上下文推理、架构、竞品仓库研究、安全/方案审查 | 大范围阅读、路线图/架构判断、复杂设计评审 |
+| Claude CLI | **sonnet** = GLM-5.1 | 200k | 代码和 agentic 能力强，上下文短 | 窄范围代码实现、测试修复、Go/TS 小切片 |
+| Claude CLI | **haiku** = mimo-v2.5 | 适中 | 多模态、看图、视觉判断 | 竞品截图复核、Desktop 视觉 QA、UI 可读性/布局审查 |
 
-- **主 Agent**：opus — 设计决策、审查输出、编辑核心文件（AGENTS.md/ROADMAP.md）
-- **前端 subagent**：sonnet — UI 组件、CSS、多模态视觉审查
-- **后端 subagent**：haiku — Go 编码 + 测试。实际失败才换 opus
-- **批量机械**：sonnet — 翻译、格式化、重命名、测试生成
+- **主 Agent**：设计决策、审查输出、编辑核心文件（AGENTS.md/STATE.md/ROADMAP.md）。
+- **Codex GPT-5.5 subagent**：工具可用时优先派给高价值代码实现和强 review；不要给超 256k 的大仓库研究。
+- **Claude opus**：长上下文推理、竞品研究、安全/架构审查。
+- **Claude sonnet**：明确路径内的实现和 focused tests；prompt 精简，只传必要文件。
+- **Claude haiku**：截图/多模态/UI 视觉审查，不作为代码主力。
 
 ## CC 原生工具配合
 
@@ -44,7 +46,7 @@ dev-loop 配合两个 CC 内置命令使用效果最好：
 ## 标准工作循环
 
 ### 1. 理解
-- 读 `AGENTS.md` / `docs/handoff/STATE.md` / `docs/roadmap.md`
+- 读 `AGENTS.md` / `docs/handoffs/STATE.md` / `docs/roadmap.md`
 - 理解现有架构、约定、当前进度
 - STATE.md 是跨 session 状态文件，每次接手先读
 
@@ -56,21 +58,22 @@ dev-loop 配合两个 CC 内置命令使用效果最好：
 - 不确定的设计先做轻量探索（只读 agent）
 
 ### 3. 执行
-- **自己（opus 主 session）**：设计决策、审查输出、编辑核心文件（AGENTS.md/STATE.md/ROADMAP.md）
-- **派 opus subagent**：复杂功能、架构重构、安全审查、多维度审计
-- **派 sonnet subagent**：批量机械工作（翻译、格式化、测试生成、重命名）
-- **派 haiku subagent**：编码实现、bug 修复、算法。优先用 haiku，实际失败才换 opus
+- **自己（主 session）**：设计决策、审查输出、编辑核心文件（AGENTS.md/STATE.md/ROADMAP.md）
+- **派 Codex GPT-5.5 subagent**：中等上下文内的核心实现、跨模块小集成、关键代码 review
+- **派 Claude opus**：复杂架构推理、长上下文研究、安全审查、多维度审计
+- **派 Claude sonnet**：窄范围编码实现、bug 修复、focused tests
+- **派 Claude haiku**：截图/多模态视觉 QA、UI 对比和可读性审查
 - 每次 subagent 完成后审查其输出
 
 ### 4. 审查
-- 完成一批变更后启动交叉审查：4-5 个 opus agent 并行
-- 维度：结构、文档、安全、架构、易用性
+- 完成一批变更后启动交叉审查：按维度混用 Codex GPT-5.5、Claude opus、Claude sonnet、Claude haiku
+- 维度：结构、文档、安全、架构、易用性、视觉 QA
 - 让其他 agent 提问题："审查这个变更，列出你担心的问题"
 - 修复高优先级项
 
 ### 5. 同步
 - AGENTS.md / CLAUDE.md（规则变更）
-- `docs/handoff/STATE.md`（事实变更：进度/阻塞/部署状态）
+- `docs/handoffs/STATE.md`（事实变更：进度/阻塞/部署状态）
 - ROADMAP.md（标记完成、记录阻塞、写下一步）
 - 运行 `neat-freak` 清理过时文档
 - 运行 `memory-management` 同步 memory（如有跨系统需求）
 
@@ -1,73 +1,59 @@
 # 模型选择决策树
 
-最后更新：2026-05-23
+最后更新：2026-06-05
 
-## 可用模型
+## 可用 subagent 入口
 
-| 别名 | 实际后端 | 上下文 | 优势 | 限制 |
-|---|---|---|---|---|
-| **opus** | deepseek-v4-pro | 1M | 深度推理、架构设计、安全审查、复杂重构 | 慢、贵 |
-| **sonnet** | deepseek-v4-flash | 1M | 快速并行执行、批量操作、格式统一 | 编码能力不如 haiku |
-| **haiku** | glm-5.1 | **200k** | 简短复杂逻辑、业务编码、算法 | **上下文小**、不稳定 |
+| 入口 | 别名/模型 | 上下文 | 优势 | 限制 |
+|---|---|---:|---|---|
+| Codex 自带 agent 工具 | GPT-5.5 | 256k | 全方面强，代码、agentic 执行、审查都稳 | 上下文不如 Claude opus，不能吃超大仓库研究 |
+| Claude CLI | **opus** = DeepSeek-V4-Pro | 1M | 长上下文推理、架构设计、安全审查、竞品仓库研究 | 代码实现不作为首选 |
+| Claude CLI | **sonnet** = GLM-5.1 | 200k | 代码和 agentic 能力强，适合聚焦实现 | 上下文短，不能给大批量阅读 |
+| Claude CLI | **haiku** = mimo-v2.5 | 适中 | 多模态、看图、视觉判断、UI 对比 | 不作为代码主力 |
 
-## Haiku 定位
+## 选择原则
 
-haiku 专精于**短上下文内的复杂逻辑**——单个函数的精巧算法、棘手的业务规则、深度 bug 分析。不适合大批量文件操作或需要加载大量参考文档的任务。
-
-**能用 haiku 的：**
-- 单个函数/模块的复杂算法实现
-- 聚焦的 bug 修复（错误 + 相关代码 < 200k）
-- 业务逻辑审查（单个文件或小范围）
-- 代码片段优化
-
-**不能用 haiku 的：**
-- 跨文件重构（上下文不够）
-- 批量文件操作（3+ 文件可能溢出）
-- 需要加载多个参考文档的任务
-- 翻译超过 5 个文件的批次
-
-**原则：haiku = 小而精。短上下文、高复杂度、单点突破。大任务→sonnet/opus。**
-
-## Haiku Fallback
-
-haiku 编码强但不稳定。首次编码用 haiku（前提：不超 200k）。返回乱码/截断→不重试，直接换 opus。批量大上下文→用 sonnet。
+- **先看入口**：Codex 自带 agent 工具和 Claude CLI 是两套执行面，不能把别名混用。
+- **先限上下文**：超过 256k 的研究、竞品仓库阅读、跨大量文件审查优先 Claude opus；不超过 256k 的核心代码实现优先 Codex GPT-5.5。
+- **先限写入范围**：任何编码 subagent 都必须有允许路径、禁止范围、验收命令和证据输出。
+- **多模态单独派发**：截图、竞品图、视觉 QA 优先 Claude haiku，不让代码 agent 猜图。
 
 ## 决策流程
 
 ```
 任务类型？
-├── 设计/架构/审查类
-│   └── → opus（主 session 或 opus subagent）
-├── 批量机械操作（翻译、格式化、重命名）
-│   ├── 5 个文件以内 → sonnet subagent
-│   └── 多文件大规模 → 拆批，每批 sonnet subagent
-├── 编码实现/功能开发
-│   ├── 单文件复杂逻辑 → haiku subagent（优先）
-│   ├── 小范围业务编码（1-2 文件）→ haiku subagent
-│   ├── 多文件重构 → opus subagent（haiku 上下文不够）
-│   └── haiku 不稳定 → 换 opus
-├── 交叉审查
-│   ├── 安全/架构/业务逻辑 → opus（需深度推理）
-│   └── 结构/文档/易用性 → sonnet（机械检查）
-├── 探索/搜索
-│   ├── 单个目标明确 → 自己做（Grep/Glob）
-│   ├── 多维度搜索 → 2-3 sonnet 并行 Explore agent
-│   └── 深度代码理解 → 1 opus Explore agent
-└── 安全审查
-    └── → opus subagent（必须，不能跳过）
+├── 核心实现 / 跨前后端小集成
+│   ├── 上下文 <= 256k → Codex GPT-5.5 subagent
+│   └── 上下文 > 256k → 拆小；设计交给 Claude opus，代码交给 GPT-5.5/sonnet
+├── 窄范围代码修复（明确 1-3 个文件）
+│   ├── Go/TS/测试小切片 → Claude sonnet（GLM-5.1）
+│   └── 高风险实现 review → Codex GPT-5.5 或 Claude opus 复核
+├── 长上下文推理 / 架构 / 安全 / 竞品仓库研究
+│   └── Claude opus（DeepSeek-V4-Pro, 1M）
+├── 截图 / 竞品图 / 视觉 QA / UI 可读性
+│   └── Claude haiku（mimo-v2.5，多模态）
+├── 机械批量文档或格式统一
+│   ├── 中等上下文 → Codex GPT-5.5
+│   └── 超大上下文或需要归纳 → Claude opus 先规划，再分片执行
+└── 交叉审查
+    ├── 安全/架构/长期方向 → Claude opus
+    ├── 代码正确性/集成风险 → Codex GPT-5.5
+    ├── 小范围实现细节 → Claude sonnet
+    └── UI 截图/视觉/布局 → Claude haiku
 ```
 
-## 并行度
+## 上下文管理
 
-- 独立任务：最大并行数 = 任务数
-- 审查任务：4-5 维度同时跑，opus 管安全/架构，sonnet 管结构/文档/易用性
-- 翻译任务：按文件数分片，~20-40 文件/sonnet subagent
-- haiku 子任务：每次只给 1-2 个文件，prompt 精简
+| Agent | 上限 | 策略 |
+|---|---:|---|
+| Codex GPT-5.5 | 256k | 给完整任务卡 + 必要文件；适合强实现和强 review |
+| Claude opus | 1M | 可给大仓库、大量文档、竞品源码；产出方案/审查，不直接机械改大批文件 |
+| Claude sonnet | 200k | prompt 精简，只传相关文件；适合窄范围代码和测试 |
+| Claude haiku | 适中 | 输入截图或少量 UI 代码；输出视觉问题和修改建议 |
 
-## 上下文管理
+## 并行度
 
-| 模型 | 上限 | 策略 |
-|---|---|---|
-| haiku | 200k | 精简 prompt，只传必要文件，不传大型参考文档 |
-| sonnet | 1M | 可传大量文件，适合批量操作 |
-| opus | 1M | 适合深度分析大型代码库 |
+- 写入范围互不重叠时才能并行。
+- R2/R4/R5/R3/R6A 这类 Desktop 队列按依赖顺序合并；只读 review 可并行。
+- 视觉 QA 可以和代码 review 并行，但修复必须由主 Agent 统一分派。
+- subagent 完成后，主 Agent 必须复核 diff、运行 targeted checks，再更新 roadmap 或合并。
@@ -11,18 +11,25 @@ description: 多 Team 并行开发引擎 — 大规模 Issue 修复、跨模块
 
 ```
 你（主 Agent）
-  ├── Team Leader 1 (Opus) → Worktree A
-  │     ├── Worker 1 → 修 2-3 issues
-  │     ├── Worker 2 → 修 2-3 issues
-  │     ├── Worker 3 → 修 2-3 issues
-  │     └── Worker 4 → 测试 + 审查
-  ├── Team Leader 2 (Opus) → Worktree B
+  ├── Team Leader 1 (Codex GPT-5.5 或 Claude opus) → Worktree A
+  │     ├── Worker 1 (GPT-5.5 / Claude sonnet) → 修 1-3 issues
+  │     ├── Worker 2 (GPT-5.5 / Claude sonnet) → 修 1-3 issues
+  │     ├── Worker 3 (Claude haiku) → 截图 / 视觉 QA（如需要）
+  │     └── Worker 4 (GPT-5.5 / opus) → 测试 + 审查
+  ├── Team Leader 2 (Codex GPT-5.5 或 Claude opus) → Worktree B
   │     └── ... (同上)
   └── ... (最多 5 个 Team 并行)
 ```
 
 每个 Team 在自己的 worktree 中独立开发，文件范围完全不重叠。
 
+| Agent | 上下文 | 定位 |
+|---|---:|---|
+| Codex GPT-5.5 subagent | 256k | 全方面强，适合核心实现、跨模块小集成、强代码 review |
+| Claude opus = DeepSeek-V4-Pro | 1M | 长上下文推理、架构、安全、竞品仓库研究 |
+| Claude sonnet = GLM-5.1 | 200k | 代码和 agentic 能力强，适合明确文件范围内的实现和测试 |
+| Claude haiku = mimo-v2.5 | 适中 | 多模态，看图、视觉 QA、UI 对比 |
+
 ## 何时使用
 
 - 10+ Issue 需要按模块分组修复
@@ -83,11 +90,11 @@ You are Team Leader for {team_name}. Fix {N} issues ({batch_name}).
 
 1. Create worktree: git worktree add .worktrees/{worktree_name} -b feat/{branch_name}
 2. Read key source files: {file_list}
-3. Spawn 4 Opus workers (Agent tool, mode="bypassPermissions", run_in_background=true)
-   - Worker 1: {issue_list_1}
-   - Worker 2: {issue_list_2}
-   - Worker 3: {issue_list_3}
-   - Worker 4: {issue_list_4}
+3. Spawn workers by task type:
+   - Codex GPT-5.5: core implementation / integration review (<=256k context)
+   - Claude sonnet: narrow code fixes with explicit file whitelist
+   - Claude haiku: screenshot or visual QA
+   - Claude opus: long-context architecture/security review
 4. Each worker: read → write failing test → implement fix → go test passes
 5. Review all work, resolve conflicts, go test -race, commit
 6. Push branch
@@ -145,8 +152,8 @@ git branch -d feat/team-*
 ```
 输入：129 个 Issue，按 label 分组为 5 个批次
 Team 数：5
-每个 Team：1 Leader + 4 Workers = 5 Opus agents
-总 agent 数：25
+每个 Team：1 Leader + 3-4 Workers，按任务类型混用 GPT-5.5 / opus / sonnet / haiku
+总 agent 数：约 20-25
 Worktree 数：5
 
 文件隔离验证（零重叠）:
 
@@ -66,6 +66,7 @@ async function main() {
   const [vw, vh] = (viewport as string).split(',').map(Number);
   const waitMs = Number(wait);
   const useMock = mock !== 'false';
+  const captureTheme = theme === 'light' ? 'light' : 'dark';
 
   const timestamp = new Date().toISOString().replace(/[:T]/g, '-').slice(0, 19);
   const outputPath = resolve(out ?? `screenshots/capture-${timestamp}.png`);
@@ -78,12 +79,17 @@ async function main() {
 
   const context = await browser.newContext({
     viewport: { width: vw, height: vh },
-    colorScheme: theme as 'dark' | 'light',
+    colorScheme: captureTheme,
     deviceScaleFactor: 1,
   });
 
   const page = await context.newPage();
 
+  await page.addInitScript((selectedTheme) => {
+    window.localStorage.setItem('agenthub-theme', selectedTheme);
+    document.documentElement.setAttribute('data-theme', selectedTheme);
+  }, captureTheme);
+
   // Inject mock data before navigation
   if (useMock) {
     await page.addInitScript((payload) => {
 
@@ -16,6 +16,7 @@ AGENTHUB_DB_PORT=5432
 AGENTHUB_DB_USER=agenthub
 AGENTHUB_DB_PASSWORD=dev_password
 AGENTHUB_DB_NAME=agenthub
+# AGENTHUB_DB_SSLMODE=disable  # disable | require | verify-ca | verify-full
 
 # ── Redis 7 ─────────────────────────────────
 AGENTHUB_REDIS_HOST=localhost
 
@@ -42,7 +42,7 @@ jobs:
       - name: Test (unit only, skip integration)
         run: go test ./... -count=1 -short -coverprofile=coverage.out -covermode=atomic
 
-      - name: Coverage check (overall >= 70%)
+      - name: Coverage check (overall >= 75%)
         run: |
           COVERAGE=$(go tool cover -func=coverage.out | grep total | awk '{print $3}' | sed 's/%//')
           THRESHOLD=75
@@ -193,14 +193,11 @@ jobs:
   docker:
     name: Docker build (Hub Server)
     runs-on: ubuntu-latest
-    defaults:
-      run:
-        working-directory: hub-server
     steps:
       - uses: actions/checkout@v4
 
       - name: Build Docker image
-        run: docker build -t agenthub-hub-server -f deployments/Dockerfile .
+        run: docker build -t agenthub-hub-server -f hub-server/deployments/Dockerfile .
 
       - name: Verify image
         run: docker images agenthub-hub-server