关联 RFC / 架构
目标问题
Agent Loop 重构的首要目标是提高任务完成质量,但当前缺少可重复的真实任务基线。若只以单元测试和代码拆分验收,无法证明多阶段编排优于现有 Run,也无法识别 token、延迟和人工介入方面的退化。
实现设计(How)
- 建立版本化 Agent 任务评测清单,覆盖纯问答、只读分析、单文件修复、多模块修改、测试失败修复、架构规划、权限等待、compact、取消和恢复。
- 每个案例定义固定仓库状态、用户输入、允许工具、验收命令、预期工作区 diff 范围和最大预算。
- 评测 runner 通过 Gateway/Runtime 公开入口驱动任务,不绕过主链直接调用内部 provider。
- 输出机器可读报告:完成状态、验收结果、轮数、provider calls、tool calls、input/output tokens、TTFT、耗时、人工介入、stop reason 和错误分类。
- 固化当前实现基线,并为后续 phase 提供同口径对比。
- 补充迁移护栏测试,锁定用户消息持久化、tool result 回灌、预算/compact、权限、checkpoint、acceptance 和 stop reason 的现有关键契约。
影响模块:评测工具、测试夹具、测试文档和 CI;不修改 Agent Loop 行为。
边界与非目标:不追求一次覆盖所有语言生态;不使用主观文本相似度替代可执行验收;不把真实 API key 或用户仓库数据提交到仓库。
任务拆解
测试与验证(Done)
风险与回滚
- 风险:真实模型评测存在随机性。使用固定任务、明确验收、重复次数和 deterministic suite 分离降低噪声。
- 风险:评测 runner 绕过真实链路导致指标失真。强制从 Gateway/Runtime 正式入口执行。
- 回滚:评测代码与生产运行路径隔离,可独立移除,不影响当前 Agent Loop。
关联 RFC / 架构
目标问题
Agent Loop 重构的首要目标是提高任务完成质量,但当前缺少可重复的真实任务基线。若只以单元测试和代码拆分验收,无法证明多阶段编排优于现有 Run,也无法识别 token、延迟和人工介入方面的退化。
实现设计(How)
影响模块:评测工具、测试夹具、测试文档和 CI;不修改 Agent Loop 行为。
边界与非目标:不追求一次覆盖所有语言生态;不使用主观文本相似度替代可执行验收;不把真实 API key 或用户仓库数据提交到仓库。
任务拆解
测试与验证(Done)
go test ./...通过,新增修改逻辑达到 100% 覆盖目标。风险与回滚