运行:
pnpm lesson:15学习回答不准时怎么用小评测定位问题。不要只凭“感觉不准”,要把问题变成可重复的测试样例。
文件:src/lessons/15-accuracy-eval.ts
重点看:
evalCases:每条样例都有输入和期望关键词。scoreAnswer():本地计算命中率。temperature: 0.2:降低输出随机性,方便对比。
- 提示词没有明确输出要求。
- 缺少事实来源,模型只能凭记忆回答。
- 工具结果没有被使用。
- 测试样例太少,看不出稳定问题。
- 兼容模型 tool calling 或结构化能力弱。
- 先收集 5 到 20 条真实失败样例。
- 给每条样例写期望点,而不是只看自然语言好不好。
- 调 prompt 前先跑一次基线。
- 每次只改一个变量:prompt、模型、工具描述、温度、上下文。