36 lines (24 loc) · 974 Bytes

15. Accuracy Eval

运行：

pnpm lesson:15

本课目标

学习回答不准时怎么用小评测定位问题。不要只凭“感觉不准”，要把问题变成可重复的测试样例。

观察代码

文件：src/lessons/15-accuracy-eval.ts

重点看：

evalCases：每条样例都有输入和期望关键词。
scoreAnswer()：本地计算命中率。
temperature: 0.2：降低输出随机性，方便对比。

准确率问题常见来源

提示词没有明确输出要求。
缺少事实来源，模型只能凭记忆回答。
工具结果没有被使用。
测试样例太少，看不出稳定问题。
兼容模型 tool calling 或结构化能力弱。

调优动作

先收集 5 到 20 条真实失败样例。
给每条样例写期望点，而不是只看自然语言好不好。
调 prompt 前先跑一次基线。
每次只改一个变量：prompt、模型、工具描述、温度、上下文。