Skip to content

Latest commit

 

History

History
36 lines (24 loc) · 974 Bytes

File metadata and controls

36 lines (24 loc) · 974 Bytes

15. Accuracy Eval

运行:

pnpm lesson:15

本课目标

学习回答不准时怎么用小评测定位问题。不要只凭“感觉不准”,要把问题变成可重复的测试样例。

观察代码

文件:src/lessons/15-accuracy-eval.ts

重点看:

  • evalCases:每条样例都有输入和期望关键词。
  • scoreAnswer():本地计算命中率。
  • temperature: 0.2:降低输出随机性,方便对比。

准确率问题常见来源

  • 提示词没有明确输出要求。
  • 缺少事实来源,模型只能凭记忆回答。
  • 工具结果没有被使用。
  • 测试样例太少,看不出稳定问题。
  • 兼容模型 tool calling 或结构化能力弱。

调优动作

  • 先收集 5 到 20 条真实失败样例。
  • 给每条样例写期望点,而不是只看自然语言好不好。
  • 调 prompt 前先跑一次基线。
  • 每次只改一个变量:prompt、模型、工具描述、温度、上下文。