本章深入探讨了上下文工程的选择策略,重点介绍了 RAG 技术体系。
| 概念 | 定义 |
|---|---|
| RAG | 检索增强生成,结合信息检索与语言模型生成 |
| 分块 | 将大文档切分为小片段的过程 |
| 嵌入 | 将文本转换为数值向量的过程 |
| 语义搜索 | 基于语义相似度的信息检索 |
| 重排序 | 对初步检索结果进行二次排序优化 |
| 混合检索 | 结合语义检索和关键词检索 |
-
RAG 是上下文选择的核心方法:
- 弥补模型知识局限
- 提供时效和准确的信息
- 知识来源可追溯
-
分块质量决定检索效果:
- 保持语义完整性
- 大小适中(200-1000 Token 常见)
- 根据内容类型选择策略
-
嵌入是语义搜索的基础:
- 选择适合领域的嵌入模型
- 查询增强提升检索效果
- 注意多语言和长尾问题
-
重排序显著提升相关性:
- 两阶段架构:召回 + 精排
- 交叉编码器效果最佳
- 平衡效果与成本
-
混合检索已成标准:
- 结合语义与关键词优势
- RRF 是常用融合方法
- 配合查询转换更强大
-
误区一:语义检索可以解决所有问题 正解:关键词检索对专有名词更有效,应混合使用
-
误区二:分块越小越精确 正解:太小会丢失上下文,需要平衡
-
误区三:检索到就能用好 正解:还需要通过提示词引导模型正确利用
-
从基础 RAG 开始:先实现基本流程,再逐步优化
-
关注分块策略:这是影响最大的环节之一
-
引入混合检索:可快速提升效果
-
添加重排序:在基础效果稳定后引入
-
持续评估迭代:收集失败案例,针对性优化
| 指标维度 | 指标名称 | 典型目标值(示意) | 说明 |
|---|---|---|---|
| 性能 | 端到端延迟 (P99) | 取决于产品形态 | 包含检索、排序、生成全流程 |
| 检索延迟 (P99) | 取决于索引与规模 | 仅检索环节耗时 | |
| 吞吐量 (QPS) | 视场景定 | 系统每秒处理请求数 | |
| 质量 | Recall@K | 以基线提升为目标 | 前 K 个结果中包含正确答案的比例 |
| MRR (平均倒数排名) | 以基线提升为目标 | 正确答案在结果列表中的排名优劣 | |
| 准确率 (Precision) | 以基线提升为目标 | 检索结果的有效性(信噪比) | |
| 成本 | 单次查询成本 | 以账单与压测为准 | 包含 Embedding、存储和 LLM 生成成本 |
| 索引构建成本 | 视数据量 | 初始向量化和存储的费用 |