context_engineering_guide/05_select/summary.md at main · yeasy/context_engineering_guide · GitHub

84 lines (60 loc) · 3.17 KB

本章小结

本章深入探讨了上下文工程的选择策略，重点介绍了 RAG 技术体系。

关键概念清单

概念	定义
RAG	检索增强生成，结合信息检索与语言模型生成
分块	将大文档切分为小片段的过程
嵌入	将文本转换为数值向量的过程
语义搜索	基于语义相似度的信息检索
重排序	对初步检索结果进行二次排序优化
混合检索	结合语义检索和关键词检索

核心观点

RAG 是上下文选择的核心方法：
- 弥补模型知识局限
- 提供时效和准确的信息
- 知识来源可追溯
分块质量决定检索效果：
- 保持语义完整性
- 大小适中（200-1000 Token 常见）
- 根据内容类型选择策略
嵌入是语义搜索的基础：
- 选择适合领域的嵌入模型
- 查询增强提升检索效果
- 注意多语言和长尾问题
重排序显著提升相关性：
- 两阶段架构：召回 + 精排
- 交叉编码器效果最佳
- 平衡效果与成本
混合检索已成标准：
- 结合语义与关键词优势
- RRF 是常用融合方法
- 配合查询转换更强大

常见误区

误区一：语义检索可以解决所有问题正解：关键词检索对专有名词更有效，应混合使用
误区二：分块越小越精确正解：太小会丢失上下文，需要平衡
误区三：检索到就能用好正解：还需要通过提示词引导模型正确利用

实践建议

从基础 RAG 开始：先实现基本流程，再逐步优化
关注分块策略：这是影响最大的环节之一
引入混合检索：可快速提升效果
添加重排序：在基础效果稳定后引入
持续评估迭代：收集失败案例，针对性优化

检索系统核心指标一览

指标维度	指标名称	典型目标值（示意）	说明
性能	端到端延迟 (P99)	取决于产品形态	包含检索、排序、生成全流程
	检索延迟 (P99)	取决于索引与规模	仅检索环节耗时
	吞吐量 (QPS)	视场景定	系统每秒处理请求数
质量	Recall@K	以基线提升为目标	前 K 个结果中包含正确答案的比例
	MRR (平均倒数排名)	以基线提升为目标	正确答案在结果列表中的排名优劣
	准确率 (Precision)	以基线提升为目标	检索结果的有效性（信噪比）
成本	单次查询成本	以账单与压测为准	包含 Embedding、存储和 LLM 生成成本
	索引构建成本	视数据量	初始向量化和存储的费用

预告

下一章将讨论压缩策略——如何在有限的上下文空间中容纳更多有效信息，包括摘要、信息提取和对话历史管理技术。

📝 发现错误或有改进建议？ 欢迎提交 Issue 或 PR。