Skip to content

Latest commit

 

History

History
84 lines (60 loc) · 3.17 KB

File metadata and controls

84 lines (60 loc) · 3.17 KB

本章小结

本章深入探讨了上下文工程的选择策略,重点介绍了 RAG 技术体系。

关键概念清单

概念 定义
RAG 检索增强生成,结合信息检索与语言模型生成
分块 将大文档切分为小片段的过程
嵌入 将文本转换为数值向量的过程
语义搜索 基于语义相似度的信息检索
重排序 对初步检索结果进行二次排序优化
混合检索 结合语义检索和关键词检索

核心观点

  1. RAG 是上下文选择的核心方法

    • 弥补模型知识局限
    • 提供时效和准确的信息
    • 知识来源可追溯
  2. 分块质量决定检索效果

    • 保持语义完整性
    • 大小适中(200-1000 Token 常见)
    • 根据内容类型选择策略
  3. 嵌入是语义搜索的基础

    • 选择适合领域的嵌入模型
    • 查询增强提升检索效果
    • 注意多语言和长尾问题
  4. 重排序显著提升相关性

    • 两阶段架构:召回 + 精排
    • 交叉编码器效果最佳
    • 平衡效果与成本
  5. 混合检索已成标准

    • 结合语义与关键词优势
    • RRF 是常用融合方法
    • 配合查询转换更强大

常见误区

  • 误区一:语义检索可以解决所有问题 正解:关键词检索对专有名词更有效,应混合使用

  • 误区二:分块越小越精确 正解:太小会丢失上下文,需要平衡

  • 误区三:检索到就能用好 正解:还需要通过提示词引导模型正确利用

实践建议

  1. 从基础 RAG 开始:先实现基本流程,再逐步优化

  2. 关注分块策略:这是影响最大的环节之一

  3. 引入混合检索:可快速提升效果

  4. 添加重排序:在基础效果稳定后引入

  5. 持续评估迭代:收集失败案例,针对性优化

检索系统核心指标一览

指标维度 指标名称 典型目标值(示意) 说明
性能 端到端延迟 (P99) 取决于产品形态 包含检索、排序、生成全流程
检索延迟 (P99) 取决于索引与规模 仅检索环节耗时
吞吐量 (QPS) 视场景定 系统每秒处理请求数
质量 Recall@K 以基线提升为目标 前 K 个结果中包含正确答案的比例
MRR (平均倒数排名) 以基线提升为目标 正确答案在结果列表中的排名优劣
准确率 (Precision) 以基线提升为目标 检索结果的有效性(信噪比)
成本 单次查询成本 以账单与压测为准 包含 Embedding、存储和 LLM 生成成本
索引构建成本 视数据量 初始向量化和存储的费用

预告

下一章将讨论压缩策略——如何在有限的上下文空间中容纳更多有效信息,包括摘要、信息提取和对话历史管理技术。

📝 发现错误或有改进建议? 欢迎提交 IssuePR