Skip to content

Commit 2aa7bdf

Browse files
authored
Create Deeplearning.ai 《Retrieval-Augmented Generation (RAG)》课程导读(四)
1 parent 8dcb708 commit 2aa7bdf

1 file changed

Lines changed: 196 additions & 0 deletions

File tree

Lines changed: 196 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,196 @@
1+
Title: Deeplearning.ai 《Retrieval-Augmented Generation (RAG)》课程导读(四)
2+
Date: 2025-09-29 10:00
3+
Tags: RAG, 信息检索, LLM, 检索增强生成
4+
Slug: deeplearning-ai-rag-course-intro-4
5+
6+
[源视频][1]
7+
8+
> 根据视频字幕生成,是给不想看视频的人准备的速读文档
9+
10+
## 简介
11+
12+
本部分聚焦 **如何将 RAG 系统真正投入生产**。你将学习部署前的准备步骤,并回顾多种系统评估策略:既可针对单个组件,也可面向整体系统,同时需在运行过程中持续观测性能表现。课程还特别强调 **日志记录** 的重要性,它不仅能追踪调用,还能帮助定位低质量响应的根源。
13+
14+
随后,你会接触几项关键实践:
15+
16+
* 从真实流量中构建 **自定义数据集**,用客户数据测试系统更新。
17+
* 在设计与调优中处理常见权衡,如成本、内存、存储与延迟,并学习在不显著降低质量的前提下对齐需求。
18+
* 探索前沿方法,将 **多模态数据**(图像、PDF 等)整合进知识库,让系统具备处理非文本信息的能力。
19+
20+
本模块旨在帮助你掌握 从原型走向生产的关键实践:建立评估与监控体系,权衡成本、延迟与质量,并通过量化、安全机制和多模态扩展不断优化 RAG 系统。
21+
22+
## RAG 评估策略
23+
24+
部署 RAG 的第一步是搭建 **可观测性系统**,并建立系统化的评估方法。
25+
26+
### 可观测性与指标收集
27+
28+
系统需同时追踪:
29+
30+
* 性能指标:延迟、吞吐量、内存、计算资源。
31+
* 质量指标:用户满意度、回复准确性、检索器召回率。
32+
33+
除聚合统计外,还应保存详细日志,以便追踪单个提示在管道中的流转,定位低效或错误响应。
34+
35+
### 评估与实验
36+
37+
系统应支持 A/B 测试,便于验证模型切换、提示修改或检索器调整的效果。
38+
39+
评估维度:
40+
41+
* **范围**:
42+
43+
* 系统级评估 → 把握整体表现
44+
* 组件级评估 → 定位瓶颈(如检索器或 LLM)
45+
* **方法**:
46+
47+
* 基于代码 → 自动化、低成本(吞吐量、单元测试)
48+
* 人工反馈 → 捕捉代码遗漏的问题(用户点赞/点踩、调查问卷)
49+
* LLM 作为裁判 → 成本低于人工、灵活,但需防止偏见(如判定“相关/不相关”)
50+
51+
最佳做法是 **多方法结合**:
52+
性能监控 + 人工标注测试集 + LLM 评估,在低/高成本间取得平衡,同时兼顾系统整体与组件质量。
53+
54+
## 日志与监控
55+
56+
课程推荐借助 **现代可观测性平台**,而非完全自建。
57+
58+
以 **Phoenix**(Arise 开源工具)为例:
59+
60+
* **追踪**:记录提示在 RAG 管道中的完整路径(检索、重排、拼接提示、生成响应),并标注延迟。
61+
* **指标收集**:与 RaaS 库集成,计算检索相关性、验证引用准确性。
62+
* **实验**:支持提示迭代与 A/B 测试。
63+
* **聚合监控**:提供日报与趋势统计,如检索准确率、幻觉率。
64+
65+
但 Phoenix 不覆盖所有需求,如 GPU/内存监控,仍需 **Datadog、Grafana** 等传统工具。
66+
67+
良好的可观测性管道能形成 **改进飞轮**:
68+
通过生产流量发现问题 → 在日志和自定义数据集上验证改动 → 优化 → 回到生产环境验证。
69+
70+
## 定制化评估体系
71+
72+
核心方法是:把 **真实用户提示** 整理为 **自定义数据集**,用于回放与对比。
73+
74+
数据集粒度可分:
75+
76+
* **最小集**:仅包含用户输入与最终回复,适合端到端评估。
77+
* **组件集**:额外存储检索结果、重排前后结果、查询重写等,便于诊断具体问题。
78+
79+
实践案例:
80+
81+
* 在客服场景中,日志分析可能揭示“退款”问题表现良好,而“物流延迟”表现差 → 原因是检索器缺乏相关文档。
82+
* 在支持文本转图像/图表的系统中,路由 LLM 错误分配任务,导致图表输出错误 → 调整系统提示后修复。
83+
84+
当数据量大时,可用 **聚类与可视化** 提炼主题(如新品发布、故障排查),再对主题单独评估,发现薄弱环节。
85+
86+
## 模型量化技术
87+
88+
量化是生产环境中 **成本、速度、质量** 权衡的关键。
89+
90+
### 主要形式
91+
92+
* **LLM 量化**:将 16 位参数压缩为 8 位或 4 位,大幅降低显存占用与推理延迟,代价是轻微质量下降。
93+
* **向量量化**:
94+
95+
* 8 位整数量化 → 体积降至约 1/4,召回率仅下降几个百分点。
96+
* 1 位(二值化)→ 规模缩小 32 倍,但检索质量损失大;常配合“粗检-重排”。
97+
* **套娃嵌入**:按信息密度排序维度,部分场景只用前 100–500 维快速检索,必要时再全量重排。
98+
99+
### 实践建议
100+
101+
* 优先使用 **8 位整数量化**(适用于 LLM 与嵌入模型)。
102+
* 结合评估体系,监控延迟、吞吐、召回率、幻觉率,验证量化效果。
103+
* 可采用“低精度检索 + 高精度重排”组合策略。
104+
105+
总的来看,量化能够在几乎不损失质量的前提下,显著降低显存和存储消耗,并提升推理与检索速度,是生产环境中最实用的优化手段之一。
106+
107+
## 成本与响应质量的平衡
108+
109+
RAG 的主要成本来自 **LLM 推理** 与 **向量数据库**。
110+
111+
### LLM 成本优化
112+
113+
* 使用更小或量化后的模型。
114+
* 限制令牌数量(减少 top-k,裁剪长段落,设置输出上限)。
115+
* 选择合适的部署方式:
116+
117+
* 原型 → 公共推理端点
118+
* 规模化 → 专用推理硬件(更划算且稳定)
119+
120+
### 向量库成本优化
121+
122+
* **分层存储**:热数据放 RAM,冷数据放磁盘/对象存储。
123+
* **动态迁移**:根据访问模式自动调整。
124+
* **多租户优化**:只在 RAM 中加载当前活跃租户的索引。
125+
126+
核心思路:用实验与监控量化权衡,确保节省成本不以显著质量下降为代价。
127+
128+
## 时延与质量的权衡
129+
130+
每新增一个质量优化组件,都会增加延迟。取舍取决于场景:
131+
132+
* 电商推荐 → 极低延迟优先
133+
* 医疗诊断 → 高质量优先
134+
135+
优化顺序:
136+
137+
1. **核心 LLM**:用小模型/量化模型;路由简单任务给小模型;利用缓存。
138+
2. **管道组件**:剔除低性价比步骤(如价值有限的查询生成器)。
139+
3. **检索优化**:使用量化嵌入,加快距离计算;或采用数据库分片。
140+
141+
关键原则:**持续测量延迟与质量指标,找到项目可接受的平衡点**。
142+
143+
## 安全防护机制
144+
145+
RAG 系统面临独特的安全风险,尤其是知识库中常包含敏感信息。
146+
147+
主要风险:
148+
149+
* 提示攻击诱导模型泄露文档。
150+
* 外部调用时暴露知识片段。
151+
* 向量数据库被入侵。
152+
153+
关键防护:
154+
155+
* **访问控制**:基于身份验证与多租户隔离。
156+
* **本地化部署**:在安全场景中,完全自建 LLM 与数据库。
157+
* **加密存储**:加密文本块,检索后解密;但向量必须明文存放,存在风险。
158+
* **向量攻击防护**:通过加噪、变换或降维降低可逆性(会增加复杂度与性能损耗)。
159+
160+
核心结论:**敏感信息必须有明确的边界与控制机制**。
161+
162+
## 多模态RAG系统
163+
164+
多模态 RAG 将文本扩展到 **图像(甚至音频/视频)**,检索与提示均可跨模态,输出仍为文本。
165+
166+
关键机制:
167+
168+
* 使用 **多模态嵌入器** 将文本与图像映射到同一向量空间。
169+
* 使用 **语言-视觉模型(VLM)** 接收多模态输入并生成文本输出。
170+
171+
在检索流程中:
172+
173+
* **同模空间检索**:查询可为文本或图像,统一编码后进行向量搜索。
174+
* **文档格式扩展**:PPT、PDF 等转为图像再分块嵌入。
175+
* **PDF-RAG 技术**:将页面切分成数百小块嵌入,支持细粒度检索,但会显著增加向量规模。
176+
177+
要点:
178+
179+
* 架构升级成本低,仅需替换嵌入器和 LLM。
180+
* 检索更精准,但存储与计算开销增加(可用量化、分层存储、粗检-精排优化)。
181+
* 生态正在快速发展,主流厂商已推出 VLM,多模态嵌入器逐渐成熟。
182+
183+
一句话总结:**多模态 RAG 通过“同空间嵌入 + VLM 生成”打通文本与图像,实现更丰富的知识检索与问答**。
184+
185+
## 总结
186+
187+
进入生产环境后,RAG 系统将面临更复杂的挑战:高流量、不确定性错误、潜在安全风险。
188+
本模块的核心收获:
189+
190+
* **评估体系**:可观测性、日志、系统级与组件级评估。
191+
* **权衡策略**:在质量、成本、延迟之间找到最佳平衡点。
192+
* **安全防护**:确保敏感信息的边界。
193+
* **多模态扩展**:突破文本限制,支持更广泛的知识格式。
194+
195+
至此,你已具备从 **原型到生产** 构建 RAG 系统的完整基础。课程希望你不仅掌握方法与技巧,也能带着灵感去探索更复杂、更真实的 AI 应用场景。
196+

0 commit comments

Comments
 (0)