Skip to content

Commit cc0bf9c

Browse files
authored
Create deeplearning-ai-rag-course-intro-3.md
1 parent 6ae1019 commit cc0bf9c

1 file changed

Lines changed: 182 additions & 0 deletions

File tree

Lines changed: 182 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,182 @@
1+
Title: Deeplearning.ai 《Retrieval-Augmented Generation (RAG)》课程导读(三)
2+
Date: 2025-09-24 10:00
3+
Tags: RAG, 信息检索, LLM, 检索增强生成
4+
Slug: deeplearning-ai-rag-course-intro-3
5+
6+
[源视频][1]
7+
8+
> 根据视频字幕生成,是给不想看视频的人准备的速读文档
9+
10+
## LLM 简介
11+
12+
RAG 系统由检索器和 LLM 两部分组成。检索器负责找到信息,但真正决定回答效果的,是 LLM。
13+
14+
在这一部分,学习目标包括:
15+
16+
* 理解 LLM 的工作原理;
17+
* 掌握提升性能的方法;
18+
* 熟悉 Transformer 架构;
19+
* 学习如何在代码中调用 LLM,并逐步改进;
20+
* 探索一些高级技术和实用建议。
21+
22+
完成后,你将能亲手构建一个小型 RAG 系统。
23+
24+
## Transformer 架构
25+
26+
### 起源
27+
28+
Transformer 架构来自 2017 年的论文 **《Attention Is All You Need》**。它最初用于机器翻译,由编码器和解码器组成。如今大多数语言模型使用解码器,嵌入模型使用编码器。
29+
30+
### 输入处理
31+
32+
1. 分词:输入文本切分成 token;
33+
2. 嵌入:每个 token 转换成向量;
34+
3. 位置编码:加入顺序信息;
35+
4. 注意力机制:token 之间相互“关注”,捕捉关联;
36+
* 多头注意力可以从不同角度建模关系;
37+
5. 前馈层:大量参数更新向量;
38+
6. 堆叠:多层重复这些步骤,逐渐提升理解。
39+
40+
### 文本生成
41+
42+
* 模型基于向量预测下一个 token 的概率分布;
43+
* 按概率抽样生成 token;
44+
* 将新 token 加回输入,重复处理;
45+
* 直到生成结束符或达到长度限制。
46+
47+
### 与 RAG 的关系
48+
49+
* 注意力机制让模型能理解注入的检索信息;
50+
* 生成存在随机性,可能与检索内容不一致;
51+
* 计算开销大,是 RAG 成本的主要来源。
52+
53+
## LLM 采样策略
54+
55+
LLM 每一步生成 token 都是从概率分布中随机选择。控制随机性很重要。
56+
57+
常见方法:
58+
59+
* **贪心解码**:总选最高概率 → 稳定但僵化;
60+
* **温度(Temperature)**:调节分布尖锐度,低温度更确定,高温度更随机;
61+
* **Top-K**:从前 K 个候选中选;
62+
* **Top-P(核采样)**:从累计概率 ≤ P 的候选集中选;
63+
* **重复惩罚**:降低重复 token 的概率;
64+
* **对数偏差(Logit Bias)**:人为调整特定 token 的概率。
65+
66+
推荐默认配置:
67+
68+
* 温度 = 0.8
69+
* Top-P = 0.9
70+
* 重复惩罚 = 1.2
71+
72+
应用场景:
73+
74+
* **低温度 + 低 Top-P**:适合代码、事实类任务;
75+
* **高温度 + 高 Top-P**:适合写作、开放问题。
76+
77+
## 模型选择方法
78+
79+
选择模型会影响速度、质量和成本。
80+
81+
### 主要指标
82+
83+
* 参数规模:1–100 亿为小模型,100–500 亿为大模型;
84+
* 成本:按百万 token 计价;
85+
* 上下文窗口:可处理的最大输入输出长度;
86+
* 延迟与速度:响应和生成速度;
87+
* 知识截止日期:越新越好。
88+
89+
### 评估方式
90+
91+
* 自动化基准:如 MMLU、编程测试;
92+
* 人工评估:如 LM Arena,基于 Elo 排名;
93+
* 模型评估模型(LLM-as-a-judge):需注意偏差。
94+
95+
方法论:先用量化指标缩小范围,再用质量评估确认。保持灵活,方便更新替换。
96+
97+
## 提示词工程(基础)
98+
99+
提示词通常包含:
100+
101+
* 系统提示(设定语气和规则);
102+
* 历史对话;
103+
* 检索结果;
104+
* 用户输入。
105+
106+
RAG 中常用提示模板,把这些要素固定下来,方便实验和改进。
107+
108+
## 提示词工程(高级)
109+
110+
常见技术:
111+
112+
* **上下文学习(ICL)**:在提示中加入示例(one-shot / few-shot);
113+
* **推理导向提示**
114+
* Scratchpad:先推理再回答;
115+
* Chain-of-Thought:逐步推理;
116+
* 推理模型:自带推理能力,成本更高;
117+
* **上下文管理**:对话过长时进行摘要或剪枝,避免占满上下文窗口。
118+
119+
## 幻觉处理
120+
121+
幻觉指模型生成的虚假信息。常见类型:
122+
123+
* 轻微错误(数值说错);
124+
* 否认真实事实;
125+
* 编造不存在的信息。
126+
127+
应对方法:
128+
129+
* 在系统提示中要求模型只基于检索结果回答,并引用来源;
130+
* 使用 Context Cite 等工具验证回答与文档的对应关系;
131+
* 用 ALCE 基准测试幻觉率和引用质量。
132+
133+
## 性能评估
134+
135+
评估的目标是量化 LLM 在 RAG 中的表现。
136+
137+
常用指标:
138+
139+
* **相关性**:回答是否满足用户需求;
140+
* **可信度**:回答是否由检索文档支持;
141+
* **其他指标**:如引用准确性、抗干扰性(Ragas 库提供)。
142+
143+
还可以结合:
144+
145+
* 用户反馈(点赞/点踩);
146+
* A/B 测试(对比不同模型或参数)。
147+
148+
建议:结合自动化评估和人工反馈。
149+
150+
## 9. 自主式 RAG
151+
152+
自主式 RAG 使用多个模型协作,而不是一个模型完成所有步骤。
153+
154+
常见工作流:
155+
156+
* 顺序工作流:按步骤依次完成;
157+
* 条件工作流:由路由模型决定是否检索或走哪条路径;
158+
* 迭代工作流:不断尝试直到合格;
159+
* 并行工作流:多个模型并行处理,再合并结果。
160+
161+
优势:
162+
163+
* 小模型负责简单任务(高效低成本);
164+
* 大模型负责复杂生成;
165+
* 专用模型负责引用或验证。
166+
167+
## 总结
168+
169+
这一部分课程带来的主要收获:
170+
171+
* 理解 Transformer 架构和 LLM 的工作机制;
172+
* 掌握采样策略,能控制输出的稳定性与多样性;
173+
* 学会如何在成本、速度、质量之间选择合适的模型;
174+
* 掌握提示工程的基本与高级方法;
175+
* 了解幻觉的成因与缓解方式;
176+
* 学习性能评估方法;
177+
* 认识多模型协作的自主式 RAG 思路。
178+
179+
这些内容组成了构建和优化 RAG 系统的完整知识框架,也为将原型发展为生产系统奠定了基础。
180+
181+
182+
[1]: https://www.bilibili.com/video/BV1QRbnzTEyK?spm_id_from=333.788.videopod.episodes&vd_source=dbe2034ffbdf969aa84f0fa33428b1ae

0 commit comments

Comments
 (0)