|
| 1 | +Title: Deeplearning.ai 《Retrieval-Augmented Generation (RAG)》课程导读(三) |
| 2 | +Date: 2025-09-24 10:00 |
| 3 | +Tags: RAG, 信息检索, LLM, 检索增强生成 |
| 4 | +Slug: deeplearning-ai-rag-course-intro-3 |
| 5 | + |
| 6 | +[源视频][1] |
| 7 | + |
| 8 | +> 根据视频字幕生成,是给不想看视频的人准备的速读文档 |
| 9 | +
|
| 10 | +## LLM 简介 |
| 11 | + |
| 12 | +RAG 系统由检索器和 LLM 两部分组成。检索器负责找到信息,但真正决定回答效果的,是 LLM。 |
| 13 | + |
| 14 | +在这一部分,学习目标包括: |
| 15 | + |
| 16 | +* 理解 LLM 的工作原理; |
| 17 | +* 掌握提升性能的方法; |
| 18 | +* 熟悉 Transformer 架构; |
| 19 | +* 学习如何在代码中调用 LLM,并逐步改进; |
| 20 | +* 探索一些高级技术和实用建议。 |
| 21 | + |
| 22 | +完成后,你将能亲手构建一个小型 RAG 系统。 |
| 23 | + |
| 24 | +## Transformer 架构 |
| 25 | + |
| 26 | +### 起源 |
| 27 | + |
| 28 | +Transformer 架构来自 2017 年的论文 **《Attention Is All You Need》**。它最初用于机器翻译,由编码器和解码器组成。如今大多数语言模型使用解码器,嵌入模型使用编码器。 |
| 29 | + |
| 30 | +### 输入处理 |
| 31 | + |
| 32 | +1. 分词:输入文本切分成 token; |
| 33 | +2. 嵌入:每个 token 转换成向量; |
| 34 | +3. 位置编码:加入顺序信息; |
| 35 | +4. 注意力机制:token 之间相互“关注”,捕捉关联; |
| 36 | + * 多头注意力可以从不同角度建模关系; |
| 37 | +5. 前馈层:大量参数更新向量; |
| 38 | +6. 堆叠:多层重复这些步骤,逐渐提升理解。 |
| 39 | + |
| 40 | +### 文本生成 |
| 41 | + |
| 42 | +* 模型基于向量预测下一个 token 的概率分布; |
| 43 | +* 按概率抽样生成 token; |
| 44 | +* 将新 token 加回输入,重复处理; |
| 45 | +* 直到生成结束符或达到长度限制。 |
| 46 | + |
| 47 | +### 与 RAG 的关系 |
| 48 | + |
| 49 | +* 注意力机制让模型能理解注入的检索信息; |
| 50 | +* 生成存在随机性,可能与检索内容不一致; |
| 51 | +* 计算开销大,是 RAG 成本的主要来源。 |
| 52 | + |
| 53 | +## LLM 采样策略 |
| 54 | + |
| 55 | +LLM 每一步生成 token 都是从概率分布中随机选择。控制随机性很重要。 |
| 56 | + |
| 57 | +常见方法: |
| 58 | + |
| 59 | +* **贪心解码**:总选最高概率 → 稳定但僵化; |
| 60 | +* **温度(Temperature)**:调节分布尖锐度,低温度更确定,高温度更随机; |
| 61 | +* **Top-K**:从前 K 个候选中选; |
| 62 | +* **Top-P(核采样)**:从累计概率 ≤ P 的候选集中选; |
| 63 | +* **重复惩罚**:降低重复 token 的概率; |
| 64 | +* **对数偏差(Logit Bias)**:人为调整特定 token 的概率。 |
| 65 | + |
| 66 | +推荐默认配置: |
| 67 | + |
| 68 | +* 温度 = 0.8 |
| 69 | +* Top-P = 0.9 |
| 70 | +* 重复惩罚 = 1.2 |
| 71 | + |
| 72 | +应用场景: |
| 73 | + |
| 74 | +* **低温度 + 低 Top-P**:适合代码、事实类任务; |
| 75 | +* **高温度 + 高 Top-P**:适合写作、开放问题。 |
| 76 | + |
| 77 | +## 模型选择方法 |
| 78 | + |
| 79 | +选择模型会影响速度、质量和成本。 |
| 80 | + |
| 81 | +### 主要指标 |
| 82 | + |
| 83 | +* 参数规模:1–100 亿为小模型,100–500 亿为大模型; |
| 84 | +* 成本:按百万 token 计价; |
| 85 | +* 上下文窗口:可处理的最大输入输出长度; |
| 86 | +* 延迟与速度:响应和生成速度; |
| 87 | +* 知识截止日期:越新越好。 |
| 88 | + |
| 89 | +### 评估方式 |
| 90 | + |
| 91 | +* 自动化基准:如 MMLU、编程测试; |
| 92 | +* 人工评估:如 LM Arena,基于 Elo 排名; |
| 93 | +* 模型评估模型(LLM-as-a-judge):需注意偏差。 |
| 94 | + |
| 95 | +方法论:先用量化指标缩小范围,再用质量评估确认。保持灵活,方便更新替换。 |
| 96 | + |
| 97 | +## 提示词工程(基础) |
| 98 | + |
| 99 | +提示词通常包含: |
| 100 | + |
| 101 | +* 系统提示(设定语气和规则); |
| 102 | +* 历史对话; |
| 103 | +* 检索结果; |
| 104 | +* 用户输入。 |
| 105 | + |
| 106 | +RAG 中常用提示模板,把这些要素固定下来,方便实验和改进。 |
| 107 | + |
| 108 | +## 提示词工程(高级) |
| 109 | + |
| 110 | +常见技术: |
| 111 | + |
| 112 | +* **上下文学习(ICL)**:在提示中加入示例(one-shot / few-shot); |
| 113 | +* **推理导向提示**: |
| 114 | + * Scratchpad:先推理再回答; |
| 115 | + * Chain-of-Thought:逐步推理; |
| 116 | + * 推理模型:自带推理能力,成本更高; |
| 117 | +* **上下文管理**:对话过长时进行摘要或剪枝,避免占满上下文窗口。 |
| 118 | + |
| 119 | +## 幻觉处理 |
| 120 | + |
| 121 | +幻觉指模型生成的虚假信息。常见类型: |
| 122 | + |
| 123 | +* 轻微错误(数值说错); |
| 124 | +* 否认真实事实; |
| 125 | +* 编造不存在的信息。 |
| 126 | + |
| 127 | +应对方法: |
| 128 | + |
| 129 | +* 在系统提示中要求模型只基于检索结果回答,并引用来源; |
| 130 | +* 使用 Context Cite 等工具验证回答与文档的对应关系; |
| 131 | +* 用 ALCE 基准测试幻觉率和引用质量。 |
| 132 | + |
| 133 | +## 性能评估 |
| 134 | + |
| 135 | +评估的目标是量化 LLM 在 RAG 中的表现。 |
| 136 | + |
| 137 | +常用指标: |
| 138 | + |
| 139 | +* **相关性**:回答是否满足用户需求; |
| 140 | +* **可信度**:回答是否由检索文档支持; |
| 141 | +* **其他指标**:如引用准确性、抗干扰性(Ragas 库提供)。 |
| 142 | + |
| 143 | +还可以结合: |
| 144 | + |
| 145 | +* 用户反馈(点赞/点踩); |
| 146 | +* A/B 测试(对比不同模型或参数)。 |
| 147 | + |
| 148 | +建议:结合自动化评估和人工反馈。 |
| 149 | + |
| 150 | +## 9. 自主式 RAG |
| 151 | + |
| 152 | +自主式 RAG 使用多个模型协作,而不是一个模型完成所有步骤。 |
| 153 | + |
| 154 | +常见工作流: |
| 155 | + |
| 156 | +* 顺序工作流:按步骤依次完成; |
| 157 | +* 条件工作流:由路由模型决定是否检索或走哪条路径; |
| 158 | +* 迭代工作流:不断尝试直到合格; |
| 159 | +* 并行工作流:多个模型并行处理,再合并结果。 |
| 160 | + |
| 161 | +优势: |
| 162 | + |
| 163 | +* 小模型负责简单任务(高效低成本); |
| 164 | +* 大模型负责复杂生成; |
| 165 | +* 专用模型负责引用或验证。 |
| 166 | + |
| 167 | +## 总结 |
| 168 | + |
| 169 | +这一部分课程带来的主要收获: |
| 170 | + |
| 171 | +* 理解 Transformer 架构和 LLM 的工作机制; |
| 172 | +* 掌握采样策略,能控制输出的稳定性与多样性; |
| 173 | +* 学会如何在成本、速度、质量之间选择合适的模型; |
| 174 | +* 掌握提示工程的基本与高级方法; |
| 175 | +* 了解幻觉的成因与缓解方式; |
| 176 | +* 学习性能评估方法; |
| 177 | +* 认识多模型协作的自主式 RAG 思路。 |
| 178 | + |
| 179 | +这些内容组成了构建和优化 RAG 系统的完整知识框架,也为将原型发展为生产系统奠定了基础。 |
| 180 | + |
| 181 | + |
| 182 | +[1]: https://www.bilibili.com/video/BV1QRbnzTEyK?spm_id_from=333.788.videopod.episodes&vd_source=dbe2034ffbdf969aa84f0fa33428b1ae |
0 commit comments