Skip to content

Commit bbae4d9

Browse files
committed
new series posts on GPT2 training/sft/lora
1 parent 5a0ce3c commit bbae4d9

6 files changed

Lines changed: 1208 additions & 6 deletions

docs/2026-05-01-基于GPT2的古诗生成器:LLM训练入门.md

Lines changed: 24 additions & 6 deletions
Original file line numberDiff line numberDiff line change
@@ -1,18 +1,17 @@
11
---
22
categories: [machine learning]
33
tags: [ai]
4-
mathjax: true
54
---
65

76
# 基于GPT2的古诗生成器:LLM训练入门
87

9-
本项目在了解Transformer基本原理的基础上,从零构建一个会写诗的大语言模型,走通从预训练到监督微调的全流程,见证模型从牙牙学语到像模像样创作诗词的进化过程。核心目标不是训练一个"最强古诗生成器",而是**通过实操理解LLM训练的每一个环节**
8+
---
109

11-
本项目着眼于工程应用,因此不准备从零构建Transformer模型,而是基于HuggingFace生态,直接复用其已经封装好的模型和训练逻辑,从而更多专注于数据集构建、模型配置和训练参数
10+
本项目在了解Transformer基本原理的基础上,从零构建一个会写诗的大语言模型,走通从预训练到监督微调的全流程,见证模型从牙牙学语到像模像样创作诗词的进化过程。核心目标不是训练一个"最强古诗生成器",而是 **通过实操理解LLM训练的每一个环节**
1211

13-
本项目所有代码在[国家超算互联网](https://www.scnet.cn/)免费提供试用的 64GB 显存异构加速卡上运行,特此感谢
12+
本项目着眼于工程应用,因此不准备从零构建Transformer模型,而是基于HuggingFace生态,直接复用其已经封装好的模型和训练逻辑,从而更多专注于数据集构建、模型配置和训练参数
1413

15-
https://github.com/dothinking/llm_learning
14+
本项目完整代码:https://github.com/dothinking/llm_learning
1615

1716
## 项目全景:一条完整的LLM训练流水线
1817

@@ -245,4 +244,23 @@ LoRA模型仅训练了约 **154万** 参数(占总参数的2.13%),就达
245244

246245
本文概述了基于GPT2的古诗生成器项目全貌。项目基于HuggingFace生态,使用85万+首古诗词完成预训练,构造4.9万条指令-回答对进行监督微调,完整走通了LLM训练的核心流程。72M参数的迷你GPT2即便在消费级GPU上也能轻松完成全部训练:预训练模型学会了诗句接龙,SFT模型具备了按主题、体裁、诗人风格创作的能力,LoRA模型仅训练2.13%参数便达到同等效果。
247246

248-
接下来三篇文章将逐一深入每个阶段的技术细节。例如,下一篇将开启 **预训练** :喂85万首诗词,让BPE分词器"认识"汉字,让GPT2模型从"牙牙学语"进化到具备"诗句接龙"的能力。
247+
接下来几篇文章将逐一深入每个阶段的技术细节。
248+
249+
- [预训练篇](./2026-05-02-基于GPT2的古诗生成器:预训练篇.md) —— 从随机权重到诗句接龙:BPE分词器 + GPT2 + 85万首古诗
250+
- [SFT篇](./2026-05-04-基于GPT2的古诗生成器:监督微调篇.md) —— 让模型听懂人话:Completion-Only掩码 + 全量指令微调
251+
- [LoRA篇](./2026-05-05-基于GPT2的古诗生成器:LoRA篇.md) —— 四两拨千斤:2.13%参数的高效微调方案
252+
253+
254+
---
255+
256+
**Transformer 背景知识**
257+
258+
- [Transformer 是怎么发明的?——回到深度学习的蛮荒时代@2016](https://mp.weixin.qq.com/s/4fyAAHOaETAg3y-j6xt1lw)
259+
260+
- [原版 Transformer 面试题终结者:从 QKV 到 mHC 一网打尽](https://mp.weixin.qq.com/s/p3-QpJJRGaA4e_69bMhMLg)
261+
262+
- [终于把 Transformer 算法搞懂了!!](https://mp.weixin.qq.com/s/tAvG-490CbaV2t-WNzH8xw)
263+
264+
- [transformer数据流详解——矩阵维度变化](https://zhuanlan.zhihu.com/p/708415544)
265+
266+
- [transformer代码实现及讲解](https://zhuanlan.zhihu.com/p/703178655)

0 commit comments

Comments
 (0)