Skip to content

Commit 646455d

Browse files
committed
add pic.
1 parent daba801 commit 646455d

1 file changed

Lines changed: 7 additions & 3 deletions

File tree

examples/best_practices/GLM-4.5/readme.md

Lines changed: 7 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -6,11 +6,15 @@
66
- 推理适配:仅支持**1步投机解码**,无法直接支撑多步递归预测,多步推理时需依赖模型递归调用,接受率与效率较低。
77
- 训练定位:作为多步 MTP 的基础热启模型,快速搭建 MTP 训练基线。
88

9+
<div align="center">
10+
<img width="1634" height="880" alt="image" src="https://github.com/user-attachments/assets/9ec83d65-5423-4ecc-9b6e-5a8ef1b0cdc3" />
11+
</div>
12+
913
### 1.2. 多步 MTP(Multi-Step MTP)
10-
多步 MTP 是模型在单次前向传播中,**递归预测未来 N 个 token**(如3步)的模式,通过级联 MTP 模块实现因果预测。
14+
多步 MTP 是模型在单次前向传播中,**只使用一层 MTP 权重, 递归预测未来 N 个 token**(如3步)的模式,通过级联 MTP 模块实现因果预测。
1115
- 核心机制:第1步 MTP 预测 t+1,第2步基于第1步输出预测 t+2,第3步基于第2步输出预测 t+3,保持序列逻辑连贯。
12-
- 推理适配:直接支持**N 步投机解码**无需额外递归调用,提升接受率与生成速度。
13-
- 训练收益:投机解码从1步预测变为3步预测,平均接受长度显著提升。
16+
- 推理适配:直接支持**N 步投机解码**,提升接受率与生成速度。
17+
- 训练收益:投机解码从1步预测变为 N 步预测,平均接受长度显著提升。
1418

1519
### 1.3. 单步 vs 多步 MTP 核心对比
1620
| 维度 | 单步 MTP | 多步 MTP |

0 commit comments

Comments
 (0)