File tree Expand file tree Collapse file tree
examples/best_practices/GLM-4.5 Expand file tree Collapse file tree Original file line number Diff line number Diff line change 66- 推理适配:仅支持** 1步投机解码** ,无法直接支撑多步递归预测,多步推理时需依赖模型递归调用,接受率与效率较低。
77- 训练定位:作为多步 MTP 的基础热启模型,快速搭建 MTP 训练基线。
88
9+ <div align =" center " >
10+ <img width =" 1634 " height =" 880 " alt =" image " src =" https://github.com/user-attachments/assets/9ec83d65-5423-4ecc-9b6e-5a8ef1b0cdc3 " />
11+ </div >
12+
913### 1.2. 多步 MTP(Multi-Step MTP)
10- 多步 MTP 是模型在单次前向传播中,** 递归预测未来 N 个 token** (如3步)的模式,通过级联 MTP 模块实现因果预测。
14+ 多步 MTP 是模型在单次前向传播中,** 只使用一层 MTP 权重, 递归预测未来 N 个 token** (如3步)的模式,通过级联 MTP 模块实现因果预测。
1115- 核心机制:第1步 MTP 预测 t+1,第2步基于第1步输出预测 t+2,第3步基于第2步输出预测 t+3,保持序列逻辑连贯。
12- - 推理适配:直接支持** N 步投机解码** ,无需额外递归调用, 提升接受率与生成速度。
13- - 训练收益:投机解码从1步预测变为3步预测 ,平均接受长度显著提升。
16+ - 推理适配:直接支持** N 步投机解码** ,提升接受率与生成速度。
17+ - 训练收益:投机解码从1步预测变为 N 步预测 ,平均接受长度显著提升。
1418
1519### 1.3. 单步 vs 多步 MTP 核心对比
1620| 维度 | 单步 MTP | 多步 MTP |
You can’t perform that action at this time.
0 commit comments