Skip to content

Latest commit

 

History

History
53 lines (38 loc) · 1.04 KB

File metadata and controls

53 lines (38 loc) · 1.04 KB

By Learning Path

路线一: 开源基础模型主线

  1. Llama 2
  2. Llama 3
  3. Qwen2
  4. Qwen2.5
  5. Mistral 7B / Mixtral 8x7B

目标: 建立对主流开源 base model 与 instruct model 演进的整体认知。

路线二: 后训练主线

  1. InstructGPT / RLHF
  2. PPO
  3. DPO
  4. GRPO
  5. topics/post_training.md

目标: 理解从 SFT 到 preference optimization 再到 reasoning-oriented RL 的演进。

路线三: 长上下文主线

  1. RoFormer / RoPE
  2. ALiBi
  3. Position Interpolation
  4. YaRN
  5. Ring Attention
  6. topics/long_context.md

目标: 理解长上下文常见扩展路线以及它们的工程代价。

路线四: 架构与效率主线

  1. Attention Is All You Need
  2. FlashAttention
  3. Switch Transformer
  4. Mixtral 8x7B
  5. DeepSeek-V3
  6. topics/moe.md

目标: 理解稠密 Transformer 到高效注意力、再到 MoE 的主流路线。

路线五: Reasoning 模型主线

  1. DeepSeekMath
  2. DeepSeek-R1
  3. GRPO
  4. GSPO
  5. topics/reasoning_rl.md

目标: 理解 reasoning 能力提升与强化学习设计之间的关系。