update intro

binary-husky · binary-husky · commit 4f9a8519683e · 2026-02-26T13:39:12.000+08:00
diff --git a/docs/en/swarm_intro.md b/docs/en/swarm_intro.md
@@ -8,7 +8,7 @@
 AgentJet具备全分布式蜂群训练（Swarm Training）能力，
 实现了训练和推理的完全解耦，大幅简化了单智能体和多智能体LLM系统的训练流程，能更高效地承担复杂多智能体系统的训练工作。
 >
->一方面，在AgentJet中，研究者可以使用非常简单的代码，将多个不同LLM模型同时接入一个多智能体系统的RL训练中，实现真正意义的非共享参数多智能体强化学习（MARL）；
+>一方面，在AgentJet中，研究者可以使用非常简单的代码，将多个不同LLM模型同时接入一个多智能体系统的RL训练任务中，实现真正意义的非共享参数多智能体强化学习（MARL）；
 另一方面，研究者可在任意设备（如笔记本电脑）上运行智能体直接参与训练，
 也能随时动态添加、移除、修改智能体Rollout节点，构建不受环境限制、能随时改Bug、能从外部环境崩溃中自愈的蜂群训练网路。
 此外，AgentJet 完全开源，样例丰富，开箱即用，开放共建，并配套Token层级的追踪调试工具 & 逐版本训练性能追踪平台；
@@ -46,27 +46,39 @@ Tinker提出了一个半分布式解耦架构（可惜只能训练Lora模型）
 
 
 
-## AgentJet Swarm： 首个开源的蜂群分布式大模型 Agent 训练框架
+## AgentJet Swarm：首个开源的蜂群分布式大模型 Agent 训练框架
 
-在以往的训练模式下，VERL支撑的训练基座可以比作“航空母舰”，从“母舰”上，只能起飞轻型的“Jet”作为Agent运行的载体，且所有Jet与“母舰”强绑定，
-即无法使用其他“母舰”的其他模型实现非共享参数多智能体训练，也不能方便地切换固定在环境变量和代码中的密钥和奖励参数，更不能在多个硬件之间随心流转。一旦遇到任何问题，只能终止整个进程返回到上一检查点。
 
-而AgentJet Swarm蜂群训练模式开创了一种全新的训练模式。沿用前面的比喻，在蜂群模式下，研究者和Agent工程师可以自由地在一台或多台服务器上部署多艘“航空母舰”（Swarm Server，每个Server对应一个待训LLM模型）。
-然后从“陆基平台”（例如你的工作站、服务器、甚至是你的Macbook，对于硬件、操作系统、智能体Runtime都没有任何限制）上 “起飞” 任意多个 Swarm Client 运行Agent工作流，形成一个多对多的训练体系：
+之前的Agentic RL训练模式有一些隐含假设：
+- 首先，无论待训练任务中有多少智能体，这些智能体都只能共享同一套可微调LLM模型（共享“大脑”）。
+形成这种现象的原因是以VERL和TRL为代表的大多数训练后端，典型配置都是只对一个LLM模型的微调训练负责。
+- 其次，在强化学习样本采集阶段，当前所有训练框架都会强制绑定智能体Rollout任务进程，
+即所有任务必须由单一训练后端发起，使用单一模型执行推理，遍历同一数据集的任务，且受同一操作系统环境的桎梏。
 
-- Swarm Client：负责读取数据集，运行Agent工作流，最后奖励信号返回给各个“母舰”。
-- Swarm Server：“母舰”负责维护训练推理CoLocate环境，提供vLLM/SGLang的api接口（附带AgentJet的自动context追踪 & 时间线合并能力，大幅加速训练），采集&归纳样本，并执行策略梯度计算。
+而AgentJet Swarm 开创了一种**全新的分布式蜂群训练框架**。
+在这个框架中，整个训练系统由若干个节点组成，节点分为 Swarm Server 和 Swarm Client 两类：
 
+- **Swarm Server**：运行在GPU服务器（或集群）上，装载被训练LLM策略参数，维护训练推理CoLocate环境，提供vLLM/SGLang的api接口（附带自动context追踪 & 时间线合并能力），执行策略梯度计算。
+- **Swarm Client**：运行在任何设备上，读取数据集，运行强化学习采样任务，最后把奖励信号返回给 Swarm Server。还能随时遥控 Swarm Server，更新其训练参数，在意义时间远程启动、中止或重启训练。
 
 
 <div align="center">
 <img width="800" alt="image" src="https://serve.gptacademic.cn/publish/shared/Image/classic+swarm+revise.jpg"/>
 </div>
 
+为了更形象地展示两种训练模式的区别，可以把训练后端（如VERL）类比成算力充足但只装载一个模型的“航空母舰”，把RL推理采样进程比作“战机”。
 
-接下来，用简单的几个case展示 AgentJet 蜂群模式的优势：
+- 这些“战机”的调度被创建他们的“母舰”完全“焊死”，无法借助外部其他“母舰”的模型与算力，完成任务后需要被“母舰”回收循环。此外，这些“战机”作为“舰载机”，运行时（Runtime）的“重量”受到“母舰”的制约，难免需要“削足适履”，将大量的时间投入在MCP环境和智能体运行环境的魔改上。另外，这种以“母舰”为中心的样本采样方法非常脆弱，一旦外部环境出现变化（如外部API失效，IP限流，磁盘）或者内部参数需要修改（如奖励系数，任务难度系数）时，都只能彻底终止整个训练进程然后重试，丢失未保存的全部进度。而这在智能体越来越复杂的2026年，给复杂训练任务带来的麻烦显然是难以承受的。
+- 相比之下，AgentJet 的蜂群训练框架则创造了一种新的训练方法。针对一个训练任务，研究者可以根据需要同时部署多艘“母舰”来承载多个LLM模型训练需求，
+然后从任意平台（例如工作站、服务器、甚至是你的Macbook，对于硬件、操作系统、依赖环境、编程语言都没有任何限制，能发送HTTP请求就行）启动“战机”完成RL采样任务。
+这些执行采样任务的“战机”可以自由使用蜂群中所有“母舰”的模型与算力，且可以随时动态加入、退出训练任务。
+研究者甚至可以指定其中一个“战机”成为“超级指挥官”，负责遥控蜂群所有“航空母舰”的运行并传递训练参数，形成一个多对多、可拓展伸缩的灵活训练体系。
 
 
+接下来，用简单的几个case展示 AgentJet 蜂群模式的优势。
+
+## 灵活的蜂群训练模式
+
 ### 用笔记本电脑全参训练Agentic LLM模型
 
 没错，在 AgentJet 蜂群模式下，你的笔记本电脑完全可以成为一个完美 Swarm Client。想象这样一个场景：你的团队在远程GPU集群上部署了一个 Swarm Server，挂载着一个 Qwen-32B 模型。此时打开你的 Laptop，写好你需要训练的Agent Loop，指定数据集路径、模型路径和奖励函数，调试和训练就可以开始了。