Skip to content

Commit 4f9a851

Browse files
committed
update intro
1 parent 2f83609 commit 4f9a851

File tree

1 file changed

+21
-9
lines changed

1 file changed

+21
-9
lines changed

docs/en/swarm_intro.md

Lines changed: 21 additions & 9 deletions
Original file line numberDiff line numberDiff line change
@@ -8,7 +8,7 @@
88
AgentJet具备全分布式蜂群训练(Swarm Training)能力,
99
实现了训练和推理的完全解耦,大幅简化了单智能体和多智能体LLM系统的训练流程,能更高效地承担复杂多智能体系统的训练工作。
1010
>
11-
>一方面,在AgentJet中,研究者可以使用非常简单的代码,将多个不同LLM模型同时接入一个多智能体系统的RL训练中,实现真正意义的非共享参数多智能体强化学习(MARL);
11+
>一方面,在AgentJet中,研究者可以使用非常简单的代码,将多个不同LLM模型同时接入一个多智能体系统的RL训练任务中,实现真正意义的非共享参数多智能体强化学习(MARL);
1212
另一方面,研究者可在任意设备(如笔记本电脑)上运行智能体直接参与训练,
1313
也能随时动态添加、移除、修改智能体Rollout节点,构建不受环境限制、能随时改Bug、能从外部环境崩溃中自愈的蜂群训练网路。
1414
此外,AgentJet 完全开源,样例丰富,开箱即用,开放共建,并配套Token层级的追踪调试工具 & 逐版本训练性能追踪平台;
@@ -46,27 +46,39 @@ Tinker提出了一个半分布式解耦架构(可惜只能训练Lora模型)
4646

4747

4848

49-
## AgentJet Swarm: 首个开源的蜂群分布式大模型 Agent 训练框架
49+
## AgentJet Swarm:首个开源的蜂群分布式大模型 Agent 训练框架
5050

51-
在以往的训练模式下,VERL支撑的训练基座可以比作“航空母舰”,从“母舰”上,只能起飞轻型的“Jet”作为Agent运行的载体,且所有Jet与“母舰”强绑定,
52-
即无法使用其他“母舰”的其他模型实现非共享参数多智能体训练,也不能方便地切换固定在环境变量和代码中的密钥和奖励参数,更不能在多个硬件之间随心流转。一旦遇到任何问题,只能终止整个进程返回到上一检查点。
5351

54-
而AgentJet Swarm蜂群训练模式开创了一种全新的训练模式。沿用前面的比喻,在蜂群模式下,研究者和Agent工程师可以自由地在一台或多台服务器上部署多艘“航空母舰”(Swarm Server,每个Server对应一个待训LLM模型)。
55-
然后从“陆基平台”(例如你的工作站、服务器、甚至是你的Macbook,对于硬件、操作系统、智能体Runtime都没有任何限制)上 “起飞” 任意多个 Swarm Client 运行Agent工作流,形成一个多对多的训练体系:
52+
之前的Agentic RL训练模式有一些隐含假设:
53+
- 首先,无论待训练任务中有多少智能体,这些智能体都只能共享同一套可微调LLM模型(共享“大脑”)。
54+
形成这种现象的原因是以VERL和TRL为代表的大多数训练后端,典型配置都是只对一个LLM模型的微调训练负责。
55+
- 其次,在强化学习样本采集阶段,当前所有训练框架都会强制绑定智能体Rollout任务进程,
56+
即所有任务必须由单一训练后端发起,使用单一模型执行推理,遍历同一数据集的任务,且受同一操作系统环境的桎梏。
5657

57-
- Swarm Client:负责读取数据集,运行Agent工作流,最后奖励信号返回给各个“母舰”
58-
- Swarm Server:“母舰”负责维护训练推理CoLocate环境,提供vLLM/SGLang的api接口(附带AgentJet的自动context追踪 & 时间线合并能力,大幅加速训练),采集&归纳样本,并执行策略梯度计算。
58+
而AgentJet Swarm 开创了一种**全新的分布式蜂群训练框架**
59+
在这个框架中,整个训练系统由若干个节点组成,节点分为 Swarm Server 和 Swarm Client 两类:
5960

61+
- **Swarm Server**:运行在GPU服务器(或集群)上,装载被训练LLM策略参数,维护训练推理CoLocate环境,提供vLLM/SGLang的api接口(附带自动context追踪 & 时间线合并能力),执行策略梯度计算。
62+
- **Swarm Client**:运行在任何设备上,读取数据集,运行强化学习采样任务,最后把奖励信号返回给 Swarm Server。还能随时遥控 Swarm Server,更新其训练参数,在意义时间远程启动、中止或重启训练。
6063

6164

6265
<div align="center">
6366
<img width="800" alt="image" src="https://serve.gptacademic.cn/publish/shared/Image/classic+swarm+revise.jpg"/>
6467
</div>
6568

69+
为了更形象地展示两种训练模式的区别,可以把训练后端(如VERL)类比成算力充足但只装载一个模型的“航空母舰”,把RL推理采样进程比作“战机”。
6670

67-
接下来,用简单的几个case展示 AgentJet 蜂群模式的优势:
71+
- 这些“战机”的调度被创建他们的“母舰”完全“焊死”,无法借助外部其他“母舰”的模型与算力,完成任务后需要被“母舰”回收循环。此外,这些“战机”作为“舰载机”,运行时(Runtime)的“重量”受到“母舰”的制约,难免需要“削足适履”,将大量的时间投入在MCP环境和智能体运行环境的魔改上。另外,这种以“母舰”为中心的样本采样方法非常脆弱,一旦外部环境出现变化(如外部API失效,IP限流,磁盘)或者内部参数需要修改(如奖励系数,任务难度系数)时,都只能彻底终止整个训练进程然后重试,丢失未保存的全部进度。而这在智能体越来越复杂的2026年,给复杂训练任务带来的麻烦显然是难以承受的。
72+
- 相比之下,AgentJet 的蜂群训练框架则创造了一种新的训练方法。针对一个训练任务,研究者可以根据需要同时部署多艘“母舰”来承载多个LLM模型训练需求,
73+
然后从任意平台(例如工作站、服务器、甚至是你的Macbook,对于硬件、操作系统、依赖环境、编程语言都没有任何限制,能发送HTTP请求就行)启动“战机”完成RL采样任务。
74+
这些执行采样任务的“战机”可以自由使用蜂群中所有“母舰”的模型与算力,且可以随时动态加入、退出训练任务。
75+
研究者甚至可以指定其中一个“战机”成为“超级指挥官”,负责遥控蜂群所有“航空母舰”的运行并传递训练参数,形成一个多对多、可拓展伸缩的灵活训练体系。
6876

6977

78+
接下来,用简单的几个case展示 AgentJet 蜂群模式的优势。
79+
80+
## 灵活的蜂群训练模式
81+
7082
### 用笔记本电脑全参训练Agentic LLM模型
7183

7284
没错,在 AgentJet 蜂群模式下,你的笔记本电脑完全可以成为一个完美 Swarm Client。想象这样一个场景:你的团队在远程GPU集群上部署了一个 Swarm Server,挂载着一个 Qwen-32B 模型。此时打开你的 Laptop,写好你需要训练的Agent Loop,指定数据集路径、模型路径和奖励函数,调试和训练就可以开始了。

0 commit comments

Comments
 (0)