|
8 | 8 | AgentJet具备全分布式蜂群训练(Swarm Training)能力, |
9 | 9 | 实现了训练和推理的完全解耦,大幅简化了单智能体和多智能体LLM系统的训练流程,能更高效地承担复杂多智能体系统的训练工作。 |
10 | 10 | > |
11 | | ->一方面,在AgentJet中,研究者可以使用非常简单的代码,将多个不同LLM模型同时接入一个多智能体系统的RL训练中,实现真正意义的非共享参数多智能体强化学习(MARL); |
| 11 | +>一方面,在AgentJet中,研究者可以使用非常简单的代码,将多个不同LLM模型同时接入一个多智能体系统的RL训练任务中,实现真正意义的非共享参数多智能体强化学习(MARL); |
12 | 12 | 另一方面,研究者可在任意设备(如笔记本电脑)上运行智能体直接参与训练, |
13 | 13 | 也能随时动态添加、移除、修改智能体Rollout节点,构建不受环境限制、能随时改Bug、能从外部环境崩溃中自愈的蜂群训练网路。 |
14 | 14 | 此外,AgentJet 完全开源,样例丰富,开箱即用,开放共建,并配套Token层级的追踪调试工具 & 逐版本训练性能追踪平台; |
@@ -46,27 +46,39 @@ Tinker提出了一个半分布式解耦架构(可惜只能训练Lora模型) |
46 | 46 |
|
47 | 47 |
|
48 | 48 |
|
49 | | -## AgentJet Swarm: 首个开源的蜂群分布式大模型 Agent 训练框架 |
| 49 | +## AgentJet Swarm:首个开源的蜂群分布式大模型 Agent 训练框架 |
50 | 50 |
|
51 | | -在以往的训练模式下,VERL支撑的训练基座可以比作“航空母舰”,从“母舰”上,只能起飞轻型的“Jet”作为Agent运行的载体,且所有Jet与“母舰”强绑定, |
52 | | -即无法使用其他“母舰”的其他模型实现非共享参数多智能体训练,也不能方便地切换固定在环境变量和代码中的密钥和奖励参数,更不能在多个硬件之间随心流转。一旦遇到任何问题,只能终止整个进程返回到上一检查点。 |
53 | 51 |
|
54 | | -而AgentJet Swarm蜂群训练模式开创了一种全新的训练模式。沿用前面的比喻,在蜂群模式下,研究者和Agent工程师可以自由地在一台或多台服务器上部署多艘“航空母舰”(Swarm Server,每个Server对应一个待训LLM模型)。 |
55 | | -然后从“陆基平台”(例如你的工作站、服务器、甚至是你的Macbook,对于硬件、操作系统、智能体Runtime都没有任何限制)上 “起飞” 任意多个 Swarm Client 运行Agent工作流,形成一个多对多的训练体系: |
| 52 | +之前的Agentic RL训练模式有一些隐含假设: |
| 53 | +- 首先,无论待训练任务中有多少智能体,这些智能体都只能共享同一套可微调LLM模型(共享“大脑”)。 |
| 54 | +形成这种现象的原因是以VERL和TRL为代表的大多数训练后端,典型配置都是只对一个LLM模型的微调训练负责。 |
| 55 | +- 其次,在强化学习样本采集阶段,当前所有训练框架都会强制绑定智能体Rollout任务进程, |
| 56 | +即所有任务必须由单一训练后端发起,使用单一模型执行推理,遍历同一数据集的任务,且受同一操作系统环境的桎梏。 |
56 | 57 |
|
57 | | -- Swarm Client:负责读取数据集,运行Agent工作流,最后奖励信号返回给各个“母舰”。 |
58 | | -- Swarm Server:“母舰”负责维护训练推理CoLocate环境,提供vLLM/SGLang的api接口(附带AgentJet的自动context追踪 & 时间线合并能力,大幅加速训练),采集&归纳样本,并执行策略梯度计算。 |
| 58 | +而AgentJet Swarm 开创了一种**全新的分布式蜂群训练框架**。 |
| 59 | +在这个框架中,整个训练系统由若干个节点组成,节点分为 Swarm Server 和 Swarm Client 两类: |
59 | 60 |
|
| 61 | +- **Swarm Server**:运行在GPU服务器(或集群)上,装载被训练LLM策略参数,维护训练推理CoLocate环境,提供vLLM/SGLang的api接口(附带自动context追踪 & 时间线合并能力),执行策略梯度计算。 |
| 62 | +- **Swarm Client**:运行在任何设备上,读取数据集,运行强化学习采样任务,最后把奖励信号返回给 Swarm Server。还能随时遥控 Swarm Server,更新其训练参数,在意义时间远程启动、中止或重启训练。 |
60 | 63 |
|
61 | 64 |
|
62 | 65 | <div align="center"> |
63 | 66 | <img width="800" alt="image" src="https://serve.gptacademic.cn/publish/shared/Image/classic+swarm+revise.jpg"/> |
64 | 67 | </div> |
65 | 68 |
|
| 69 | +为了更形象地展示两种训练模式的区别,可以把训练后端(如VERL)类比成算力充足但只装载一个模型的“航空母舰”,把RL推理采样进程比作“战机”。 |
66 | 70 |
|
67 | | -接下来,用简单的几个case展示 AgentJet 蜂群模式的优势: |
| 71 | +- 这些“战机”的调度被创建他们的“母舰”完全“焊死”,无法借助外部其他“母舰”的模型与算力,完成任务后需要被“母舰”回收循环。此外,这些“战机”作为“舰载机”,运行时(Runtime)的“重量”受到“母舰”的制约,难免需要“削足适履”,将大量的时间投入在MCP环境和智能体运行环境的魔改上。另外,这种以“母舰”为中心的样本采样方法非常脆弱,一旦外部环境出现变化(如外部API失效,IP限流,磁盘)或者内部参数需要修改(如奖励系数,任务难度系数)时,都只能彻底终止整个训练进程然后重试,丢失未保存的全部进度。而这在智能体越来越复杂的2026年,给复杂训练任务带来的麻烦显然是难以承受的。 |
| 72 | +- 相比之下,AgentJet 的蜂群训练框架则创造了一种新的训练方法。针对一个训练任务,研究者可以根据需要同时部署多艘“母舰”来承载多个LLM模型训练需求, |
| 73 | +然后从任意平台(例如工作站、服务器、甚至是你的Macbook,对于硬件、操作系统、依赖环境、编程语言都没有任何限制,能发送HTTP请求就行)启动“战机”完成RL采样任务。 |
| 74 | +这些执行采样任务的“战机”可以自由使用蜂群中所有“母舰”的模型与算力,且可以随时动态加入、退出训练任务。 |
| 75 | +研究者甚至可以指定其中一个“战机”成为“超级指挥官”,负责遥控蜂群所有“航空母舰”的运行并传递训练参数,形成一个多对多、可拓展伸缩的灵活训练体系。 |
68 | 76 |
|
69 | 77 |
|
| 78 | +接下来,用简单的几个case展示 AgentJet 蜂群模式的优势。 |
| 79 | + |
| 80 | +## 灵活的蜂群训练模式 |
| 81 | + |
70 | 82 | ### 用笔记本电脑全参训练Agentic LLM模型 |
71 | 83 |
|
72 | 84 | 没错,在 AgentJet 蜂群模式下,你的笔记本电脑完全可以成为一个完美 Swarm Client。想象这样一个场景:你的团队在远程GPU集群上部署了一个 Swarm Server,挂载着一个 Qwen-32B 模型。此时打开你的 Laptop,写好你需要训练的Agent Loop,指定数据集路径、模型路径和奖励函数,调试和训练就可以开始了。 |
|
0 commit comments