Skip to content

Commit 00bc214

Browse files
committed
docs: Clarify hardware and OS compatibility in swarm training introduction
1 parent 70de579 commit 00bc214

File tree

1 file changed

+2
-1
lines changed

1 file changed

+2
-1
lines changed

docs/en/swarm_intro.md

Lines changed: 2 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -38,7 +38,7 @@ Tinker提出了一个半分布式解耦架构(可惜只能训练Lora模型)
3838
即无法使用其他“母舰”的其他模型实现非共享参数多智能体训练,也不能方便地切换固定在环境变量和代码中的密钥和奖励参数,更不能在多个硬件之间随心流转。一旦遇到任何问题,只能终止整个进程返回到上一检查点。
3939

4040
而AgentJet Swarm蜂群训练模式开创了一种全新的训练模式。沿用前面的比喻,在蜂群模式下,研究者和Agent工程师可以自由地在一台或多台服务器上部署多艘“航空母舰”(Swarm Server,每个Server对应一个待训LLM模型)。
41-
然后从“陆基平台”(例如你的工作站、服务器、甚至是你的Macbook“起飞” 任意多个 Swarm Client 运行Agent工作流,形成一个多对多的训练体系:
41+
然后从“陆基平台”(例如你的工作站、服务器、甚至是你的Macbook,对于硬件、操作系统、智能体Runtime都没有任何限制)上 “起飞” 任意多个 Swarm Client 运行Agent工作流,形成一个多对多的训练体系:
4242

4343
- Swarm Client:负责读取数据集,运行Agent工作流,最后奖励信号返回给各个“母舰”。
4444
- Swarm Server:“母舰”负责维护训练推理CoLocate环境,提供vLLM/SGLang的api接口(附带AgentJet的自动context追踪 & 时间线合并能力,大幅加速训练),采集&归纳样本,并执行策略梯度计算。
@@ -137,6 +137,7 @@ AgentJet Swarm 原生支持多 Server 多模型的训练拓扑。你可以在多
137137
在工作流中,Client 可以根据角色将不同的推理请求路由到不同的 Server。规划 Agent 的对话历史发送给 32B 模型,执行 Agent 的对话历史发送给 7B 模型。两个模型各自收集自己的 rollout 样本,各自计算梯度,各自更新参数,完成真正的**非参数共享多智能体强化学习训练**
138138

139139
这种能力打开了许多此前难以实现的研究方向:
140+
140141
- **异构团队博弈**:不同能力等级的模型组成团队,在竞争或合作环境中各自学习最优策略。
141142
- **级联决策优化**:粗粒度决策由大模型负责,细粒度操作由小模型执行,端到端联合优化整个决策链路。
142143
- **师生协同训练**:大模型做 teacher 提供高质量规划,小模型做 student 学习执行,两者同时通过 RL 信号共同进化。

0 commit comments

Comments
 (0)