docs: Clarify hardware and OS compatibility in swarm training introduction

binary-husky · binary-husky · commit 00bc214499ab · 2026-02-24T16:12:30.000+08:00
diff --git a/docs/en/swarm_intro.md b/docs/en/swarm_intro.md
@@ -38,7 +38,7 @@ Tinker提出了一个半分布式解耦架构（可惜只能训练Lora模型）
 即无法使用其他“母舰”的其他模型实现非共享参数多智能体训练，也不能方便地切换固定在环境变量和代码中的密钥和奖励参数，更不能在多个硬件之间随心流转。一旦遇到任何问题，只能终止整个进程返回到上一检查点。
 
 而AgentJet Swarm蜂群训练模式开创了一种全新的训练模式。沿用前面的比喻，在蜂群模式下，研究者和Agent工程师可以自由地在一台或多台服务器上部署多艘“航空母舰”（Swarm Server，每个Server对应一个待训LLM模型）。
-然后从“陆基平台”（例如你的工作站、服务器、甚至是你的Macbook）“起飞” 任意多个 Swarm Client 运行Agent工作流，形成一个多对多的训练体系：
+然后从“陆基平台”（例如你的工作站、服务器、甚至是你的Macbook，对于硬件、操作系统、智能体Runtime都没有任何限制）上 “起飞” 任意多个 Swarm Client 运行Agent工作流，形成一个多对多的训练体系：
 
 - Swarm Client：负责读取数据集，运行Agent工作流，最后奖励信号返回给各个“母舰”。
 - Swarm Server：“母舰”负责维护训练推理CoLocate环境，提供vLLM/SGLang的api接口（附带AgentJet的自动context追踪 & 时间线合并能力，大幅加速训练），采集&归纳样本，并执行策略梯度计算。
@@ -137,6 +137,7 @@ AgentJet Swarm 原生支持多 Server 多模型的训练拓扑。你可以在多
 在工作流中，Client 可以根据角色将不同的推理请求路由到不同的 Server。规划 Agent 的对话历史发送给 32B 模型，执行 Agent 的对话历史发送给 7B 模型。两个模型各自收集自己的 rollout 样本，各自计算梯度，各自更新参数，完成真正的**非参数共享多智能体强化学习训练**。
 
 这种能力打开了许多此前难以实现的研究方向：
+
 - **异构团队博弈**：不同能力等级的模型组成团队，在竞争或合作环境中各自学习最优策略。
 - **级联决策优化**：粗粒度决策由大模型负责，细粒度操作由小模型执行，端到端联合优化整个决策链路。
 - **师生协同训练**：大模型做 teacher 提供高质量规划，小模型做 student 学习执行，两者同时通过 RL 信号共同进化。