We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
1 parent 6133583 commit 5b4ec08Copy full SHA for 5b4ec08
docs/en/swarm_intro.md
@@ -8,13 +8,15 @@
8
9
在过去的2025年,我们见证了大语言模型Agent的飞速发展,
10
而随着LLM智能体以及配套工具和运行时越来越复杂,无论是agent开发者还是前沿llm强化学习研究者都会遇到各种苦恼问题:
11
+
12
- 还没来得及庆祝Agent训练效果初见成色,结果某个外部API余额意外耗尽导致训练中止;
13
- 只是简单地修改了一下奖励,却需要等待训练重启等到地老天荒,而且上个检查点(checkpoint)后未保存的进度都丢失了;
14
- 某Agent需要docker作为运行时,但因权限不足,无权启动其他容器,只能花大量时间修改Agent源码寻找workaround;
15
- MCP工具故障(浏览器MCP工具被封IP地址,数据库MCP工具因意外硬盘爆满故障);
16
- 远程连接服务器调试Agent很不方便,如果能在自己的笔记本电脑上运行 Agent 直接参与(全参)Agent RL训练该多好呀;
17
18
当太多的精力被浪费在Agent运行时的稳定性上,我们越来越难去做出一些现有框架桎梏下,被视为“大胆”的算法尝试:
19
20
- 为何多智能体任务中我们不能同时去训练不同大小的模型高低搭配,做非参数共享的多智能体RL训练?
21
- 如果让一个较小的模型在每个Gradient Step同时学习多个完全不同Agent工作流(Workflow),甚至完全不同领域的任务,是否有可能表现得更好?
22
- 为什么鲜有研究使用 opencode 等带复杂 Runtime 的复杂 Agent 直接进行训练?
0 commit comments