Skip to content

Commit 5b4ec08

Browse files
committed
list fix
1 parent 6133583 commit 5b4ec08

File tree

1 file changed

+2
-0
lines changed

1 file changed

+2
-0
lines changed

docs/en/swarm_intro.md

Lines changed: 2 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -8,13 +8,15 @@
88

99
在过去的2025年,我们见证了大语言模型Agent的飞速发展,
1010
而随着LLM智能体以及配套工具和运行时越来越复杂,无论是agent开发者还是前沿llm强化学习研究者都会遇到各种苦恼问题:
11+
1112
- 还没来得及庆祝Agent训练效果初见成色,结果某个外部API余额意外耗尽导致训练中止;
1213
- 只是简单地修改了一下奖励,却需要等待训练重启等到地老天荒,而且上个检查点(checkpoint)后未保存的进度都丢失了;
1314
- 某Agent需要docker作为运行时,但因权限不足,无权启动其他容器,只能花大量时间修改Agent源码寻找workaround;
1415
- MCP工具故障(浏览器MCP工具被封IP地址,数据库MCP工具因意外硬盘爆满故障);
1516
- 远程连接服务器调试Agent很不方便,如果能在自己的笔记本电脑上运行 Agent 直接参与(全参)Agent RL训练该多好呀;
1617

1718
当太多的精力被浪费在Agent运行时的稳定性上,我们越来越难去做出一些现有框架桎梏下,被视为“大胆”的算法尝试:
19+
1820
- 为何多智能体任务中我们不能同时去训练不同大小的模型高低搭配,做非参数共享的多智能体RL训练?
1921
- 如果让一个较小的模型在每个Gradient Step同时学习多个完全不同Agent工作流(Workflow),甚至完全不同领域的任务,是否有可能表现得更好?
2022
- 为什么鲜有研究使用 opencode 等带复杂 Runtime 的复杂 Agent 直接进行训练?

0 commit comments

Comments
 (0)