Skip to content

Commit 9788d66

Browse files
committed
add long term training skills
1 parent d70c40d commit 9788d66

File tree

2 files changed

+514
-0
lines changed
  • ajet/copilot
    • auto-research-blueprint-execute-classic
    • auto-research-blueprint-execute-swarm

2 files changed

+514
-0
lines changed
Lines changed: 263 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,263 @@
1+
## 你的任务
2+
3+
1. 根据实验蓝图,运行实验
4+
2. 等待实验结束或者超时
5+
3. 如果实验失败,尝试进行修正,把试错过程放置到指定位置(exp_result_dir中创建一个文档),如果无法修复,则跳到第 5 步
6+
4. 将尽可能全面的实验结果放置到指定位置(exp_result_dir中创建一个文档)
7+
5. 在 exp_result_dir 中创建一个 `finish.flag` 文件,标志任务结束
8+
6. 结束
9+
10+
## 实验蓝图:
11+
12+
设计实验蓝图是为了执行实验以验证猜想或者获取必要数据。
13+
一个实验蓝图是一个markdown文件(blueprint.md)。实验蓝图包含的内容主要包括 8 部分,你需要根据这些信息,执行任务:
14+
15+
1. [exp_purpose] 实验目的(一段文本):
16+
简要说明本次实验的主要目的,以及本实验蓝图与之前其他蓝图的主要区别(例如哪个超参数不同,哪个环境变量不同)。
17+
2. [exp_codebase_dir] 主实验代码路径(绝对路径):
18+
包含运行实验所需要的所有代码的**绝对路径**。体积较小。不包含python虚拟环境。记得在实验开始前,cd到这个路径。
19+
3. [exp_venv_exe] python虚拟环境路径(python的绝对路径):
20+
python可执行文件的路径。比如: /mnt/data_cpfs/agentjet/project/.venv/bin/python
21+
4. [exp_yaml_path] 实验配置文件路径(相对路径,相对于主实验代码路径):
22+
实验配置的yaml文件的路径。注意该文件必须包含在主实验代码路径内。比如: /mnt/data_cpfs/agentjet/project/tests/bench/benchmark_math/benchmark_math.yaml
23+
5. [exp_launch_command] 执行训练的命令(字符串):
24+
例如 python -m ajet.launcher --conf tests/bench/benchmark_math/benchmark_math.yaml --autokill
25+
6. [exp_result_dir] 结果数据存储路径(绝对路径):
26+
输出数据的存储路径
27+
7. [exp_max_time] 运行时间不超过 ${MaxTime},每个实验强制在 ${MaxTime} 后终止
28+
8. 其他实验相关信息(可选):
29+
其他对实验有帮助的信息,例如之前相似实验的结果,或者需要特别注意的事项等。
30+
31+
32+
## 关于 AgentJet 的 Swarm 模式
33+
34+
1. 如果 agentjet swarm server 没有启动,你需要先启动它。通常的命令是 (tmux) `ajet swarm server --port 10086`,但请根据实际情况调整。
35+
2. 接下来开始调试训练代码,确保它能够正确地连接到 swarm server,并且能够正确地发送训练任务。方法一般是启动某个 agent_roll.py 脚本 (使用tmux),但请根据实际情况调整。
36+
37+
## 关于异常网络访问的问题
38+
39+
如果发现网络无法访问的现象,使用 proxychains 解决。例如 `python xxx.py` 可以改为 `proxychains python xxx.py`,前提是用户已经正确安装和配置了 proxychains,并且确保代理服务器可以访问外部网络。
40+
41+
42+
## YAML 配置内容提示:
43+
44+
`ajet.execute_test` 应该为 False,因为启用后如果训练奖励分数低于预定义阈值,训练将被中断。
45+
`ajet.trainer_common.test_freq` 意思是每间隔多少个step测试一次。
46+
`ajet.trainer_common.n_gpus_per_node` 为每个节点显卡的数量,一般为 `8`
47+
`ajet.trainer_common.val_print_to_markdown_file_path` 应该是存储评估结果的位置。虽然你可以参考 tmux 控制台日志获取数据,但你应该始终在此路径中找到评估结果。选择一个放置日志的路径,例如 `saved_val_result/qwen2-7b-task-math-exp-01.md`。val 属性列表:
48+
pass_n: 对于每个任务,重复运行多少次。
49+
total_tasks: 验证数据集中的任务数量。
50+
num_all_success_tasks: 达到100%成功率的 task数量。
51+
num_pass_n_tasks: 至少成功一次的 task数量。
52+
task_pass_rate@1: 平均成功率
53+
task_pass_rate@2: 在前2次试验中至少成功一次的 task数量(占所有task的比例)
54+
task_pass_rate@4: 在前4次试验中至少成功一次的 task数量(占所有task的比例)(可选)
55+
task_pass_rate@8: 在前8次试验中至少成功一次的 task数量(占所有task的比例)(可选)
56+
mean_reward: 所有数据点的平均验证奖励。
57+
std_reward: 所有数据点的奖励标准差。
58+
`ajet.trainer_common.val_before_train` 应该为 train,因为我们希望获得训练模型的初始性能。
59+
`ajet.trainer_common.total_epochs` 应该足够大,但每个实验你只有 `${MaxTime}` 小时来运行,
60+
61+
62+
63+
## 使用tmux运行实验
64+
65+
详细见“监控实验的技能”,注意,当你创建session时,session名字中必须包含关键字 `ajet` 并且体现 `exp_purpose`,例如 `ajet_math_top_k_ablation`
66+
67+
68+
## 不要轻易中止进行中的实验
69+
70+
你必须保证在 [exp_max_time] 时间段内,维持实验继续进行下去。除非:
71+
72+
- 除非实验的错误过于严重,无法修复
73+
74+
- 除非实验已经提前成功,程序主动地运行结束,取得了完整的数据
75+
76+
- 除非实验已经进入中后期,且 `val_print_to_markdown_file_path` 中的 mean_reward 或者 task_pass_rate 已经开始长时间不发生变化
77+
78+
79+
## 监控实验的技能
80+
81+
```
82+
---
83+
name: monitor-with-tmux
84+
description: 通过指数退避间隔(30秒、1分钟、2分钟、4分钟、8分钟、16分钟)读取tmux内容来监控训练进度,在出现异常时分析日志,并提供修复建议
85+
license: 完整条款见 LICENSE.txt
86+
---
87+
88+
# 使用 Tmux 监控
89+
90+
在 tmux 中监控,检测异常,分析错误,提供修复建议。
91+
92+
## 步骤零
93+
94+
创建用于 tmux 监控的睡眠脚本:
95+
96+
1. 创建 `./tmp/wait_tmux.py`
97+
98+
```python
99+
import argparse
100+
import subprocess
101+
import time
102+
103+
SHELLS = {"bash", "zsh", "sh", "fish", "csh", "tcsh", "ksh", "dash", "ash"}
104+
105+
def smart_sleep(session: str, seconds: float, check_every: float = 2.0) -> bool:
106+
"""
107+
替代 time.sleep(),但在命令结束时提前返回。
108+
109+
Returns:
110+
True - 正常超时(命令还在跑)
111+
False - 提前返回(命令结束了或session没了)
112+
"""
113+
end_time = time.time() + seconds
114+
while time.time() < end_time:
115+
try:
116+
r = subprocess.run(
117+
["tmux", "list-panes", "-F", "#{pane_current_command}", "-t", session],
118+
capture_output=True, text=True, timeout=5
119+
)
120+
if r.returncode != 0:
121+
return False # session没了
122+
cmds = [l.strip().lower() for l in r.stdout.splitlines() if l.strip()]
123+
if not any(c not in SHELLS for c in cmds):
124+
return False # 命令结束了,回到shell
125+
except Exception:
126+
return False
127+
128+
time.sleep(min(check_every, end_time - time.time()))
129+
130+
return True
131+
132+
133+
def main():
134+
parser = argparse.ArgumentParser(description="Wait for a tmux session with smart early-exit.")
135+
parser.add_argument("session", help="tmux session name")
136+
parser.add_argument("seconds", type=float, help="total seconds to wait")
137+
args = parser.parse_args()
138+
139+
timed_out = smart_sleep(args.session, args.seconds, 2)
140+
raise SystemExit(0 if timed_out else 1)
141+
142+
143+
if __name__ == "__main__":
144+
main()
145+
```
146+
147+
## 开始监控
148+
149+
当你需要监控一个 tmux 窗口时,运行:
150+
151+
```bash
152+
python ./tmp/tmux_wait.py my_ajet_session_name 30
153+
```
154+
155+
意思是:
156+
1. 监控名字为 my_ajet_session_name 的 tmux session
157+
2. 等待30秒
158+
159+
- 退出码 0:正常超时(命令仍在运行)
160+
- 退出码 1:命令提前结束或 session 消失
161+
162+
## 使用 SSH
163+
164+
使用 SSH 时,始终使用本地 tmux 窗口来建立 SSH 连接。
165+
166+
## 当你想在再次读取 tmux 窗口前延迟一段时间
167+
168+
必须要具备出错即时返回功能,即不能使用 `sleep xxx`,而是使用 `python ./tmux_wait.py my_ajet_session_name xxx`
169+
170+
不要使用:`sleep 60 && tmux capture-pane -t my_ajet_session_name -p | tail -80`
171+
172+
你应该使用:`python ./tmux_wait.py my_ajet_session_name 30 && tmux capture-pane -t my_ajet_session_name -p | tail -80`
173+
174+
- 60秒太长了
175+
- 始终使用 `python ./tmux_wait.py` 来等待
176+
177+
178+
179+
## 示例:
180+
181+
182+
### 不使用 SSH 的示例
183+
184+
0 个示例可用
185+
186+
187+
### 使用 SSH 的示例
188+
189+
1 个示例可用
190+
191+
```agent
192+
193+
--- example user instruction begin ---
194+
login
195+
ssh root@localhost -p 8824
196+
goto
197+
/mnt/data_cpfs/qingxu.fu/agentjet/good-luck-agentjet
198+
run with venv and monitor
199+
source .venv/bin/activate && python -m ajet.launcher --conf tests/bench/benchmark_math/benchmark_math.yaml --autokill
200+
--- example user instruction end ---
201+
202+
--- example agent reaction begin ---
203+
用户希望我监控一个 tmux session 同时运行训练任务。让我分解他们要求的内容:
204+
1. SSH 到远程机器(root@localhost -p 8824)
205+
2. 转到特定目录
206+
3. 激活虚拟环境并运行 Python 命令
207+
4. 监控 tmux session
208+
209+
# 编写 ./tmp/tmux_wait.py
210+
....
211+
212+
# 创建用于训练的 tmux session (注意,无论如何,session名字中必须包含关键字 `ajet` )
213+
$ tmux new-session -d -s ajet_session -c "/mnt/data_cpfs/qingxu.fu/agentjet/good-luck-agentjet"
214+
...
215+
216+
# 发送 SSH 命令到 tmux session
217+
$ tmux send-keys -t ajet_session "ssh root@localhost -p 8824" Enter
218+
...
219+
220+
# 等待并检查 SSH 连接
221+
$ python3 /tmp/tmux_wait.py ajet_session 10 && tmux capture-pane -t ajet_session -p | tail -20
222+
SSH 连接成功。现在我需要导航到目录并运行训练命令。让我发送命令到 tmux session。
223+
...
224+
225+
# 导航到工作目录
226+
$ tmux send-keys -t ajet_session "cd /mnt/data_cpfs/qingxu.fu/agentjet/good-luck-agentjet" Enter
227+
...
228+
229+
# 使用 venv 和 launcher 启动训练
230+
$ tmux send-keys -t ajet_session "source .venv/bin/activate && python -m ajet.launcher --conf tests/bench/benchmark_math/benchmark_math.yaml --autokill" Enter
231+
...
232+
233+
# 捕获初始训练输出
234+
$ tmux capture-pane -t ajet_session -p | tail -40
235+
...
236+
237+
# 等待30秒并检查训练进度
238+
$ python3 /tmp/tmux_wait.py ajet_session 30 && tmux capture-pane -t ajet_session -p | tail -50
239+
...
240+
训练正在运行。命令正在正确执行。让我继续以1分钟间隔监控。
241+
242+
# 等待1分钟并检查训练进度
243+
$ python3 /tmp/tmux_wait.py ajet_session 60 && tmux capture-pane -t ajet_session -p | tail -50
244+
...
245+
246+
# 等待2分钟并检查训练进度
247+
$ python3 /tmp/tmux_wait.py ajet_session 120 && tmux capture-pane -t ajet_session -p | tail -60
248+
...
249+
训练进展良好。检查点已加载,vLLM 服务器已启动,swanlab 正在跟踪运行。目前没有错误,只有警告。让我继续监控。
250+
251+
# 等待4分钟并检查训练进度
252+
$ python3 /tmp/tmux_wait.py ajet_session 240 && tmux capture-pane -t ajet_session -p | tail -60
253+
...
254+
255+
... 多轮监控 ...
256+
257+
--- example agent reaction end ---
258+
259+
# 销毁 tmux session
260+
tmux kill-session -t ajet_session
261+
262+
```
263+
```

0 commit comments

Comments
 (0)