|
| 1 | +## 你的任务 |
| 2 | + |
| 3 | +1. 根据实验蓝图,运行实验 |
| 4 | +2. 等待实验结束或者超时 |
| 5 | +3. 如果实验失败,尝试进行修正,把试错过程放置到指定位置(exp_result_dir中创建一个文档),如果无法修复,则跳到第 5 步 |
| 6 | +4. 将尽可能全面的实验结果放置到指定位置(exp_result_dir中创建一个文档) |
| 7 | +5. 在 exp_result_dir 中创建一个 `finish.flag` 文件,标志任务结束 |
| 8 | +6. 结束 |
| 9 | + |
| 10 | +## 实验蓝图: |
| 11 | + |
| 12 | +设计实验蓝图是为了执行实验以验证猜想或者获取必要数据。 |
| 13 | +一个实验蓝图是一个markdown文件(blueprint.md)。实验蓝图包含的内容主要包括 8 部分,你需要根据这些信息,执行任务: |
| 14 | + |
| 15 | +1. [exp_purpose] 实验目的(一段文本): |
| 16 | + 简要说明本次实验的主要目的,以及本实验蓝图与之前其他蓝图的主要区别(例如哪个超参数不同,哪个环境变量不同)。 |
| 17 | +2. [exp_codebase_dir] 主实验代码路径(绝对路径): |
| 18 | + 包含运行实验所需要的所有代码的**绝对路径**。体积较小。不包含python虚拟环境。记得在实验开始前,cd到这个路径。 |
| 19 | +3. [exp_venv_exe] python虚拟环境路径(python的绝对路径): |
| 20 | + python可执行文件的路径。比如: /mnt/data_cpfs/agentjet/project/.venv/bin/python |
| 21 | +4. [exp_yaml_path] 实验配置文件路径(相对路径,相对于主实验代码路径): |
| 22 | + 实验配置的yaml文件的路径。注意该文件必须包含在主实验代码路径内。比如: /mnt/data_cpfs/agentjet/project/tests/bench/benchmark_math/benchmark_math.yaml |
| 23 | +5. [exp_launch_command] 执行训练的命令(字符串): |
| 24 | + 例如 python -m ajet.launcher --conf tests/bench/benchmark_math/benchmark_math.yaml --autokill |
| 25 | +6. [exp_result_dir] 结果数据存储路径(绝对路径): |
| 26 | + 输出数据的存储路径 |
| 27 | +7. [exp_max_time] 运行时间不超过 ${MaxTime},每个实验强制在 ${MaxTime} 后终止 |
| 28 | +8. 其他实验相关信息(可选): |
| 29 | + 其他对实验有帮助的信息,例如之前相似实验的结果,或者需要特别注意的事项等。 |
| 30 | + |
| 31 | + |
| 32 | +## 关于 AgentJet 的 Swarm 模式 |
| 33 | + |
| 34 | +1. 如果 agentjet swarm server 没有启动,你需要先启动它。通常的命令是 (tmux) `ajet swarm server --port 10086`,但请根据实际情况调整。 |
| 35 | +2. 接下来开始调试训练代码,确保它能够正确地连接到 swarm server,并且能够正确地发送训练任务。方法一般是启动某个 agent_roll.py 脚本 (使用tmux),但请根据实际情况调整。 |
| 36 | + |
| 37 | +## 关于异常网络访问的问题 |
| 38 | + |
| 39 | +如果发现网络无法访问的现象,使用 proxychains 解决。例如 `python xxx.py` 可以改为 `proxychains python xxx.py`,前提是用户已经正确安装和配置了 proxychains,并且确保代理服务器可以访问外部网络。 |
| 40 | + |
| 41 | + |
| 42 | +## YAML 配置内容提示: |
| 43 | + |
| 44 | +`ajet.execute_test` 应该为 False,因为启用后如果训练奖励分数低于预定义阈值,训练将被中断。 |
| 45 | +`ajet.trainer_common.test_freq` 意思是每间隔多少个step测试一次。 |
| 46 | +`ajet.trainer_common.n_gpus_per_node` 为每个节点显卡的数量,一般为 `8`。 |
| 47 | +`ajet.trainer_common.val_print_to_markdown_file_path` 应该是存储评估结果的位置。虽然你可以参考 tmux 控制台日志获取数据,但你应该始终在此路径中找到评估结果。选择一个放置日志的路径,例如 `saved_val_result/qwen2-7b-task-math-exp-01.md`。val 属性列表: |
| 48 | + pass_n: 对于每个任务,重复运行多少次。 |
| 49 | + total_tasks: 验证数据集中的任务数量。 |
| 50 | + num_all_success_tasks: 达到100%成功率的 task数量。 |
| 51 | + num_pass_n_tasks: 至少成功一次的 task数量。 |
| 52 | + task_pass_rate@1: 平均成功率 |
| 53 | + task_pass_rate@2: 在前2次试验中至少成功一次的 task数量(占所有task的比例) |
| 54 | + task_pass_rate@4: 在前4次试验中至少成功一次的 task数量(占所有task的比例)(可选) |
| 55 | + task_pass_rate@8: 在前8次试验中至少成功一次的 task数量(占所有task的比例)(可选) |
| 56 | + mean_reward: 所有数据点的平均验证奖励。 |
| 57 | + std_reward: 所有数据点的奖励标准差。 |
| 58 | +`ajet.trainer_common.val_before_train` 应该为 train,因为我们希望获得训练模型的初始性能。 |
| 59 | +`ajet.trainer_common.total_epochs` 应该足够大,但每个实验你只有 `${MaxTime}` 小时来运行, |
| 60 | + |
| 61 | + |
| 62 | + |
| 63 | +## 使用tmux运行实验 |
| 64 | + |
| 65 | +详细见“监控实验的技能”,注意,当你创建session时,session名字中必须包含关键字 `ajet` 并且体现 `exp_purpose`,例如 `ajet_math_top_k_ablation`。 |
| 66 | + |
| 67 | + |
| 68 | +## 不要轻易中止进行中的实验 |
| 69 | + |
| 70 | +你必须保证在 [exp_max_time] 时间段内,维持实验继续进行下去。除非: |
| 71 | + |
| 72 | +- 除非实验的错误过于严重,无法修复 |
| 73 | + |
| 74 | +- 除非实验已经提前成功,程序主动地运行结束,取得了完整的数据 |
| 75 | + |
| 76 | +- 除非实验已经进入中后期,且 `val_print_to_markdown_file_path` 中的 mean_reward 或者 task_pass_rate 已经开始长时间不发生变化 |
| 77 | + |
| 78 | + |
| 79 | +## 监控实验的技能 |
| 80 | + |
| 81 | +``` |
| 82 | + --- |
| 83 | + name: monitor-with-tmux |
| 84 | + description: 通过指数退避间隔(30秒、1分钟、2分钟、4分钟、8分钟、16分钟)读取tmux内容来监控训练进度,在出现异常时分析日志,并提供修复建议 |
| 85 | + license: 完整条款见 LICENSE.txt |
| 86 | + --- |
| 87 | +
|
| 88 | + # 使用 Tmux 监控 |
| 89 | +
|
| 90 | + 在 tmux 中监控,检测异常,分析错误,提供修复建议。 |
| 91 | +
|
| 92 | + ## 步骤零 |
| 93 | +
|
| 94 | + 创建用于 tmux 监控的睡眠脚本: |
| 95 | +
|
| 96 | + 1. 创建 `./tmp/wait_tmux.py` |
| 97 | +
|
| 98 | + ```python |
| 99 | + import argparse |
| 100 | + import subprocess |
| 101 | + import time |
| 102 | +
|
| 103 | + SHELLS = {"bash", "zsh", "sh", "fish", "csh", "tcsh", "ksh", "dash", "ash"} |
| 104 | +
|
| 105 | + def smart_sleep(session: str, seconds: float, check_every: float = 2.0) -> bool: |
| 106 | + """ |
| 107 | + 替代 time.sleep(),但在命令结束时提前返回。 |
| 108 | +
|
| 109 | + Returns: |
| 110 | + True - 正常超时(命令还在跑) |
| 111 | + False - 提前返回(命令结束了或session没了) |
| 112 | + """ |
| 113 | + end_time = time.time() + seconds |
| 114 | + while time.time() < end_time: |
| 115 | + try: |
| 116 | + r = subprocess.run( |
| 117 | + ["tmux", "list-panes", "-F", "#{pane_current_command}", "-t", session], |
| 118 | + capture_output=True, text=True, timeout=5 |
| 119 | + ) |
| 120 | + if r.returncode != 0: |
| 121 | + return False # session没了 |
| 122 | + cmds = [l.strip().lower() for l in r.stdout.splitlines() if l.strip()] |
| 123 | + if not any(c not in SHELLS for c in cmds): |
| 124 | + return False # 命令结束了,回到shell |
| 125 | + except Exception: |
| 126 | + return False |
| 127 | +
|
| 128 | + time.sleep(min(check_every, end_time - time.time())) |
| 129 | +
|
| 130 | + return True |
| 131 | +
|
| 132 | +
|
| 133 | + def main(): |
| 134 | + parser = argparse.ArgumentParser(description="Wait for a tmux session with smart early-exit.") |
| 135 | + parser.add_argument("session", help="tmux session name") |
| 136 | + parser.add_argument("seconds", type=float, help="total seconds to wait") |
| 137 | + args = parser.parse_args() |
| 138 | +
|
| 139 | + timed_out = smart_sleep(args.session, args.seconds, 2) |
| 140 | + raise SystemExit(0 if timed_out else 1) |
| 141 | +
|
| 142 | +
|
| 143 | + if __name__ == "__main__": |
| 144 | + main() |
| 145 | + ``` |
| 146 | +
|
| 147 | + ## 开始监控 |
| 148 | +
|
| 149 | + 当你需要监控一个 tmux 窗口时,运行: |
| 150 | +
|
| 151 | + ```bash |
| 152 | + python ./tmp/tmux_wait.py my_ajet_session_name 30 |
| 153 | + ``` |
| 154 | +
|
| 155 | + 意思是: |
| 156 | + 1. 监控名字为 my_ajet_session_name 的 tmux session |
| 157 | + 2. 等待30秒 |
| 158 | +
|
| 159 | + - 退出码 0:正常超时(命令仍在运行) |
| 160 | + - 退出码 1:命令提前结束或 session 消失 |
| 161 | +
|
| 162 | + ## 使用 SSH |
| 163 | +
|
| 164 | + 使用 SSH 时,始终使用本地 tmux 窗口来建立 SSH 连接。 |
| 165 | +
|
| 166 | + ## 当你想在再次读取 tmux 窗口前延迟一段时间 |
| 167 | +
|
| 168 | + 必须要具备出错即时返回功能,即不能使用 `sleep xxx`,而是使用 `python ./tmux_wait.py my_ajet_session_name xxx` |
| 169 | +
|
| 170 | + 不要使用:`sleep 60 && tmux capture-pane -t my_ajet_session_name -p | tail -80` |
| 171 | +
|
| 172 | + 你应该使用:`python ./tmux_wait.py my_ajet_session_name 30 && tmux capture-pane -t my_ajet_session_name -p | tail -80` |
| 173 | +
|
| 174 | + - 60秒太长了 |
| 175 | + - 始终使用 `python ./tmux_wait.py` 来等待 |
| 176 | +
|
| 177 | +
|
| 178 | +
|
| 179 | + ## 示例: |
| 180 | +
|
| 181 | +
|
| 182 | + ### 不使用 SSH 的示例 |
| 183 | +
|
| 184 | + 0 个示例可用 |
| 185 | +
|
| 186 | +
|
| 187 | + ### 使用 SSH 的示例 |
| 188 | +
|
| 189 | + 1 个示例可用 |
| 190 | +
|
| 191 | + ```agent |
| 192 | +
|
| 193 | + --- example user instruction begin --- |
| 194 | + login |
| 195 | + ssh root@localhost -p 8824 |
| 196 | + goto |
| 197 | + /mnt/data_cpfs/qingxu.fu/agentjet/good-luck-agentjet |
| 198 | + run with venv and monitor |
| 199 | + source .venv/bin/activate && python -m ajet.launcher --conf tests/bench/benchmark_math/benchmark_math.yaml --autokill |
| 200 | + --- example user instruction end --- |
| 201 | +
|
| 202 | + --- example agent reaction begin --- |
| 203 | + 用户希望我监控一个 tmux session 同时运行训练任务。让我分解他们要求的内容: |
| 204 | + 1. SSH 到远程机器(root@localhost -p 8824) |
| 205 | + 2. 转到特定目录 |
| 206 | + 3. 激活虚拟环境并运行 Python 命令 |
| 207 | + 4. 监控 tmux session |
| 208 | +
|
| 209 | + # 编写 ./tmp/tmux_wait.py |
| 210 | + .... |
| 211 | +
|
| 212 | + # 创建用于训练的 tmux session (注意,无论如何,session名字中必须包含关键字 `ajet` ) |
| 213 | + $ tmux new-session -d -s ajet_session -c "/mnt/data_cpfs/qingxu.fu/agentjet/good-luck-agentjet" |
| 214 | + ... |
| 215 | +
|
| 216 | + # 发送 SSH 命令到 tmux session |
| 217 | + $ tmux send-keys -t ajet_session "ssh root@localhost -p 8824" Enter |
| 218 | + ... |
| 219 | +
|
| 220 | + # 等待并检查 SSH 连接 |
| 221 | + $ python3 /tmp/tmux_wait.py ajet_session 10 && tmux capture-pane -t ajet_session -p | tail -20 |
| 222 | + SSH 连接成功。现在我需要导航到目录并运行训练命令。让我发送命令到 tmux session。 |
| 223 | + ... |
| 224 | +
|
| 225 | + # 导航到工作目录 |
| 226 | + $ tmux send-keys -t ajet_session "cd /mnt/data_cpfs/qingxu.fu/agentjet/good-luck-agentjet" Enter |
| 227 | + ... |
| 228 | +
|
| 229 | + # 使用 venv 和 launcher 启动训练 |
| 230 | + $ tmux send-keys -t ajet_session "source .venv/bin/activate && python -m ajet.launcher --conf tests/bench/benchmark_math/benchmark_math.yaml --autokill" Enter |
| 231 | + ... |
| 232 | +
|
| 233 | + # 捕获初始训练输出 |
| 234 | + $ tmux capture-pane -t ajet_session -p | tail -40 |
| 235 | + ... |
| 236 | +
|
| 237 | + # 等待30秒并检查训练进度 |
| 238 | + $ python3 /tmp/tmux_wait.py ajet_session 30 && tmux capture-pane -t ajet_session -p | tail -50 |
| 239 | + ... |
| 240 | + 训练正在运行。命令正在正确执行。让我继续以1分钟间隔监控。 |
| 241 | +
|
| 242 | + # 等待1分钟并检查训练进度 |
| 243 | + $ python3 /tmp/tmux_wait.py ajet_session 60 && tmux capture-pane -t ajet_session -p | tail -50 |
| 244 | + ... |
| 245 | +
|
| 246 | + # 等待2分钟并检查训练进度 |
| 247 | + $ python3 /tmp/tmux_wait.py ajet_session 120 && tmux capture-pane -t ajet_session -p | tail -60 |
| 248 | + ... |
| 249 | + 训练进展良好。检查点已加载,vLLM 服务器已启动,swanlab 正在跟踪运行。目前没有错误,只有警告。让我继续监控。 |
| 250 | +
|
| 251 | + # 等待4分钟并检查训练进度 |
| 252 | + $ python3 /tmp/tmux_wait.py ajet_session 240 && tmux capture-pane -t ajet_session -p | tail -60 |
| 253 | + ... |
| 254 | +
|
| 255 | + ... 多轮监控 ... |
| 256 | +
|
| 257 | + --- example agent reaction end --- |
| 258 | +
|
| 259 | + # 销毁 tmux session |
| 260 | + tmux kill-session -t ajet_session |
| 261 | +
|
| 262 | + ``` |
| 263 | +``` |
0 commit comments