pre commit fixes

binary-husky · binary-husky · commit 5b79394d9a42 · 2026-03-26T14:38:33.000+08:00
diff --git a/README.md b/README.md
@@ -18,7 +18,7 @@
 
 ## ✈️ News
 
-- 2026.3.26 Upgrade verl backend to 0.7.1 to support more models and increase training speed!
+- 2026.3.26 Upgrade verl backend to 0.7.1 to support more models and increase training speed! All [benchmark](https://benchmark.agentjet.top/) verified.
 - 2026.3.19 Support for latest Qwen3.5 models is [in progress](https://github.com/modelscope/AgentJet/pull/16).
 - 2026.3.12 Tuning Original OpenClaw Agent without Editing Any Agent Code. [EN Blog](https://modelscope.github.io/AgentJet/en/example_openclaw/) / [ZH Blog](https://modelscope.github.io/AgentJet/en/example_openclaw.zh/).
 - 2026.3.09 Non-shared-parameter Multiagent Training. [EN Blog](https://modelscope.github.io/AgentJet/en/example_train_multi_model/) / [ZH Blog](http://modelscope.github.io/AgentJet/en/example_train_multi_model.zh/).
diff --git a/ajet/backbone/main_verl.py b/ajet/backbone/main_verl.py
@@ -22,7 +22,6 @@
 import hydra
 import ray
 from omegaconf import DictConfig, OmegaConf
-from verl.trainer.ppo.reward import load_reward_manager
 from verl.utils.device import is_cuda_available
 from verl.utils.dataset.rl_dataset import collate_fn
 from torch.utils.data import Dataset as TorchDataset
@@ -156,7 +155,6 @@ def run(self, config):
             from verl.workers.megatron_workers import (
                 ActorRolloutRefWorker,
                 AjetAsyncActorRolloutRefWorker,
-                CriticWorker,
             )
 
             actor_rollout_cls = AjetAsyncActorRolloutRefWorker
diff --git a/ajet/backbone/trainer_verl.py b/ajet/backbone/trainer_verl.py
@@ -23,13 +23,10 @@
 import torch
 from beast_logger import print_dict
 from loguru import logger
-from omegaconf import OmegaConf
 from tqdm import tqdm
 from verl import DataProto
 from verl.experimental.dataset.sampler import AbstractCurriculumSampler
-from verl.experimental.agent_loop.agent_loop import AsyncLLMServerManager, AgentLoopWorker
-from verl.single_controller.ray import RayClassWithInitArgs
-from verl.single_controller.ray.base import create_colocated_worker_cls
+from verl.experimental.agent_loop.agent_loop import AsyncLLMServerManager
 from verl.trainer.config import AlgoConfig
 from verl.trainer.ppo import core_algos
 from verl.trainer.ppo.core_algos import AdvantageEstimator, agg_loss
@@ -40,7 +37,6 @@
 )
 from verl.trainer.ppo.ray_trainer import (
     RayPPOTrainer,
-    Role,
     apply_kl_penalty,
     compute_response_mask,
 )
diff --git a/ajet/backbone/verl/actor_config.py b/ajet/backbone/verl/actor_config.py
@@ -1,5 +1,5 @@
 from verl.workers.config import FSDPActorConfig
-from dataclasses import dataclass, field
+from dataclasses import dataclass
 
 
 @dataclass
diff --git a/ajet/backbone/verl/dp_actor.py b/ajet/backbone/verl/dp_actor.py
@@ -22,14 +22,10 @@
 import os
 
 import torch
-from torch.distributed.fsdp import FullyShardedDataParallel as FSDP
-from torch.distributed.tensor import DTensor
 
-import verl.utils.torch_functional as verl_F
 from verl import DataProto
 from verl.trainer.ppo.core_algos import agg_loss, get_policy_loss_fn, kl_penalty
 from verl.utils.device import get_device_id
-from verl.utils.fsdp_utils import FSDPModule, fsdp2_clip_grad_norm_
 from verl.utils.profiler import GPUMemoryLogger
 from verl.utils.py_functional import append_to_dict
 # ajet/backbone/verl/seqlen_balancing.py
diff --git a/ajet/backbone/verl/fsdp_workers.py b/ajet/backbone/verl/fsdp_workers.py
@@ -17,80 +17,39 @@
 """
 
 import datetime
-import json
 import logging
 import os
-import warnings
-from dataclasses import asdict
-
-import psutil
-import torch
-import torch.distributed
-import torch.distributed as dist
-from codetiming import Timer
+
 from omegaconf import DictConfig, OmegaConf, open_dict
-from omegaconf.errors import ConfigAttributeError
-from peft import LoraConfig, TaskType, get_peft_model
-from safetensors.torch import save_file
 from torch.distributed.device_mesh import init_device_mesh
-from torch.distributed.fsdp import FullyShardedDataParallel as FSDP
-from torch.distributed.fsdp.api import FullStateDictConfig, ShardedStateDictConfig, StateDictType
 
 try:
     # for torch 2.5+
-    from torch.distributed.tensor import DTensor
+    pass
 except ImportError:
-    from torch.distributed._tensor import DTensor
+    pass
 
-from verl import DataProto
-from verl.models.transformers.monkey_patch import apply_monkey_patch
 from verl.single_controller.base import Worker
-from verl.single_controller.base.decorator import Dispatch, make_nd_compute_dataproto_dispatch_fn, register
-from verl.utils import hf_processor, hf_tokenizer
-from verl.utils.activation_offload import enable_activation_offloading
+from verl.single_controller.base.decorator import Dispatch, register
 from verl.utils.checkpoint.fsdp_checkpoint_manager import FSDPCheckpointManager
 from verl.utils.config import omega_conf_to_dataclass
 from verl.utils.device import (
-    get_device_id,
     get_device_name,
     get_nccl_backend,
-    get_torch_device,
-    set_expandable_segments,
 )
 from verl.utils.flops_counter import FlopsCounter
 from verl.utils.fs import copy_to_local
 from verl.utils.fsdp_utils import (
-    CPUOffloadPolicy,
-    MixedPrecisionPolicy,
-    apply_fsdp2,
-    collect_lora_params,
-    fsdp2_load_full_state_dict,
     fsdp_version,
-    get_fsdp_wrap_policy,
-    get_init_weight_context_manager,
-    get_shard_placement_fn,
-    init_fn,
-    layered_summon_lora_params,
-    load_fsdp_model_to_gpu,
-    load_fsdp_optimizer,
     offload_fsdp_model_to_cpu,
     offload_fsdp_optimizer,
-    replace_lora_wrapper,
 )
 from verl.utils.import_utils import import_external_libs
 from verl.utils.memory_utils import aggressive_empty_cache
-from verl.utils.model import convert_weight_keys
-from verl.utils.profiler import DistProfiler, DistProfilerExtension, ProfilerConfig, log_gpu_memory_usage, simple_timer
-from verl.utils.profiler.performance import reduce_timing, topk_reduce_ratio_min_max
-from verl.utils.py_functional import convert_to_regular_types
+from verl.utils.profiler import DistProfiler, DistProfilerExtension, ProfilerConfig, log_gpu_memory_usage
 
 # QAT support
-from verl.utils.qat import apply_qat, enable_qat_fuse
-from verl.utils.ray_utils import get_event_loop
-from verl.utils.transformers_compat import get_auto_model_for_vision2seq
-from verl.workers.config import FSDPCriticConfig, FSDPEngineConfig, HFModelConfig, RolloutConfig
-from verl.workers.config.optimizer import build_optimizer
-from verl.workers.rollout import get_rollout_class
+from verl.workers.config import FSDPEngineConfig
 from verl.workers.sharding_manager.fsdp_ulysses import FSDPUlyssesShardingManager
 from verl.workers.fsdp_workers import ActorRolloutRefWorker
 
diff --git a/ajet/default_config/verl/config_schema_rollout.py b/ajet/default_config/verl/config_schema_rollout.py
@@ -1,5 +1,4 @@
-from verl.workers.config.rollout import MultiTurnConfig
-from dataclasses import dataclass, field
+from dataclasses import dataclass
 from typing import Optional
 from verl.base_config import BaseConfig
 
@@ -23,5 +22,3 @@ class AjetMultiTurnConfig(BaseConfig):
     tokenization_sanity_check_mode: str = "strict"
     format: str = "hermes"
     num_repeat_rollouts: Optional[int] = None
-
-
diff --git a/ajet/task_rollout/async_llm_bridge.py b/ajet/task_rollout/async_llm_bridge.py
@@ -12,7 +12,6 @@
     from vllm.entrypoints.openai.tool_parsers.hermes_tool_parser import Hermes2ProToolParser
 except:
     from vllm.tool_parsers.hermes_tool_parser import Hermes2ProToolParser   # vllm 0.17.x moved this class elsewhere
-from vllm.outputs import RequestOutput as VerlVllmRequestOutput
 from verl.workers.rollout.replica import TokenOutput
 from agentscope.model import ChatResponse as AgentScopeChatResponse
 from openai.types.chat.chat_completion import ChatCompletion as OpenAIChatCompletion
diff --git a/ajet/task_runner/base_runner.py b/ajet/task_runner/base_runner.py
@@ -1,5 +1,4 @@
 import asyncio
-import gc
 from threading import Lock
 from typing import Any, Callable, Union, Type
 from multiprocessing import Process, Queue
diff --git a/docs/en/example_vibe_rl_who_is_spy.zh.md b/docs/en/example_vibe_rl_who_is_spy.zh.md
@@ -136,4 +136,4 @@ task.task_id 有严重的问题，task_id应该是每个episode的随机数种
 
 去SwanLab看看，不错，奖励平稳上升。
 
-![alt text](https://img.alicdn.com/imgextra/i2/O1CN01qFvfeU20XTkCW2H89_!!6000000006859-2-tps-1994-522.png)
+![alt text](https://img.alicdn.com/imgextra/i2/O1CN01qFvfeU20XTkCW2H89_!!6000000006859-2-tps-1994-522.png)
diff --git a/scripts/expand_config_targets.py b/scripts/expand_config_targets.py
@@ -18,7 +18,6 @@
 
 class TargetRemovalError(Exception):
     """Custom exception for target removal validation errors."""
-    pass
 
 
 def get_class_from_target(target_path: str):
diff --git a/tutorial/opencode_build_spy_game/agent_roll.py b/tutorial/opencode_build_spy_game/agent_roll.py
@@ -5,12 +5,9 @@
 
 import os
 import json
-import uuid
 from pathlib import Path
 from ajet.copilot.job import AgentJetJob
 from ajet.tuner_lib.experimental.swarm_client import SwarmClient, run_episodes_until_all_complete
-from ajet.default_config.ajet_default import AjetTaskReader
-from ajet.task_reader import RouterTaskReader
 from ajet.schema.task import Task
 from tutorial.opencode_build_spy_game.agent_run import run_agent_and_compute_reward
 
diff --git a/tutorial/opencode_build_spy_game/agent_roll_adv.py b/tutorial/opencode_build_spy_game/agent_roll_adv.py
@@ -7,7 +7,6 @@
 
 import os
 import json
-import uuid
 from pathlib import Path
 from ajet.copilot.job import AgentJetJob
 from ajet.tuner_lib.experimental.swarm_client import SwarmClient, run_episodes_until_all_complete
@@ -36,12 +35,12 @@
 
 class SpyGameDatasetReader:
     """Custom dataset reader for spy game configurations."""
-    
+
     def __init__(self, dataset_path: str):
         self.dataset_path = dataset_path
         with open(dataset_path, 'r', encoding='utf-8') as f:
             self.data = json.load(f)
-    
+
     def generate_training_tasks(self):
         """Generate training tasks from dataset."""
         for idx, item in enumerate(self.data):
@@ -59,15 +58,15 @@ def generate_training_tasks(self):
 
 def main():
     """Main adversarial training loop."""
-    
+
     # Load dataset
     print(f"Loading dataset from: {LOCAL_DATASET_PATH}")
     dataset_reader = SpyGameDatasetReader(LOCAL_DATASET_PATH)
-    
+
     # Connect to swarm server 1 (civilian team)
     print(f"Connecting to swarm server 1 (civilians): {REMOTE_SWARM_URL_1}")
     swarm_worker_1 = SwarmClient(REMOTE_SWARM_URL_1)
-    
+
     ajet_job_1 = AgentJetJob(
         algorithm="grpo",
         project_name="spy-game-rl-adv",
@@ -77,14 +76,14 @@ def main():
         batch_size=REMOTE_BATCH_SIZE_1,
         num_repeat=LOCAL_GRPO_N,
     )
-    
+
     print("Starting swarm engine 1 (civilians)...")
     swarm_worker_1.auto_sync_train_config_and_start_engine(ajet_job_1)
-    
+
     # Connect to swarm server 2 (spy team)
     print(f"Connecting to swarm server 2 (spies): {REMOTE_SWARM_URL_2}")
     swarm_worker_2 = SwarmClient(REMOTE_SWARM_URL_2)
-    
+
     ajet_job_2 = AgentJetJob(
         algorithm="grpo",
         project_name="spy-game-rl-adv",
@@ -94,17 +93,17 @@ def main():
         batch_size=REMOTE_BATCH_SIZE_2,
         num_repeat=LOCAL_GRPO_N,
     )
-    
+
     print("Starting swarm engine 2 (spies)...")
     swarm_worker_2.auto_sync_train_config_and_start_engine(ajet_job_2)
-    
+
     def rollout(task: Task):
         """Execute one adversarial episode rollout."""
         try:
             # Begin episode for both teams
             episode_uuid_1, api_baseurl_key_1 = swarm_worker_1.begin_episode(discard_episode_timeout=300)
             episode_uuid_2, api_baseurl_key_2 = swarm_worker_2.begin_episode(discard_episode_timeout=300)
-            
+
             # Execute adversarial agent workflow
             workflow_output_civilians, workflow_output_spies = run_agent_and_compute_reward(
                 task=task,
@@ -113,70 +112,70 @@ def rollout(task: Task):
                 base_url_spies=api_baseurl_key_2.base_url,
                 api_key_spies=api_baseurl_key_2.api_key
             )
-            
+
             # Report results back to both swarm servers
             swarm_worker_1.end_episode(task, episode_uuid_1, workflow_output_civilians)
             swarm_worker_2.end_episode(task, episode_uuid_2, workflow_output_spies)
-            
+
             # Print status
             winner = workflow_output_civilians.metadata.get('winner', '?')
             print(f"Episode {task.metadata.get('episode_id', '?')}: "
                   f"Winner={winner}, "
                   f"Civilian_Reward={workflow_output_civilians.reward:.2f}, "
                   f"Spy_Reward={workflow_output_spies.reward:.2f}")
-            
+
             # Print rollout statistics
             print("Civilian team stats:")
             swarm_worker_1.print_rollout_stat()
             print("Spy team stats:")
             swarm_worker_2.print_rollout_stat()
-            
+
             # Return average reward for logging
             return (workflow_output_civilians.reward + workflow_output_spies.reward) / 2.0
-            
+
         except Exception as e:
             print(f"Error in adversarial rollout: {e}")
             return None
-    
+
     # Training loop
     print(f"\nStarting adversarial training for {LOCAL_NUM_EPOCH} epochs...")
-    
+
     for epoch in range(LOCAL_NUM_EPOCH):
         print(f"\n{'='*60}")
         print(f"EPOCH {epoch + 1}/{LOCAL_NUM_EPOCH}")
         print(f"{'='*60}")
-        
+
         next_batch = []
         for task in dataset_reader.generate_training_tasks():
             # For each task, add it LOCAL_GRPO_N times to the batch
             # These are multiple rollouts of the SAME task for GRPO
             for _ in range(LOCAL_GRPO_N):
                 next_batch.append(task)
-            
+
             # When we have enough tasks in batch, execute them
             if len(next_batch) >= (REMOTE_BATCH_SIZE_1 * LOCAL_GRPO_N):
                 # Execute batch with retry logic
                 episode_results = run_episodes_until_all_complete(
-                    next_batch, 
-                    func=rollout, 
+                    next_batch,
+                    func=rollout,
                     auto_retry=True
                 )
-                
+
                 # Print batch statistics
                 valid_results = [r for r in episode_results if r is not None]
                 if valid_results:
                     avg_reward = sum(valid_results) / len(valid_results)
                     num_tasks = len(next_batch) // LOCAL_GRPO_N
                     print(f"\nBatch completed: {len(valid_results)}/{len(next_batch)} episodes "
                           f"({num_tasks} tasks x {LOCAL_GRPO_N} episodes), Avg combined reward: {avg_reward:.3f}")
-                
+
                 next_batch.clear()
-        
+
         # Process any remaining tasks in the batch at end of epoch
         if len(next_batch) > 0:
             episode_results = run_episodes_until_all_complete(
-                next_batch, 
-                func=rollout, 
+                next_batch,
+                func=rollout,
                 auto_retry=True
             )
             valid_results = [r for r in episode_results if r is not None]
@@ -185,11 +184,11 @@ def rollout(task: Task):
                 num_tasks = len(next_batch) // LOCAL_GRPO_N
                 print(f"\nFinal batch completed: {len(valid_results)}/{len(next_batch)} episodes "
                       f"({num_tasks} tasks x {LOCAL_GRPO_N} episodes), Avg combined reward: {avg_reward:.3f}")
-    
+
     print("\n" + "="*60)
     print("Adversarial training completed!")
     print("="*60)
-    
+
     # Optionally stop the engines (commented out to keep them running)
     # swarm_worker_1.stop_engine()
     # swarm_worker_2.stop_engine()
diff --git a/tutorial/opencode_build_spy_game/agent_run.py b/tutorial/opencode_build_spy_game/agent_run.py
diff --git a/tutorial/opencode_build_spy_game/agent_run_adv.py b/tutorial/opencode_build_spy_game/agent_run_adv.py
diff --git a/tutorial/opencode_build_spy_game/mock_dataset.py b/tutorial/opencode_build_spy_game/mock_dataset.py
diff --git a/tutorial/opencode_build_spy_game/readme.md b/tutorial/opencode_build_spy_game/readme.md
diff --git a/tutorial/opencode_build_spy_game/spy_game_config.yaml b/tutorial/opencode_build_spy_game/spy_game_config.yaml
diff --git a/tutorial/opencode_build_spy_game/test_single_game.py b/tutorial/opencode_build_spy_game/test_single_game.py

Original file line number	Diff line number	Diff line change
`@@ -1,5 +1,4 @@`
`1`	`1`	`import asyncio`
`2`		`-import gc`
`3`	`2`	`from threading import Lock`
`4`	`3`	`from typing import Any, Callable, Union, Type`
`5`	`4`	`from multiprocessing import Process, Queue`
Original file line number	Diff line number	Diff line change
`@@ -136,4 +136,4 @@ task.task_id 有严重的问题，task_id应该是每个episode的随机数种`
`136`	`136`
`137`	`137`	`去SwanLab看看，不错，奖励平稳上升。`
`138`	`138`
`139`		`-![alt text](https://img.alicdn.com/imgextra/i2/O1CN01qFvfeU20XTkCW2H89_!!6000000006859-2-tps-1994-522.png)`
	`139`	`+![alt text](https://img.alicdn.com/imgextra/i2/O1CN01qFvfeU20XTkCW2H89_!!6000000006859-2-tps-1994-522.png)`