fix: preserve Qwen3.5 broadcast weight names (#2690)

samsja · web-flow · commit 563b37a9c720 · 2026-06-03T07:50:18.000-07:00
* exp: add qwen35 kl debug configs

* exp: lower qwen35 wordle kl drift

* fix: preserve qwen3.5 broadcast weight names

* chore: keep qwen35 debug configs local

* chore: clarify qwen3.5 weight naming bypass

* fix: use upstream qwen3.5 conversion mapping

* chore: use released transformers package

* chore: drop qwen3.5 cp patch

* chore: remove wordle env packaging
diff --git a/pyproject.toml b/pyproject.toml
@@ -17,7 +17,7 @@ dependencies = [
     "torchvision",
     "torchaudio",
     "torchdata>=0.11.0",
-    "transformers",
+    "transformers==5.6.2",
     "vllm>=0.22.0",
     "mooncake-transfer-engine>=0.3.10.post2",
     "wandb>=0.26.1",
@@ -128,7 +128,6 @@ dev = [
     "ruff>=0.12.1",
 ]
 
-
 [tool.uv]
 # Enforce a uv version that supports the friendly-duration form
 # (`"7 days"`) in the static pyproject parser. Older uvs silently parse
@@ -147,7 +146,7 @@ environments = [
 override-dependencies = [
     "nvidia-cudnn-cu12>=9.15",
     "nvidia-cutlass-dsl>=4.4.1",
-    "transformers>=5.1.0.dev0",
+    "transformers==5.6.2",
     "torch>=2.9.0",
     "openenv-core",
 ]
@@ -231,7 +230,6 @@ torchvision = { index = "pytorch-cu128" }
 torchaudio = { index = "pytorch-cu128" }
 torchtitan = { git = "https://github.com/pytorch/torchtitan", rev = "a1fdd7e" }
 dion = { git = "https://github.com/samsja/dion.git", rev = "d891eeb" }
-transformers = { git = "https://github.com/huggingface/transformers.git", rev = "c1c3424" }
 flash-attn-4 = { git = "https://github.com/Dao-AILab/flash-attention.git", subdirectory = "flash_attn/cute", rev = "96bd151" }
 vllm-router = { url = "https://github.com/PrimeIntellect-ai/router/releases/download/v0.1.26/vllm_router-0.1.26-cp38-abi3-manylinux_2_28_x86_64.whl" }
 vllm = [
diff --git a/skills/training/start-run/SKILL.md b/skills/training/start-run/SKILL.md
@@ -34,6 +34,12 @@ uv run rl @ examples/reverse_text/rl.toml --dry-run
 - Config: `RLConfig` (`packages/prime-rl-configs/src/prime_rl/configs/rl.py`)
 - Entrypoint: `src/prime_rl/entrypoints/rl.py`
 - SLURM: single- and multi-node
+- Environment packages: before launching a config with a non-core verifier env id,
+  verify the package imports under `uv run` (for example
+  `uv run python -c "import importlib.util; print(importlib.util.find_spec('rlm_swe'))"`).
+  If a local env exists under `deps/research-environments/environments/` but does not
+  import, add it to the root `pyproject.toml` env extra, workspace members, and
+  `[tool.uv.sources]`, then run `uv sync --all-extras`.
 
 ## `sft` — SFT training
 
diff --git a/src/prime_rl/trainer/ckpt.py b/src/prime_rl/trainer/ckpt.py
@@ -420,7 +420,6 @@ def save(
                 f"Converted PrimeRL format to HF format in {time.perf_counter() - start_time:.2f} seconds"
             )
         else:
-            # For regular transformers models, revert internal format to original HF hub format
             from transformers.core_model_loading import revert_weight_conversion
 
             self.logger.debug("Reverting transformers internal format to HF hub format for weight checkpoint")
diff --git a/src/prime_rl/trainer/model.py b/src/prime_rl/trainer/model.py
@@ -79,7 +79,7 @@ def _patch_qwen3_5_moe_conversion_mapping():
     incorrectly maps qwen3_5_moe → qwen2_moe, which assumes per-expert 2D checkpoint weights,
     causing revert_weight_conversion to produce wrong shapes during weight broadcasting.
 
-    Remove once the pinned transformers commit fixes this.
+    Remove once an official Transformers release fixes this.
     """
     from transformers.conversion_mapping import (
         get_checkpoint_conversion_mapping,
@@ -99,7 +99,7 @@ def _patch_qwen3_5_text_position_ids():
     """Fix Qwen3.5 passing 3D MRoPE position_ids to decoder layers instead of 2D text_position_ids.
 
     Upstream fix: https://github.com/huggingface/transformers/pull/44399
-    Remove once the pinned transformers commit includes this fix.
+    Remove once an official Transformers release includes this fix.
     """
     import inspect
 
diff --git a/src/prime_rl/trainer/rl/broadcast/filesystem.py b/src/prime_rl/trainer/rl/broadcast/filesystem.py
@@ -46,7 +46,6 @@ def broadcast_weights(self, model: nn.Module, step: int) -> None:
             if isinstance(model, PreTrainedModelPrimeRL) and model.is_prime_state_dict(state_dict):
                 model.convert_to_hf(state_dict)
             else:
-                # For regular transformers models, revert internal format to original HF hub format
                 from transformers.core_model_loading import revert_weight_conversion
 
                 state_dict = revert_weight_conversion(model, state_dict)
diff --git a/uv.lock b/uv.lock

Original file line number	Diff line number	Diff line change
`@@ -420,7 +420,6 @@ def save(`
`420`	`420`	`f"Converted PrimeRL format to HF format in {time.perf_counter() - start_time:.2f} seconds"`
`421`	`421`	`)`
`422`	`422`	`else:`
`423`		`- # For regular transformers models, revert internal format to original HF hub format`
`424`	`423`	`from transformers.core_model_loading import revert_weight_conversion`
`425`	`424`
`426`	`425`	`self.logger.debug("Reverting transformers internal format to HF hub format for weight checkpoint")`