deprecate interleaved_rollouts (#912)

mikasenghaas · claude · web-flow · commit 786d300bf5aa · 2026-02-15T05:52:21.000-08:00
* deprecate interleaved_rollouts * remove stale set_interleaved_rollouts docs Follow-up to 44df268 which deprecated interleaved_rollouts. Removes the set_interleaved_rollouts(bool) method from API reference. Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com> --------- Co-authored-by: Claude Sonnet 4.5 <noreply@anthropic.com>
diff --git a/docs/reference.md b/docs/reference.md
@@ -308,7 +308,6 @@ Abstract base class for all environments.
 | `set_kwargs(**kwargs)` | Set attributes using setter methods when available |
 | `add_rubric(rubric)` | Add or merge rubric |
 | `set_max_seq_len(max_seq_len)` | Set maximum sequence length |
-| `set_interleaved_rollouts(bool)` | Enable/disable interleaved rollouts |
 | `set_score_rollouts(bool)` | Enable/disable scoring |
 
 #### SingleTurnEnv
diff --git a/tests/test_rlm_env.py b/tests/test_rlm_env.py
@@ -14,19 +14,19 @@
 
 import pytest
 from datasets import Dataset
+
+import verifiers as vf
 from verifiers.envs.experimental import rlm_env as rlm_module
 from verifiers.envs.experimental.rlm_env import (
-    RLMEnv,
-    RLMWorkerPaths,
     RLMCodeExecutionTimeout,
+    RLMEnv,
     RLMSessionError,
     RLMSetupError,
     RLMWorkerError,
+    RLMWorkerPaths,
     RLMWorkerRecoveryError,
     SubLLMEmptyModelResponseError,
 )
-import verifiers as vf
-
 
 # =============================================================================
 # Helpers
@@ -1198,7 +1198,6 @@ async def test_sub_llm_ignores_interleaving_and_uses_chat(self, rlm_env):
             )
         )
 
-        rlm_env.interleaved_rollouts = True
         messages = [{"role": "user", "content": "hi"}]
         state = {"sampling_args": {"max_tokens": 7}}
 
@@ -1381,10 +1380,8 @@ def test_interleaved_allowed_when_sub_llm_in_trajectory(self):
         env = build_env(
             dataset,
             include_sub_llm_in_trajectory=True,
-            interleaved_rollouts=True,
         )
         assert env.include_sub_llm_in_trajectory is True
-        assert env.interleaved_rollouts is True
 
     @pytest.mark.asyncio
     async def test_sub_llm_steps_added_to_trajectory(self, rlm_env):
diff --git a/verifiers/envs/env_group.py b/verifiers/envs/env_group.py
@@ -328,12 +328,6 @@ def set_max_seq_len(self, max_seq_len: int | None) -> None:
         for env in self.envs:
             env.set_max_seq_len(max_seq_len)
 
-    def set_interleaved_rollouts(self, interleaved_rollouts: bool) -> None:
-        """Set the interleaved_rollouts flag for this environment group and all sub-environments."""
-        self.interleaved_rollouts = interleaved_rollouts
-        for env in self.envs:
-            env.set_interleaved_rollouts(interleaved_rollouts)
-
     def set_score_rollouts(self, score_rollouts: bool) -> None:
         """Set the score_rollouts flag for this environment group and all sub-environments."""
         self.score_rollouts = score_rollouts
diff --git a/verifiers/envs/environment.py b/verifiers/envs/environment.py
@@ -108,7 +108,6 @@ def __init__(
         env_args: dict | None = None,
         map_kwargs: dict = {},
         max_seq_len: int | None = None,
-        interleaved_rollouts: bool = False,
         score_rollouts: bool = True,
         **kwargs,
     ):
@@ -144,7 +143,6 @@ def __init__(
         self.max_seq_len = max_seq_len
         self.map_kwargs = map_kwargs
 
-        self.set_interleaved_rollouts(interleaved_rollouts)
         self.set_score_rollouts(score_rollouts)
 
         self.env_client: EnvClient | None = None
@@ -1228,7 +1226,7 @@ def set_kwargs(self, **kwargs) -> None:
 
         For each kwarg, checks if a `set_{key}` method exists and calls it,
         otherwise falls back to setattr. This ensures proper propagation for
-        attributes like `interleaved_rollouts` in EnvGroup.
+        attributes like `score_rollouts` in EnvGroup.
         """
         for key, value in kwargs.items():
             setter_name = f"set_{key}"
@@ -1250,13 +1248,9 @@ def set_max_seq_len(self, max_seq_len: int | None) -> None:
         """Set the maximum sequence length for this environment."""
         self.max_seq_len = max_seq_len
 
-    def set_interleaved_rollouts(self, interleaved_rollouts: bool) -> None:
-        """Set the interleaved rollouts flag for this environment."""
-        self.interleaved_rollouts = interleaved_rollouts
-        if self.interleaved_rollouts:
-            self.logger.warning(
-                f"{self.__class__.__name__} is configured to use interleaved rollouts. All model responses after the first turn will be pre-tokenized before being sent to the model. Currently, this is a hand-crafted feature for PRIME-RL's vLLM server extension."
-            )
+    def set_score_rollouts(self, score_rollouts: bool) -> None:
+        """Set the score rollouts flag for this environment."""
+        self.score_rollouts = score_rollouts
 
     async def start_server(
         self,
@@ -1309,10 +1303,6 @@ async def stop_server(self) -> None:
                 self.env_server_process.join(timeout=5)
             self.env_server_process = None
 
-    def set_score_rollouts(self, score_rollouts: bool) -> None:
-        """Set the score rollouts flag for this environment."""
-        self.score_rollouts = score_rollouts
-
     make_dataset = staticmethod(make_dataset)
 
 
diff --git a/verifiers/envs/experimental/rlm_env.py b/verifiers/envs/experimental/rlm_env.py
@@ -3136,9 +3136,6 @@ async def teardown_executor(self):
     # State Management
     # =========================================================================
 
-    def set_interleaved_rollouts(self, interleaved_rollouts: bool) -> None:
-        super().set_interleaved_rollouts(interleaved_rollouts)
-
     def update_tool_args(
         self,
         tool_name: str,
@@ -3673,7 +3670,8 @@ async def get_model_response(  # type: ignore[override]
         step with incompatible tokens.  We temporarily move trailing sub-LLM
         steps out of the trajectory for the duration of the super call.
         """
-        if not (self.include_sub_llm_in_trajectory and self.interleaved_rollouts):
+
+        if not self.include_sub_llm_in_trajectory:
             return await super().get_model_response(state, prompt, **kwargs)
 
         trajectory = state.get("trajectory", [])