rename vllm

nch0w · nch0w · commit 774e0b97d8ab · 2025-08-31T00:57:00.000-07:00
diff --git a/examples/reward_fn_computation.py b/examples/reward_fn_computation.py
@@ -23,7 +23,7 @@ async def amain(gpt_oss_base_url: str):
 
     reward = await compute_reward(
         openai_client=openai_client,
-        vllm_client=gpt_oss_client,
+        gpt_oss_client=gpt_oss_client,
         gpt_oss_tokenizer=gpt_oss_tokenizer,
         behavior_id=behavior_id,
         policy_output=policy_output,
diff --git a/jailbreaking_frontier_models/reward.py b/jailbreaking_frontier_models/reward.py
@@ -156,7 +156,7 @@ async def _judge_with_retries() -> JudgeResponse:
         )
 
 async def compute_reward(
-    vllm_client: AsyncOpenAI,   
+    gpt_oss_client: AsyncOpenAI,   
     gpt_oss_tokenizer: PreTrainedTokenizerBase,
     behavior_id: str,  # unique identifier for the problem
     policy_output: str,
@@ -207,7 +207,7 @@ async def compute_response_score(response: str) -> JudgeResponse:
     async def sample_proposal() -> tuple[str, str]:
         prompt = PROPOSAL_TEMPLATE_V1.format(user_prompt=policy_output)
 
-        response = await vllm_client.completions.create(
+        response = await gpt_oss_client.completions.create(
             model="openai/gpt-oss-20b",
             prompt=prompt,
             temperature=1.0,
@@ -234,7 +234,7 @@ async def sample_proposal() -> tuple[str, str]:
         before_sleep=before_sleep_log(logger, logging.WARNING),
     )
     async def sample_thinking_tokens() -> tuple[str, str]:
-        response = await vllm_client.completions.create(
+        response = await gpt_oss_client.completions.create(
             model="openai/gpt-oss-20b",
             prompt=gpt_oss_tokenizer.apply_chat_template(
                 [
@@ -288,7 +288,7 @@ async def get_normal_logprobs(prefix: str | None, suffix: str | None):
         if prefix is not None and suffix is not None:
             # this is logp(proposal | prompt, CoT-sampled)
             return await get_token_logprobs(
-                vllm_client,
+                gpt_oss_client,
                 tokenizer=gpt_oss_tokenizer,
                 model=target_model,
                 input_token_ids=cast(
@@ -301,7 +301,7 @@ async def get_normal_logprobs(prefix: str | None, suffix: str | None):
             # this is logp(proposal | prompt, CoT-fallback).
             # it's probably worse than above but is useful as a backup.
             return await get_token_logprobs(
-                vllm_client,
+                gpt_oss_client,
                 tokenizer=gpt_oss_tokenizer,
                 model=target_model,
                 input_token_ids=cast(
@@ -323,7 +323,7 @@ async def get_steered_logprobs():
         # compute logq(proposal-response | prompt)
         # this is logq(proposal-response | prompt, proposal-CoT)
         return await get_token_logprobs(
-            vllm_client,
+            gpt_oss_client,
             tokenizer=gpt_oss_tokenizer,
             model=target_model,
             input_token_ids=cast(