Add support for vllm >= 0.19.0 (#1211)

lewtun · codex · web-flow · commit 34889df34655 · 2026-04-13T13:47:38.000+02:00
* Fix vLLM 0.11 compatibility and restore hellaswag_cf

Co-authored-by: OpenAI Codex &lt;codex@openai.com&gt;

* Support vLLM 0.19 prompt schema

Co-authored-by: OpenAI Codex &lt;codex@openai.com&gt;

* Address vLLM PR review feedback

Co-authored-by: OpenAI Codex &lt;codex@openai.com&gt;

* Remove temporary hellaswag_cf task

Co-authored-by: OpenAI Codex &lt;codex@openai.com&gt;

* Clarify vLLM compatibility branches

Co-authored-by: OpenAI Codex &lt;codex@openai.com&gt;

* Handle tied MCQ logits in slow sample comparisons

Co-authored-by: OpenAI Codex &lt;codex@openai.com&gt;

* Handle flat VLM token outputs in tie checks

Co-authored-by: OpenAI Codex &lt;codex@openai.com&gt;

---------

Co-authored-by: OpenAI Codex &lt;codex@openai.com&gt;
diff --git a/src/lighteval/models/vllm/vllm_model.py b/src/lighteval/models/vllm/vllm_model.py
@@ -44,6 +44,13 @@
 logger = logging.getLogger(__name__)
 
 
+def build_vllm_token_prompts(inputs: list[list[int]]) -> list:
+    """Build token prompts across vLLM prompt-schema reorganizations."""
+    from vllm.inputs import TokensPrompt
+
+    return [TokensPrompt(prompt_token_ids=token_ids) for token_ids in inputs]
+
+
 if is_package_available("vllm"):
     import ray
     from more_itertools import distribute
@@ -52,9 +59,15 @@
         destroy_distributed_environment,
         destroy_model_parallel,
     )
-    from vllm.tokenizers import get_tokenizer
     from vllm.v1.engine.async_llm import AsyncEngineArgs, AsyncLLM
 
+    try:
+        # vLLM moved `get_tokenizer` to `vllm.tokenizers` in v0.12.0.
+        # Keep the fallback while our lower bound remains on v0.11.x.
+        from vllm.tokenizers import get_tokenizer
+    except ModuleNotFoundError:
+        from vllm.transformers_utils.tokenizer import get_tokenizer
+
     logging.getLogger("vllm").propagate = True
     logging.getLogger("vllm").handlers.clear()
 
@@ -302,6 +315,7 @@ def _create_auto_tokenizer(self, config: VLLMModelConfig):
             trust_remote_code=config.trust_remote_code,
             revision=config.revision,
         )
+
         tokenizer.pad_token = tokenizer.eos_token
         return tokenizer
 
@@ -439,8 +453,7 @@ def _generate(
             @ray.remote(num_gpus=self.tensor_parallel_size)
             def run_inference_one_model(model_args: dict, sampling_params: SamplingParams, requests):
                 llm = LLM(**model_args)
-                # Convert token IDs to TokensPrompt format for vLLM v0.15+
-                prompts = [{"prompt_token_ids": req} for req in requests]
+                prompts = build_vllm_token_prompts(requests)
                 return llm.generate(prompts=prompts, sampling_params=sampling_params)
 
             # dispatch requests to all self.data_parallel_size workers, in interleaved fashion
@@ -458,10 +471,7 @@ def run_inference_one_model(model_args: dict, sampling_params: SamplingParams, r
                 if x is not None
             ]
         else:
-            from vllm.inputs import TokenInputs
-
-            # Convert token IDs to TokensPrompt format for vLLM v0.15+
-            prompts = [TokenInputs(prompt_token_ids=token_ids) for token_ids in inputs]
+            prompts = build_vllm_token_prompts(inputs)
             outputs = self.model.generate(
                 prompts=prompts,
                 sampling_params=sampling_params,
diff --git a/tests/slow_tests/sample_comparison.py b/tests/slow_tests/sample_comparison.py
@@ -27,6 +27,9 @@
 from datasets import Dataset
 
 
+LOGIT_TIE_EPSILON = 0.05
+
+
 def _to_plain_list(value):
     """convert a list of tensors to a list of plain values"""
     new_value = []
@@ -37,6 +40,83 @@ def _to_plain_list(value):
     return new_value
 
 
+def to_plain_data(value):
+    """Convert nested tensor-like values to plain Python data."""
+    if hasattr(value, "tolist"):
+        value = value.tolist()
+
+    if isinstance(value, list):
+        return [to_plain_data(item) for item in value]
+
+    return value
+
+
+def first_generated_token_id(model_response: dict) -> int | None:
+    """Return the first generated token id for the first sequence."""
+    output_tokens = to_plain_data(model_response.get("output_tokens") or [])
+    if not output_tokens or not output_tokens[0]:
+        return None
+
+    first_sequence = output_tokens[0]
+    if isinstance(first_sequence, list):
+        return first_sequence[0] if first_sequence else None
+
+    return first_sequence
+
+
+def first_step_logits(model_response: dict) -> list[float] | None:
+    """Return the logits for the first generated token, if available."""
+    logits = to_plain_data(model_response.get("logits"))
+    if not logits:
+        return None
+
+    first_step = logits[0]
+    if isinstance(first_step, list):
+        return first_step
+
+    return logits
+
+
+def is_within_logit_tie_margin(logits: list[float], token_id: int, epsilon: float = LOGIT_TIE_EPSILON) -> bool:
+    """Check whether a token is within epsilon of the maximum logit."""
+    if token_id < 0 or token_id >= len(logits):
+        return False
+
+    return max(logits) - logits[token_id] <= epsilon
+
+
+def is_tied_choice_prediction(current: dict, reference: dict, epsilon: float = LOGIT_TIE_EPSILON) -> bool:
+    """Return True when two different MCQ predictions are both within the tie margin."""
+    current_choices = current.get("doc", {}).get("choices")
+    reference_choices = reference.get("doc", {}).get("choices")
+    if not current_choices or current_choices != reference_choices or len(current_choices) < 2:
+        return False
+
+    current_response = current.get("model_response", {})
+    reference_response = reference.get("model_response", {})
+
+    current_token = first_generated_token_id(current_response)
+    reference_token = first_generated_token_id(reference_response)
+    if current_token is None or reference_token is None or current_token == reference_token:
+        return False
+
+    reference_logits = first_step_logits(reference_response)
+    if reference_logits is None:
+        return False
+
+    for token_id in (current_token, reference_token):
+        if not is_within_logit_tie_margin(reference_logits, token_id, epsilon):
+            return False
+
+    current_logits = first_step_logits(current_response)
+    if current_logits is not None:
+        for token_id in (current_token, reference_token):
+            if not is_within_logit_tie_margin(current_logits, token_id, epsilon):
+                return False
+
+    return True
+
+
 def load_sample_details(details_dir: str):
     """Load sample-level details from parquet files in the details directory."""
     details = {}
@@ -140,6 +220,10 @@ def _compare_single_sample(current, reference, sample_index):
     if "doc" in current and "doc" in reference:
         sample_diff.update(_compare_doc_info(current, reference))
 
+    if sample_diff and set(sample_diff).issubset({"output_tokens_difference", "metric_differences"}):
+        if is_tied_choice_prediction(current, reference):
+            return {}
+
     if sample_diff:
         sample_diff["sample_index"] = sample_index
 
diff --git a/tests/unit/models/vllm/test_vllm_model.py b/tests/unit/models/vllm/test_vllm_model.py
@@ -20,12 +20,36 @@
 # OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
 # SOFTWARE.
 
+import sys
 import unittest
+from types import ModuleType
 from unittest.mock import Mock, patch
 
 from transformers import AutoTokenizer
 
-from lighteval.models.vllm.vllm_model import VLLMModel, VLLMModelConfig
+from lighteval.models.vllm.vllm_model import VLLMModel, VLLMModelConfig, build_vllm_token_prompts
+
+
+class TestVLLMPromptConstruction(unittest.TestCase):
+    def test_build_vllm_token_prompts_uses_tokens_prompt_when_available(self):
+        fake_inputs = ModuleType("vllm.inputs")
+        fake_inputs.TokensPrompt = lambda *, prompt_token_ids: {  # noqa: E731
+            "kind": "tokens_prompt",
+            "prompt_token_ids": prompt_token_ids,
+        }
+        fake_vllm = ModuleType("vllm")
+        fake_vllm.inputs = fake_inputs
+
+        with patch.dict(sys.modules, {"vllm": fake_vllm, "vllm.inputs": fake_inputs}):
+            prompts = build_vllm_token_prompts([[1, 2], [3]])
+
+        self.assertEqual(
+            prompts,
+            [
+                {"kind": "tokens_prompt", "prompt_token_ids": [1, 2]},
+                {"kind": "tokens_prompt", "prompt_token_ids": [3]},
+            ],
+        )
 
 
 class TestVLLMTokenizerCreation(unittest.TestCase):
diff --git a/tests/unit/test_sample_comparison.py b/tests/unit/test_sample_comparison.py
@@ -0,0 +1,91 @@
+# MIT License
+
+# Copyright (c) 2024 The HuggingFace Team
+
+from dataclasses import asdict, dataclass
+
+from lighteval.models.model_output import ModelResponse
+from tests.slow_tests.sample_comparison import compare_sample_details
+
+
+@dataclass
+class DetailSample:
+    doc: dict
+    metric: dict
+    model_response: ModelResponse
+
+
+def make_logits(logit_b: float, logit_c: float) -> list[list[float]]:
+    logits = [0.0] * 40
+    logits[33] = logit_b
+    logits[34] = logit_c
+    return [logits]
+
+
+def make_current_detail(
+    token_id: int,
+    logit_b: float,
+    logit_c: float,
+    metric: float,
+    *,
+    flat_output_tokens: bool = False,
+    include_logits: bool = True,
+) -> DetailSample:
+    output_tokens = [token_id, 151645] if flat_output_tokens else [[token_id, 151645]]
+
+    return DetailSample(
+        doc={"query": "query", "choices": ["A", "B", "C", "D"]},
+        metric={"extractive_match": metric},
+        model_response=ModelResponse(
+            output_tokens=output_tokens,
+            logits=make_logits(logit_b, logit_c) if include_logits else None,
+        ),
+    )
+
+
+def make_reference_detail(token_id: int, logit_b: float, logit_c: float, metric: float) -> dict:
+    return {
+        "doc": {"query": "query", "choices": ["A", "B", "C", "D"]},
+        "metric": {"extractive_match": metric},
+        "model_response": asdict(
+            ModelResponse(
+                output_tokens=[[token_id, 151645]],
+                logits=make_logits(logit_b, logit_c),
+            )
+        ),
+    }
+
+
+def test_compare_sample_details_ignores_tied_multiple_choice_predictions():
+    current_details = {
+        "task": [
+            make_current_detail(
+                token_id=34,
+                logit_b=10.0,
+                logit_c=10.0,
+                metric=1.0,
+                flat_output_tokens=True,
+                include_logits=False,
+            )
+        ],
+    }
+    reference_details = {
+        "task": [make_reference_detail(token_id=33, logit_b=10.0, logit_c=10.0, metric=0.0)],
+    }
+
+    assert compare_sample_details(current_details, reference_details) == {}
+
+
+def test_compare_sample_details_keeps_non_tied_multiple_choice_predictions():
+    current_details = {
+        "task": [make_current_detail(token_id=34, logit_b=9.0, logit_c=10.0, metric=1.0)],
+    }
+    reference_details = {
+        "task": [make_reference_detail(token_id=33, logit_b=10.0, logit_c=9.0, metric=0.0)],
+    }
+
+    differences = compare_sample_details(current_details, reference_details)
+
+    assert differences["task"][0]["sample_index"] == 0
+    assert "output_tokens_difference" in differences["task"][0]
+    assert "metric_differences" in differences["task"][0]