Merge pull request #147 from coreweave/rwang/vllm19

Rexwang8 · web-flow · commit 9a0288b3b42c · 2026-04-06T11:17:44.000-05:00
feat(vllm-tensorizer): Add Vllm 0.19.0 support for gemma4
diff --git a/.github/configurations/vllm-tensorizer.yml b/.github/configurations/vllm-tensorizer.yml
@@ -1,9 +1,9 @@
 vllm-commit:
-  - 'v0.18.1'
+  - 'v0.19.0'
 flashinfer-commit:
   - 'v0.6.6'
 lmcache-commit:
-  - 'v0.4.1'
+  - 'v0.4.2'
 builder-base-image:
   - 'ghcr.io/coreweave/ml-containers/torch:1a21fa8-nccl-cuda12.9.1-ubuntu22.04-nccl2.29.7-1-torch2.10.0-vision0.25.0-audio2.10.0-abi1'
 final-base-image:
diff --git a/vllm-tensorizer/Dockerfile b/vllm-tensorizer/Dockerfile
@@ -241,14 +241,20 @@ COPY --link --from=nixl-builder /usr/lib/python3/dist-packages/nixl.pth /usr/lib
 # Copied from vLLM's Dockerfile
 ARG TARGETPLATFORM
 
+# Ray was removed as a default dependancy by vllm in v18, but it is still required
+# for the multi-node setup.
+
+# Gemma 4 needs transformers > 5.5.0, but is packaged with 4 in vllm 19.
+# We must explicitly update it until vLLM updates their dependency.
+
 RUN if [ "$TARGETPLATFORM" = "linux/arm64" ]; then \
       BITSANDBYTES_VER='0.42.0'; \
     else \
       BITSANDBYTES_VER='0.46.1'; \
     fi && \
     python3 -m pip install --no-cache-dir \
       accelerate hf_transfer 'modelscope!=1.15.0' "bitsandbytes>=${BITSANDBYTES_VER:?}" 'timm>=1.0.17' \
-      'runai-model-streamer[s3,gcs]>=0.15.3' "ray[cgraph]>=2.48.0" -c /tmp/constraints.txt && \
+      'runai-model-streamer[s3,gcs]>=0.15.3' "ray[cgraph]>=2.48.0" "transformers>=5.5.0" -c /tmp/constraints.txt && \
     rm /tmp/constraints.txt
 
 EXPOSE 8080