Update vLLM version to v0.13.0 for NVIDIA configs (#327)

Ankur-singh · nvpohanh · cquil11 · web-flow · commit 4e52ed4c62b9 · 2026-01-02T22:24:06.000Z
* Update vLLM version to v0.12.0

* Fix H100/H200 perf regression

* check and install git before use

* add container writable to h200 nv runner launch script

* add sudo to apt-get

* add container-remap-root to h200 nv and nb runner launchers

* make changes to perf changelog

* fix typo, use correct env var for h100

* update to v0.13.0

* make changes to perf changelog

* fix perf-changelog

fix perf-changelog

fix perf-changelog

fix

* fix compilation configs

* make num prompts conc * 10

* add --container-writable to h200 nb

* add --container-remap-root to b200 nb

* add --container-remap-root to b200 nv

---------

Co-authored-by: Po-Han Huang &lt;pohanh@nvidia.com&gt;
Co-authored-by: Cam Quilici &lt;cjquilici@gmail.com&gt;
diff --git a/.github/configs/nvidia-master.yaml b/.github/configs/nvidia-master.yaml
@@ -209,7 +209,7 @@ gptoss-fp4-b200-trt:
     - { tp: 8, conc-start: 4, conc-end: 8 }
 
 gptoss-fp4-b200-vllm:
-  image: vllm/vllm-openai:v0.11.2
+  image: vllm/vllm-openai:v0.13.0
   model: openai/gpt-oss-120b
   model-prefix: gptoss
   runner: b200
@@ -240,7 +240,7 @@ gptoss-fp4-b200-vllm:
     - { tp: 8, conc-start: 4, conc-end: 4 }
 
 gptoss-fp4-h100-vllm:
-  image: vllm/vllm-openai:v0.11.2
+  image: vllm/vllm-openai:v0.13.0
   model: openai/gpt-oss-120b
   model-prefix: gptoss
   runner: h100
@@ -300,7 +300,7 @@ gptoss-fp4-h200-trt:
     - { tp: 8, ep: 8, dp-attn: false, conc-start: 4, conc-end: 8 }
 
 gptoss-fp4-h200-vllm:
-  image: vllm/vllm-openai:v0.11.2
+  image: vllm/vllm-openai:v0.13.0
   model: openai/gpt-oss-120b
   model-prefix: gptoss
   runner: h200
diff --git a/benchmarks/benchmark_lib.sh b/benchmarks/benchmark_lib.sh
@@ -208,6 +208,17 @@ run_benchmark_serving() {
         echo "Error: --result-dir is required"
         return 1
     fi
+    
+    # Check if git is installed, install if missing
+    if ! command -v git &> /dev/null; then
+        echo "git not found, installing..."
+        if command -v apt-get &> /dev/null; then
+            sudo apt-get update && sudo apt-get install -y git
+        else
+            echo "Error: Could not install git. Package manager not found."
+            return 1
+        fi
+    fi
 
     # Clone benchmark serving repo
     local BENCH_SERVING_DIR=$(mktemp -d /tmp/bmk-XXXXXX)
diff --git a/benchmarks/gptoss_fp4_b200_docker.sh b/benchmarks/gptoss_fp4_b200_docker.sh
@@ -30,7 +30,7 @@ fi
 
 cat > config.yaml << EOF
 kv-cache-dtype: fp8
-compilation-config: '{"pass_config":{"enable_fi_allreduce_fusion":true,"enable_noop":true}}'
+compilation-config: '{"pass_config":{"fuse_allreduce_rms":true,"eliminate_noops":true}}'
 async-scheduling: true
 no-enable-prefix-caching: true
 max-cudagraph-capture-size: 2048
diff --git a/benchmarks/gptoss_fp4_b200_slurm.sh b/benchmarks/gptoss_fp4_b200_slurm.sh
@@ -27,7 +27,7 @@ fi
 
 cat > config.yaml << EOF
 kv-cache-dtype: fp8
-compilation-config: '{"pass_config":{"enable_fi_allreduce_fusion":true,"enable_noop":true}}'
+compilation-config: '{"pass_config":{"fuse_allreduce_rms":true,"eliminate_noops":true}}'
 async-scheduling: true
 no-enable-prefix-caching: true
 max-cudagraph-capture-size: 2048
@@ -64,7 +64,7 @@ run_benchmark_serving \
     --input-len "$ISL" \
     --output-len "$OSL" \
     --random-range-ratio "$RANDOM_RANGE_RATIO" \
-    --num-prompts "$NUM_PROMPTS" \
+    --num-prompts $(( CONC * 10 )) \
     --max-concurrency "$CONC" \
     --result-filename "$RESULT_FILENAME" \
     --result-dir /workspace/
diff --git a/benchmarks/gptoss_fp4_h100_docker.sh b/benchmarks/gptoss_fp4_h100_docker.sh
@@ -20,6 +20,7 @@ max-model-len: 10240
 EOF
 
 export PYTHONNOUSERSITE=1
+export VLLM_MXFP4_USE_MARLIN=1
 SERVER_LOG=$(mktemp /tmp/server-XXXXXX.log)
 
 set -x
diff --git a/benchmarks/gptoss_fp4_h100_slurm.sh b/benchmarks/gptoss_fp4_h100_slurm.sh
@@ -22,6 +22,7 @@ EOF
 
 SERVER_LOG=$(mktemp /tmp/server-XXXXXX.log)
 export TORCH_CUDA_ARCH_LIST="9.0"
+export VLLM_MXFP4_USE_MARLIN=1
 
 set -x
 PYTHONNOUSERSITE=1 vllm serve $MODEL --host=0.0.0.0 --port=$PORT \
diff --git a/benchmarks/gptoss_fp4_h200_slurm.sh b/benchmarks/gptoss_fp4_h200_slurm.sh
@@ -38,6 +38,7 @@ SERVER_LOG=$(mktemp /tmp/server-XXXXXX.log)
 PORT=$(( 8888 + $PORT_OFFSET ))
 
 export TORCH_CUDA_ARCH_LIST="9.0"
+export VLLM_MXFP4_USE_MARLIN=1
 
 PYTHONNOUSERSITE=1 vllm serve $MODEL --host 0.0.0.0 --port $PORT --config config.yaml \
  --gpu-memory-utilization 0.9 --tensor-parallel-size $TP --max-num-seqs $CONC  \
diff --git a/perf-changelog.yaml b/perf-changelog.yaml
@@ -124,3 +124,12 @@
   description:
     - "Update NVIDIA DeepSeek sglang Docker image from v0.5.5 to v0.5.6"
   pr-link: https://github.com/InferenceMAX/InferenceMAX/pull/276
+  
+- config-keys:
+    - gptoss-fp4-b200-vllm
+    - gptoss-fp4-h100-vllm
+    - gptoss-fp4-h200-vllm
+  description: 
+    - "Update vLLM image from v0.11.2 to v0.13.0"
+    - "Add VLLM_MXFP4_USE_MARLIN=1 to H100 and H200 benchmark scripts"
+  pr-link: https://github.com/InferenceMAX/InferenceMAX/pull/327
diff --git a/runners/launch_b200-nb.sh b/runners/launch_b200-nb.sh
@@ -14,7 +14,9 @@ srun --partition=$PARTITION --gres=gpu:$TP --exclusive \
 --container-image=$IMAGE \
 --container-name=$(echo "$IMAGE" | sed 's/[\/:@#]/_/g')-${USER: -1} \
 --container-mounts=$GITHUB_WORKSPACE:/workspace/,$HF_HUB_CACHE_MOUNT:$HF_HUB_CACHE \
---no-container-mount-home --container-writable \
+--no-container-mount-home \
+--container-remap-root \
+--container-writable \
 --container-workdir=/workspace/ \
 --no-container-entrypoint --export=ALL,PORT_OFFSET=${USER: -1},UCX_NET_DEVICES=$UCX_NET_DEVICES \
 bash benchmarks/${EXP_NAME%%_*}_${PRECISION}_b200${FRAMEWORK_SUFFIX}_slurm.sh
diff --git a/runners/launch_b200-nv.sh b/runners/launch_b200-nv.sh
@@ -17,7 +17,9 @@ srun --jobid=$JOB_ID bash -c "enroot import -o $SQUASH_FILE docker://$IMAGE"
 srun --jobid=$JOB_ID \
 --container-image=$SQUASH_FILE \
 --container-mounts=$GITHUB_WORKSPACE:/workspace/,$HF_HUB_CACHE_MOUNT:$HF_HUB_CACHE \
---no-container-mount-home --container-writable \
+--no-container-mount-home \
+--container-remap-root \
+--container-writable \
 --container-workdir=/workspace/ \
 --no-container-entrypoint --export=ALL \
 bash benchmarks/${MODEL_CODE}_${PRECISION}_b200${FRAMEWORK_SUFFIX}_slurm.sh
diff --git a/runners/launch_h200-nb.sh b/runners/launch_h200-nb.sh
@@ -24,6 +24,8 @@ fi
 srun --jobid=$JOB_ID \
 --container-image=$CONTAINER_IMAGE \
 --container-mounts=$GITHUB_WORKSPACE:/workspace/,$HF_HUB_CACHE_MOUNT:$HF_HUB_CACHE \
+--container-remap-root \
+--container-writable \
 --container-mount-home \
 --container-workdir=/workspace/ \
 --no-container-entrypoint --export=ALL \
diff --git a/runners/launch_h200-nv.sh b/runners/launch_h200-nv.sh
@@ -17,6 +17,8 @@ srun --jobid=$JOB_ID bash -c "enroot import -o $SQUASH_FILE docker://$IMAGE"
 srun --jobid=$JOB_ID \
 --container-image=$SQUASH_FILE \
 --container-mounts=$GITHUB_WORKSPACE:/workspace/,$HF_HUB_CACHE_MOUNT:$HF_HUB_CACHE \
+--container-writable \
+--container-remap-root \
 --container-mount-home \
 --container-workdir=/workspace/ \
 --no-container-entrypoint --export=ALL \