feat: add Qwen3.5/Qwen3.6 model smoke test and benchmark (#6032)

sirutBuasai · web-flow · commit 858e3badc639 · 2026-05-11T13:05:28.000-07:00
* feat: add Qwen3.5/Qwen3.6 model smoke test and benchmark

Signed-off-by: sirutBuasai &lt;sirutbuasai27@outlook.com&gt;

* move models to p4d

Signed-off-by: sirutBuasai &lt;sirutbuasai27@outlook.com&gt;

* use gpu-p4d-runner

Signed-off-by: sirutBuasai &lt;sirutbuasai27@outlook.com&gt;

* use efa runner

Signed-off-by: sirutBuasai &lt;sirutbuasai27@outlook.com&gt;

* empty commit

Signed-off-by: sirutBuasai &lt;sirutbuasai27@outlook.com&gt;

* use p4d runners

Signed-off-by: sirutBuasai &lt;sirutbuasai27@outlook.com&gt;

* use efa runner

Signed-off-by: sirutBuasai &lt;sirutbuasai27@outlook.com&gt;

* empty commit

Signed-off-by: sirutBuasai &lt;sirutbuasai27@outlook.com&gt;

* migrate to runne scale

Signed-off-by: sirutBuasai &lt;sirutbuasai27@outlook.com&gt;

* increase node sizes

Signed-off-by: sirutBuasai &lt;sirutbuasai27@outlook.com&gt;

* fix gpu

Signed-off-by: sirutBuasai &lt;sirutbuasai27@outlook.com&gt;

* update memory util

Signed-off-by: sirutBuasai &lt;sirutbuasai27@outlook.com&gt;

* use gpu uuid

Signed-off-by: sirutBuasai &lt;sirutbuasai27@outlook.com&gt;

* benchmark

Signed-off-by: sirutBuasai &lt;sirutbuasai27@outlook.com&gt;

* benchmark

Signed-off-by: sirutBuasai &lt;sirutbuasai27@outlook.com&gt;

* fix cleanup runner scale

Signed-off-by: sirutBuasai &lt;sirutbuasai27@outlook.com&gt;

* reset model lists

Signed-off-by: sirutBuasai &lt;sirutbuasai27@outlook.com&gt;

* update vllm amzn2023 latest

Signed-off-by: sirutBuasai &lt;sirutbuasai27@outlook.com&gt;

* fix allowlist

Signed-off-by: sirutBuasai &lt;sirutbuasai27@outlook.com&gt;

---------

Signed-off-by: sirutBuasai &lt;sirutbuasai27@outlook.com&gt;
diff --git a/.github/config/image/vllm-ec2-amzn2023.yml b/.github/config/image/vllm-ec2-amzn2023.yml
@@ -19,7 +19,7 @@ common:
   os_version: "amzn2023"
   customer_type: "ec2"
   arch_type: "x86"
-  prod_image: "vllm:0.18-gpu-py312-ec2"
+  prod_image: "vllm:server-cuda-v1"
   device_type: "gpu"
   contributor: "None"
 
diff --git a/.github/config/model-tests/vllm-model-tests.yml b/.github/config/model-tests/vllm-model-tests.yml
@@ -231,6 +231,51 @@ benchmark:
       min_throughput: 80
       min_rps: 0.35
 
+    # --- Qwen 3.5/3.6 new models (thresholds at ~50% of observed) ---
+    - name: "qwen3.5-2b"
+      s3_model: "qwen3.5-2b.tar.gz"
+      runner_label: "gpu-l4-1gpu-runners"
+      extra_args: "--tensor-parallel-size 1 --max-model-len 4096 --dtype bfloat16 --gpu-memory-utilization 0.6"
+      input_len: 512
+      output_len: 128
+      num_prompts: 64
+      batch_size: 4
+      min_throughput: 5256
+      min_rps: 8.2
+
+    - name: "qwen3.6-27b"
+      s3_model: "qwen3.6-27b.tar.gz"
+      runner_label: "gpu-l40s-4gpu-runners"
+      extra_args: "--tensor-parallel-size 4 --max-model-len 4096 --dtype bfloat16 --gpu-memory-utilization 0.8"
+      input_len: 512
+      output_len: 128
+      num_prompts: 64
+      batch_size: 4
+      min_throughput: 2195
+      min_rps: 3.4
+
+    - name: "qwen3.6-35b-a3b"
+      s3_model: "qwen3.6-35b-a3b.tar.gz"
+      runner_label: "gpu-l40s-4gpu-runners"
+      extra_args: "--tensor-parallel-size 4 --max-model-len 4096 --dtype bfloat16 --gpu-memory-utilization 0.8"
+      input_len: 512
+      output_len: 128
+      num_prompts: 64
+      batch_size: 4
+      min_throughput: 2654
+      min_rps: 4.1
+
+    - name: "qwen3.5-0.8b"
+      s3_model: "qwen3.5-0.8b.tar.gz"
+      runner_label: "gpu-l4-1gpu-runners"
+      extra_args: "--tensor-parallel-size 1 --max-model-len 4096 --dtype bfloat16 --gpu-memory-utilization 0.6"
+      input_len: 512
+      output_len: 128
+      num_prompts: 64
+      batch_size: 4
+      min_throughput: 5966
+      min_rps: 9.3
+
 # upstream
 # facebook/opt-125m
 # meta-llama/Llama-3.2-1B-Instruct
diff --git a/.github/workflows/reusable-vllm-model-tests.yml b/.github/workflows/reusable-vllm-model-tests.yml
@@ -140,7 +140,7 @@ jobs:
       fail-fast: false
       matrix:
         include: ${{ fromJson(needs.load-models.outputs.runner-scale-sets-matrix) }}
-    runs-on: gpu-efa-runners
+    runs-on: ${{ matrix.runner_label }}
     steps:
       - name: Checkout code
         uses: actions/checkout@v5
@@ -169,7 +169,10 @@ jobs:
       - name: Start container
         run: |
           docker pull ${{ inputs.image-uri }}
-          CONTAINER_ID=$(docker run -d -it --gpus all --entrypoint /bin/bash \
+          # Get GPU UUIDs visible to this pod (k8s assigns a subset of host GPUs)
+          POD_GPUS=$(nvidia-smi --query-gpu=uuid --format=csv,noheader | paste -sd,)
+          echo "Pod GPU UUIDs: ${POD_GPUS}"
+          CONTAINER_ID=$(docker run -d -it --gpus "\"device=${POD_GPUS}\"" --entrypoint /bin/bash \
             --ipc=host --shm-size=10g \
             ${{ inputs.image-uri }})
           echo "CONTAINER_ID=$CONTAINER_ID" >> $GITHUB_ENV
@@ -184,7 +187,6 @@ jobs:
           if [ -f "test/vllm/scripts/amzn2023/${{ matrix.test_script || '' }}" ]; then
             docker cp "test/vllm/scripts/amzn2023/${{ matrix.test_script }}" ${CONTAINER_ID}:/models/
           fi
-          rm -rf /dlc-models
 
       - name: Download and copy test fixtures
         if: ${{ matrix.test_fixtures_paths != '' }}
@@ -209,6 +211,4 @@ jobs:
         if: always()
         run: |
           docker stop ${CONTAINER_ID} 2>/dev/null || true
-          docker rm -f ${CONTAINER_ID} 2>/dev/null || true
-          docker rmi ${{ inputs.image-uri }} 2>/dev/null || true
-          rm -rf /dlc-models
+          docker rm -f ${CONTAINER_ID} 2>/dev/null || true
diff --git a/test/security/data/ecr_scan_allowlist/vllm_server/framework_allowlist.json b/test/security/data/ecr_scan_allowlist/vllm_server/framework_allowlist.json
@@ -91,5 +91,25 @@
         "vulnerability_id": "GHSA-82j2-j2ch-gfr8",
         "reason": "rustls-webpki 0.103.12 bundled in uv binary (Rust). Fix requires rustls-webpki>=0.104.0-alpha.7 (pre-release). Not exploitable — uv only connects to PyPI over TLS, no CRL checking enabled.",
         "review_by": "2026-06-04"
+    },
+    {
+        "vulnerability_id": "CVE-2026-33811",
+        "reason": "go/stdlib 1.24.13 statically linked inside mooncake libetcd_wrapper.so, cannot be patched independently of mooncake-transfer-engine rebuild"
+    },
+    {
+        "vulnerability_id": "CVE-2026-39820",
+        "reason": "go/stdlib 1.24.13 statically linked inside mooncake libetcd_wrapper.so, cannot be patched independently of mooncake-transfer-engine rebuild"
+    },
+    {
+        "vulnerability_id": "CVE-2026-33814",
+        "reason": "go/stdlib 1.24.13 statically linked inside mooncake libetcd_wrapper.so, cannot be patched independently of mooncake-transfer-engine rebuild"
+    },
+    {
+        "vulnerability_id": "CVE-2026-39836",
+        "reason": "go/stdlib 1.24.13 statically linked inside mooncake libetcd_wrapper.so, cannot be patched independently of mooncake-transfer-engine rebuild"
+    },
+    {
+        "vulnerability_id": "CVE-2026-42499",
+        "reason": "go/stdlib 1.24.13 statically linked inside mooncake libetcd_wrapper.so, cannot be patched independently of mooncake-transfer-engine rebuild"
     }
 ]