[ci] add Qwen3.5 Dense/MoE models accuracy validation for atom-plugined sglang

wanzhenchn · wanzhenchn · commit 82c84439adb9 · 2026-05-07T10:06:39.000+08:00
diff --git a/.github/benchmark/sglang_models_accuracy.json b/.github/benchmark/sglang_models_accuracy.json
@@ -10,5 +10,41 @@
     "accuracy_baseline": null,
     "accuracy_baseline_model": "deepseek-ai/DeepSeek-R1-0528",
     "_baseline_note": "Threshold aligned with the SGLANG accuracy validation workflow target for gsm8k."
+  },
+  {
+    "model_name": "Qwen3.5-35B-A3B-FP8 TP2",
+    "model_path": "Qwen/Qwen3.5-35B-A3B-FP8",
+    "extraArgs": "--tensor-parallel-size 2",
+    "env_vars": "",
+    "runner": "linux-atom-mi35x-4",
+    "test_level": "nightly",
+    "accuracy_threshold": 0.89,
+    "accuracy_baseline": null,
+    "accuracy_baseline_model": "Qwen/Qwen3.5-35B-A3B-FP8",
+    "_baseline_note": "Threshold aligned with the SGLANG accuracy validation workflow target for gsm8k."
+  },
+  {
+    "model_name": "Qwen3.5-27B-FP8 TP2",
+    "model_path": "Qwen/Qwen3.5-27B-FP8",
+    "extraArgs": "--tensor-parallel-size 2",
+    "env_vars": "",
+    "runner": "linux-atom-mi35x-4",
+    "test_level": "nightly",
+    "accuracy_threshold": 0.88,
+    "accuracy_baseline": null,
+    "accuracy_baseline_model": "Qwen/Qwen3.5-27B-FP8",
+    "_baseline_note": "Threshold aligned with the SGLANG accuracy validation workflow target for gsm8k."
+  },
+  {
+    "model_name": "Qwen3.5-35B-A3B TP2",
+    "model_path": "Qwen/Qwen3.5-35B-A3B",
+    "extraArgs": "--tensor-parallel-size 2",
+    "env_vars": "",
+    "runner": "linux-atom-mi35x-4",
+    "test_level": "nightly",
+    "accuracy_threshold": 0.95,
+    "accuracy_baseline": null,
+    "accuracy_baseline_model": "Qwen/Qwen3.5-35B-A3B",
+    "_baseline_note": "Threshold aligned with the SGLANG accuracy validation workflow target for gsm8k."
   }
 ]
diff --git a/.github/workflows/atom-sglang-accuracy-validation.yaml b/.github/workflows/atom-sglang-accuracy-validation.yaml
@@ -14,6 +14,21 @@ on:
         required: false
         type: boolean
         default: false
+      run_qwen35_35b_a3b_fp8_tp2:
+        description: "Qwen3.5-35B-A3B-FP8 TP2"
+        required: false
+        type: boolean
+        default: false
+      run_qwen35_27b_fp8_tp2:
+        description: "Qwen3.5-27B-FP8 TP2"
+        required: false
+        type: boolean
+        default: false
+      run_qwen35_35b_a3b_tp2:
+        description: "Qwen3.5-35B-A3B TP2"
+        required: false
+        type: boolean
+        default: false
       upload_accuracy_to_dashboard:
         description: "Optional: upload SGLANG accuracy results to dashboard after this manual run"
         required: false
@@ -55,6 +70,9 @@ jobs:
         id: meta
         env:
           RUN_DSR1_FP8_TP4: ${{ inputs.run_dsr1_fp8_tp4 }}
+          RUN_QWEN35_35B_A3B_FP8_TP2: ${{ inputs.run_qwen35_35b_a3b_fp8_tp2 }}
+          RUN_QWEN35_27B_FP8_TP2: ${{ inputs.run_qwen35_27b_fp8_tp2 }}
+          RUN_QWEN35_35B_A3B_TP2: ${{ inputs.run_qwen35_35b_a3b_tp2 }}
         run: |
           set -euo pipefail
 
@@ -76,6 +94,33 @@ jobs:
                   "env_vars": "AITER_QUICK_REDUCE_QUANTIZATION=INT4\nSGLANG_AITER_FP8_PREFILL_ATTN=0\nSGLANG_USE_AITER=1\nATOM_ENABLE_DS_QKNORM_QUANT_FUSION=1",
                   "runner": "linux-atom-mi35x-4",
               },
+              {
+                  "toggle_env": "RUN_QWEN35_35B_A3B_FP8_TP2",
+                  "model_name": "Qwen3.5-35B-A3B-FP8 TP2",
+                  "model_path": "Qwen/Qwen3.5-35B-A3B-FP8",
+                  "extra_args": "--tensor-parallel-size 2",
+                  "accuracy_test_threshold": 0.89,
+                  "env_vars": "",
+                  "runner": "linux-atom-mi35x-4",
+              },
+              {
+                  "toggle_env": "RUN_QWEN35_27B_FP8_TP2",
+                  "model_name": "Qwen3.5-27B-FP8 TP2",
+                  "model_path": "Qwen/Qwen3.5-27B-FP8",
+                  "extra_args": "--tensor-parallel-size 2",
+                  "accuracy_test_threshold": 0.88,
+                  "env_vars": "",
+                  "runner": "linux-atom-mi35x-4",
+              },
+              {
+                  "toggle_env": "RUN_QWEN35_35B_A3B_TP2",
+                  "model_name": "Qwen3.5-35B-A3B TP2",
+                  "model_path": "Qwen/Qwen3.5-35B-A3B",
+                  "extra_args": "--tensor-parallel-size 2",
+                  "accuracy_test_threshold": 0.95,
+                  "env_vars": "",
+                  "runner": "linux-atom-mi35x-4",
+              },
           ]
 
           selected = []
diff --git a/.github/workflows/atom-sglang-test.yaml b/.github/workflows/atom-sglang-test.yaml
@@ -127,6 +127,24 @@ jobs:
               ATOM_ENABLE_DS_QKNORM_QUANT_FUSION=1
             accuracy_test_threshold: 0.92
             runner: linux-atom-mi35x-4
+          - model_name: "Qwen3.5-35B-A3B-FP8 TP2"
+            model_path: "Qwen/Qwen3.5-35B-A3B-FP8"
+            extra_args: "--tensor-parallel-size 2"
+            env_vars: ""
+            accuracy_test_threshold: 0.89
+            runner: linux-atom-mi35x-4
+          - model_name: "Qwen3.5-27B-FP8 TP2"
+            model_path: "Qwen/Qwen3.5-27B-FP8"
+            extra_args: "--tensor-parallel-size 2"
+            env_vars: ""
+            accuracy_test_threshold: 0.88
+            runner: linux-atom-mi35x-4
+          - model_name: "Qwen3.5-35B-A3B TP2"
+            model_path: "Qwen/Qwen3.5-35B-A3B"
+            extra_args: "--tensor-parallel-size 2"
+            env_vars: ""
+            accuracy_test_threshold: 0.95
+            runner: linux-atom-mi35x-4
     runs-on: ${{ matrix.runner }}
     timeout-minutes: 180
     env: