[ci][benchmark] add Qwen3.5-397B-A13B-FP8 TP4/TP8 benchmark case on MI35X

wanzhenchn · wanzhenchn · commit cff05ee8b2e6 · 2026-05-12T11:00:09.000+08:00
diff --git a/.github/benchmark/sglang_benchmark_models.json b/.github/benchmark/sglang_benchmark_models.json
@@ -51,5 +51,27 @@
   "bench_args": "",
   "runner": "atom-mi355-8gpu-oot-benchmark",
   "env_vars": "AITER_QUICK_REDUCE_QUANTIZATION=INT4\nSGLANG_AITER_FP8_PREFILL_ATTN=0\nSGLANG_USE_AITER=1\nATOM_ENABLE_DS_QKNORM_QUANT_FUSION=1"
+  },
+  {
+    "display": "Qwen3.5-397B-A17B-FP8 TP4",
+    "dashboard_model": "Qwen3.5-397B-A17B-FP8-tp4",
+    "source_path": "Qwen/Qwen3.5-397B-A17B-FP8",
+    "path": "Qwen/Qwen3.5-397B-A17B-FP8",
+    "prefix": "qwen3-5-397b-a17b-fp8-tp4",
+    "extra_args": "--trust-remote-code --tensor-parallel-size 4",
+    "bench_args": "",
+    "runner": "atom-mi355-8gpu-oot-benchmark",
+    "env_vars": ""
+  },
+  {
+    "display": "Qwen3.5-397B-A17B-FP8 TP8",
+    "dashboard_model": "Qwen3.5-397B-A17B-FP8",
+    "source_path": "Qwen/Qwen3.5-397B-A17B-FP8",
+    "path": "Qwen/Qwen3.5-397B-A17B-FP8",
+    "prefix": "qwen3-5-397b-a17b-fp8-tp8",
+    "extra_args": "--trust-remote-code --tensor-parallel-size 8",
+    "bench_args": "",
+    "runner": "atom-mi355-8gpu-oot-benchmark",
+    "env_vars": ""
   }
 ]
diff --git a/.github/workflows/atom-sglang-benchmark.yaml b/.github/workflows/atom-sglang-benchmark.yaml
@@ -27,6 +27,14 @@ on:
         description: "DeepSeek-R1-0528-MXFP4 FP4 TP8 EP8"
         type: boolean
         default: false
+      qwen3-5-397b-a17b-fp8-tp4:
+        description: "Qwen3.5-397B-A17B-FP8 TP4"
+        type: boolean
+        default: false
+      qwen3-5-397b-a17b-fp8-tp8:
+        description: "Qwen3.5-397B-A17B-FP8 TP8"
+        type: boolean
+        default: false
       sglang_image:
         description: "Optional SGLang benchmark image override. Leave empty to use sglang-latest on main or rebuild from the selected non-main branch."
         type: string
@@ -217,6 +225,8 @@ jobs:
           ENABLE_DEEPSEEK_R1_FP4_TP8: ${{ inputs.deepseek-r1-fp4-tp8 }}
           ENABLE_DEEPSEEK_R1_FP4_TP4: ${{ inputs.deepseek-r1-fp4-tp4 }}
           ENABLE_DEEPSEEK_R1_FP4_TP8_EP8: ${{ inputs.deepseek-r1-fp4-tp8-ep8 }}
+          ENABLE_QWEN3_5_397B_A17B_FP8_TP4: ${{ inputs.qwen3-5-397b-a17b-fp8-tp4 }}
+          ENABLE_QWEN3_5_397B_A17B_FP8_TP8: ${{ inputs.qwen3-5-397b-a17b-fp8-tp8 }}
         run: |
           MODELS_JSON="$(jq -c '
             map(select(
@@ -225,6 +235,8 @@ jobs:
               or (.prefix == "deepseek-r1-fp4-tp8" and env.ENABLE_DEEPSEEK_R1_FP4_TP8 == "true")
               or (.prefix == "deepseek-r1-fp4-tp4" and env.ENABLE_DEEPSEEK_R1_FP4_TP4 == "true")
               or (.prefix == "deepseek-r1-fp4-tp8-ep8" and env.ENABLE_DEEPSEEK_R1_FP4_TP8_EP8 == "true")
+              or (.prefix == "qwen3-5-397b-a17b-fp8-tp4" and env.ENABLE_QWEN3_5_397B_A17B_FP8_TP4 == "true")
+              or (.prefix == "qwen3-5-397b-a17b-fp8-tp8" and env.ENABLE_QWEN3_5_397B_A17B_FP8_TP8 == "true")
             ))
           ' .github/benchmark/sglang_benchmark_models.json)"
           echo "models_json=${MODELS_JSON}" >> "$GITHUB_OUTPUT"
@@ -475,6 +487,8 @@ jobs:
             deepseek-r1-fp4-tp8) echo "enabled=${{ inputs.deepseek-r1-fp4-tp8 }}" >> "$GITHUB_OUTPUT" ;;
             deepseek-r1-fp4-tp4) echo "enabled=${{ inputs.deepseek-r1-fp4-tp4 }}" >> "$GITHUB_OUTPUT" ;;
             deepseek-r1-fp4-tp8-ep8) echo "enabled=${{ inputs.deepseek-r1-fp4-tp8-ep8 }}" >> "$GITHUB_OUTPUT" ;;
+            qwen3-5-397b-a17b-fp8-tp4) echo "enabled=${{ inputs.qwen3-5-397b-a17b-fp8-tp4 }}" >> "$GITHUB_OUTPUT" ;;
+            qwen3-5-397b-a17b-fp8-tp8) echo "enabled=${{ inputs.qwen3-5-397b-a17b-fp8-tp8 }}" >> "$GITHUB_OUTPUT" ;;
             *) echo "enabled=true" >> "$GITHUB_OUTPUT" ;;
           esac