adding mi355x refactor

cquil11 · cquil11 · commit 6b37939dc923 · 2025-11-13T10:58:17.000-06:00
diff --git a/benchmarks/dsr1_fp8_mi355x_docker.sh b/benchmarks/dsr1_fp8_mi355x_docker.sh
@@ -24,5 +24,36 @@ python3 -m sglang.launch_server \
     --mem-fraction-static 0.8 --disable-radix-cache \
     --num-continuous-decode-steps 4 \
     --max-prefill-tokens 196608 \
-    --cuda-graph-max-bs 128
+    --cuda-graph-max-bs 128 | tee $(mktemp /tmp/server-XXXXXX.log) &
+
+set +x
+until curl --output /dev/null --silent --fail http://localhost:$PORT/health; do
+    sleep 5
+done
+pkill -P $$ tee 2>/dev/null
+
+if [[ "$MODEL" == "amd/DeepSeek-R1-0528-MXFP4-Preview" || "$MODEL" == "deepseek-ai/DeepSeek-R1-0528" ]]; then
+  if [[ "$OSL" == "8192" ]]; then
+    NUM_PROMPTS=$(( CONC * 20 ))
+  else
+    NUM_PROMPTS=$(( CONC * 50 ))
+  fi
+else
+  NUM_PROMPTS=$(( CONC * 10 ))
+fi
+
+BENCH_SERVING_DIR=$(mktemp -d /tmp/bmk-XXXXXX)
+git clone https://github.com/kimbochen/bench_serving.git $BENCH_SERVING_DIR
+set -x
+python3 $BENCH_SERVING_DIR/benchmark_serving.py \
+--model=$MODEL --backend=vllm --base-url="http://localhost:$PORT" \
+--dataset-name=random \
+--random-input-len=$ISL --random-output-len=$OSL --random-range-ratio=$RANDOM_RANGE_RATIO \
+--num-prompts=$NUM_PROMPTS \
+--max-concurrency=$CONC \
+--request-rate=inf --ignore-eos \
+--save-result --percentile-metrics="ttft,tpot,itl,e2el" \
+--result-dir=/workspace/ --result-filename=$RESULT_FILENAME.json
+
+
     
diff --git a/benchmarks/gptoss_fp4_h100_docker.sh b/benchmarks/gptoss_fp4_h100_docker.sh
@@ -32,7 +32,6 @@ vllm serve $MODEL --host=0.0.0.0 --port=$PORT \
 --disable-log-requests 2>&1 | tee $(mktemp /tmp/server-XXXXXX.log) &
 
 # Show server logs til' it is up, then stop showing
-VLLM_PID=$!
 set +x
 until curl --output /dev/null --silent --fail http://localhost:$PORT/health; do
     sleep 5
diff --git a/benchmarks/gptoss_fp4_mi355x_docker.sh b/benchmarks/gptoss_fp4_mi355x_docker.sh
@@ -8,6 +8,8 @@
 # TP
 # CONC
 # MAX_MODEL_LEN
+# RANDOM_RANGE_RATIO
+# RESULT_FILENAME
 
 cat > config.yaml << EOF
 compilation-config: '{"compile_sizes":[1,2,4,6,8,10,12,14,16,18,20,22,24,26,28,30,32,34,36,38,40,42,44,46,48,50,52,54,56,58,60,62,64,66,68,70,72,74,76,78,80,82,84,86,88,90,92,94,96,98,100,102,104,106,108,110,112,114,116,118,120,122,124,126,128,256,512,1024,2048,8192] , "cudagraph_capture_sizes":[1,2,4,6,8,10,12,14,16,18,20,22,24,26,28,30,32,34,36,38,40,42,44,46,48,50,52,54,56,58,60,62,64,66,68,70,72,74,76,78,80,82,84,86,88,90,92,94,96,98,100,102,104,106,108,110,112,114,116,118,120,122,124,126,128,136,144,152,160,168,176,184,192,200,208,216,224,232,240,248,256,264,272,280,288,296,304,312,320,328,336,344,352,360,368,376,384,392,400,408,416,424,432,440,448,456,464,472,480,488,496,504,512,520,528,536,544,552,560,568,576,584,592,600,608,616,624,632,640,648,656,664,672,680,688,696,704,712,720,728,736,744,752,760,768,776,784,792,800,808,816,824,832,840,848,856,864,872,880,888,896,904,912,920,928,936,944,952,960,968,976,984,992,1000,1008,1016,1024,2048,4096,8192] , "cudagraph_mode": "FULL_AND_PIECEWISE"}' 
@@ -33,32 +35,16 @@ vllm serve $MODEL --port $PORT \
 --async-scheduling | tee $(mktemp /tmp/server-XXXXXX.log) &
 
 # Show server logs til' it is up, then stop showing
-VLLM_PID=$!
 set +x
 until curl --output /dev/null --silent --fail http://localhost:$PORT/health; do
     sleep 5
 done
 pkill -P $$ tee 2>/dev/null
 
-if [[ "$MODEL" == "amd/DeepSeek-R1-0528-MXFP4-Preview" || "$MODEL" == "deepseek-ai/DeepSeek-R1-0528" ]]; then
-  if [[ "$OSL" == "8192" ]]; then
-    NUM_PROMPTS=$(( CONC * 20 ))
-  else
-    NUM_PROMPTS=$(( CONC * 50 ))
-  fi
-else
-  NUM_PROMPTS=$(( CONC * 10 ))
-fi
-
-git clone https://github.com/kimbochen/bench_serving.git
-
+BENCH_SERVING_DIR=$(mktemp -d /tmp/bmk-XXXXXX)
+git clone https://github.com/kimbochen/bench_serving.git $BENCH_SERVING_DIR
 set -x
-docker run --rm --network=$network_name --name=$client_name \
--v $GITHUB_WORKSPACE:/workspace/ -w /workspace/ \
--e HF_TOKEN -e PYTHONPYCACHEPREFIX=/tmp/pycache/ \
---entrypoint=python3 \
-$IMAGE \
-bench_serving/benchmark_serving.py \
+python3 $BENCH_SERVING_DIR/benchmark_serving.py \
 --model=$MODEL --backend=vllm --base-url="http://localhost:$PORT" \
 --dataset-name=random \
 --random-input-len=$ISL --random-output-len=$OSL --random-range-ratio=$RANDOM_RANGE_RATIO \
diff --git a/runners/launch_mi355x-amd.sh b/runners/launch_mi355x-amd.sh
@@ -24,61 +24,61 @@ server_name="bmk-server"
 # docker network create $network_name
 
 set -x
-docker run --rm -d --ipc=host --shm-size=16g --network=host --name=$server_name \
+docker run --rm --ipc=host --shm-size=16g --network=host --name=$server_name \
 --privileged --cap-add=CAP_SYS_ADMIN --device=/dev/kfd --device=/dev/dri --device=/dev/mem \
 --cap-add=SYS_PTRACE --security-opt seccomp=unconfined \
 -v $HF_HUB_CACHE_MOUNT:$HF_HUB_CACHE \
 -v $GITHUB_WORKSPACE:/workspace/ -w /workspace/ \
 -e HF_TOKEN -e HF_HUB_CACHE -e MODEL -e TP -e CONC -e MAX_MODEL_LEN -e PORT=$PORT \
--e ISL -e OSL \
+-e ISL -e OSL -e PYTHONPYCACHEPREFIX=/tmp/pycache/ -e RANDOM_RANGE_RATIO -e RESULT_FILENAME  \
 --entrypoint=/bin/bash \
 $IMAGE \
 benchmarks/"${EXP_NAME%%_*}_${PRECISION}_mi355x_docker.sh"
 
-set +x
-while IFS= read -r line; do
-    printf '%s\n' "$line"
-    if [[ "$line" =~ Application\ startup\ complete ]]; then
-        break
-    fi
-done < <(docker logs -f --tail=0 $server_name 2>&1)
+# set +x
+# while IFS= read -r line; do
+#     printf '%s\n' "$line"
+#     if [[ "$line" =~ Application\ startup\ complete ]]; then
+#         break
+#     fi
+# done < <(docker logs -f --tail=0 $server_name 2>&1)
 
-if [[ "$MODEL" == "amd/DeepSeek-R1-0528-MXFP4-Preview" || "$MODEL" == "deepseek-ai/DeepSeek-R1-0528" ]]; then
-  if [[ "$OSL" == "8192" ]]; then
-    NUM_PROMPTS=$(( CONC * 20 ))
-  else
-    NUM_PROMPTS=$(( CONC * 50 ))
-  fi
-else
-  NUM_PROMPTS=$(( CONC * 10 ))
-fi
+# if [[ "$MODEL" == "amd/DeepSeek-R1-0528-MXFP4-Preview" || "$MODEL" == "deepseek-ai/DeepSeek-R1-0528" ]]; then
+#   if [[ "$OSL" == "8192" ]]; then
+#     NUM_PROMPTS=$(( CONC * 20 ))
+#   else
+#     NUM_PROMPTS=$(( CONC * 50 ))
+#   fi
+# else
+#   NUM_PROMPTS=$(( CONC * 10 ))
+# fi
 
-git clone https://github.com/kimbochen/bench_serving.git
+# git clone https://github.com/kimbochen/bench_serving.git
 
-set -x
-docker run --rm --network=$network_name --name=$client_name \
--v $GITHUB_WORKSPACE:/workspace/ -w /workspace/ \
--e HF_TOKEN -e PYTHONPYCACHEPREFIX=/tmp/pycache/ \
---entrypoint=python3 \
-$IMAGE \
-bench_serving/benchmark_serving.py \
---model=$MODEL --backend=vllm --base-url="http://$server_name:$PORT" \
---dataset-name=random \
---random-input-len=$ISL --random-output-len=$OSL --random-range-ratio=$RANDOM_RANGE_RATIO \
---num-prompts=$NUM_PROMPTS \
---max-concurrency=$CONC \
---request-rate=inf --ignore-eos \
---save-result --percentile-metrics="ttft,tpot,itl,e2el" \
---result-dir=/workspace/ --result-filename=$RESULT_FILENAME.json
+# set -x
+# docker run --rm --network=$network_name --name=$client_name \
+# -v $GITHUB_WORKSPACE:/workspace/ -w /workspace/ \
+# -e HF_TOKEN -e PYTHONPYCACHEPREFIX=/tmp/pycache/ \
+# --entrypoint=python3 \
+# $IMAGE \
+# bench_serving/benchmark_serving.py \
+# --model=$MODEL --backend=vllm --base-url="http://$server_name:$PORT" \
+# --dataset-name=random \
+# --random-input-len=$ISL --random-output-len=$OSL --random-range-ratio=$RANDOM_RANGE_RATIO \
+# --num-prompts=$NUM_PROMPTS \
+# --max-concurrency=$CONC \
+# --request-rate=inf --ignore-eos \
+# --save-result --percentile-metrics="ttft,tpot,itl,e2el" \
+# --result-dir=/workspace/ --result-filename=$RESULT_FILENAME.json
 
 if ls gpucore.* 1> /dev/null 2>&1; then
   echo "gpucore files exist. not good"
   rm -f gpucore.*
 fi
 
 
-while [ -n "$(docker ps -aq)" ]; do
-    docker stop $server_name
-    docker network rm $network_name
-    sleep 5
-done
+# while [ -n "$(docker ps -aq)" ]; do
+#     docker stop $server_name
+#     # docker network rm $network_name
+#     sleep 5
+# done