cleaning up mi355x

cquil11 · cquil11 · commit 1d92a4765575 · 2026-01-14T18:06:28.000-06:00
diff --git a/benchmarks/gptoss_fp4_mi355x_docker.sh b/benchmarks/gptoss_fp4_mi355x_docker.sh
@@ -22,6 +22,8 @@ export VLLM_USE_AITER_UNIFIED_ATTENTION=1
 export VLLM_ROCM_USE_AITER_MHA=0
 export VLLM_ROCM_USE_AITER_FUSED_MOE_A16W4=1
 
+SERVER_LOG=$(mktemp /tmp/server-XXXXXX.log)
+
 set -x
 vllm serve $MODEL --port $PORT \
 --tensor-parallel-size=$TP \
@@ -32,18 +34,20 @@ vllm serve $MODEL --port $PORT \
 --block-size=64 \
 --no-enable-prefix-caching \
 --disable-log-requests \
---async-scheduling | tee $(mktemp /tmp/server-XXXXXX.log) &
+--async-scheduling > $SERVER_LOG 2>&1 &
 
-# Show server logs til' it is up, then stop showing
+# Show logs until server is ready
+tail -f $SERVER_LOG &
+TAIL_PID=$!
 set +x
-until curl --output /dev/null --silent --fail http://localhost:$PORT/health; do
+until curl --output /dev/null --silent --fail http://0.0.0.0:$PORT/health; do
     sleep 5
 done
-pkill -P $$ tee 2>/dev/null
+kill $TAIL_PID
 
+set -x
 BENCH_SERVING_DIR=$(mktemp -d /tmp/bmk-XXXXXX)
 git clone https://github.com/kimbochen/bench_serving.git $BENCH_SERVING_DIR
-set -x
 python3 $BENCH_SERVING_DIR/benchmark_serving.py \
 --model=$MODEL --backend=vllm --base-url="http://localhost:$PORT" \
 --dataset-name=random \
diff --git a/runners/launch_mi355x-amd.sh b/runners/launch_mi355x-amd.sh
@@ -17,11 +17,7 @@
 HF_HUB_CACHE_MOUNT="/nfsdata/hf_hub_cache-1/"  # Temp solution
 PORT=8888
 
-# network_name="bmk-net"
 server_name="bmk-server"
-# client_name="bmk-client"
-
-# docker network create $network_name
 
 set -x
 docker run --rm --ipc=host --shm-size=16g --network=host --name=$server_name \
@@ -35,50 +31,7 @@ docker run --rm --ipc=host --shm-size=16g --network=host --name=$server_name \
 $IMAGE \
 benchmarks/"${EXP_NAME%%_*}_${PRECISION}_mi355x_docker.sh"
 
-# set +x
-# while IFS= read -r line; do
-#     printf '%s\n' "$line"
-#     if [[ "$line" =~ Application\ startup\ complete ]]; then
-#         break
-#     fi
-# done < <(docker logs -f --tail=0 $server_name 2>&1)
-
-# if [[ "$MODEL" == "amd/DeepSeek-R1-0528-MXFP4-Preview" || "$MODEL" == "deepseek-ai/DeepSeek-R1-0528" ]]; then
-#   if [[ "$OSL" == "8192" ]]; then
-#     NUM_PROMPTS=$(( CONC * 20 ))
-#   else
-#     NUM_PROMPTS=$(( CONC * 50 ))
-#   fi
-# else
-#   NUM_PROMPTS=$(( CONC * 10 ))
-# fi
-
-# git clone https://github.com/kimbochen/bench_serving.git
-
-# set -x
-# docker run --rm --network=$network_name --name=$client_name \
-# -v $GITHUB_WORKSPACE:/workspace/ -w /workspace/ \
-# -e HF_TOKEN -e PYTHONPYCACHEPREFIX=/tmp/pycache/ \
-# --entrypoint=python3 \
-# $IMAGE \
-# bench_serving/benchmark_serving.py \
-# --model=$MODEL --backend=vllm --base-url="http://$server_name:$PORT" \
-# --dataset-name=random \
-# --random-input-len=$ISL --random-output-len=$OSL --random-range-ratio=$RANDOM_RANGE_RATIO \
-# --num-prompts=$NUM_PROMPTS \
-# --max-concurrency=$CONC \
-# --request-rate=inf --ignore-eos \
-# --save-result --percentile-metrics="ttft,tpot,itl,e2el" \
-# --result-dir=/workspace/ --result-filename=$RESULT_FILENAME.json
-
 if ls gpucore.* 1> /dev/null 2>&1; then
   echo "gpucore files exist. not good"
   rm -f gpucore.*
 fi
-
-
-# while [ -n "$(docker ps -aq)" ]; do
-#     docker stop $server_name
-#     # docker network rm $network_name
-#     sleep 5
-# done