stop vllm to stdout after it stops pt 2

cquil11 · cquil11 · commit 07fc926c3d5c · 2025-11-12T15:41:45.000-06:00
diff --git a/benchmarks/gptoss_fp4_h100_docker.sh b/benchmarks/gptoss_fp4_h100_docker.sh
@@ -29,18 +29,16 @@ vllm serve $MODEL --host=0.0.0.0 --port=$PORT \
 --gpu-memory-utilization=0.9 \
 --tensor-parallel-size=$TP \
 --max-num-seqs=$CONC  \
---disable-log-requests &
+--disable-log-requests 2>&1 | tee $(mktemp /tmp/server-XXXXXX.log) &
 
-SERVER_PID=$!
+VLLM_PID=$!
 set +x
-tail -f /tmp/vllm_server.log &
-TAIL_PID=$!
 
 until curl --output /dev/null --silent --fail http://localhost:$PORT/health; do
     sleep 5
 done
 
-kill $TAIL_PID 2>/dev/null
+pkill -P $$ tee 2>/dev/null
 
 pip install -q datasets pandas
 git clone https://github.com/kimbochen/bench_serving.git