SemiAnalysisAI
diff --git a/‎benchmarks/benchmark_lib.sh‎
Lines changed: 68 additions & 0 deletions b/‎benchmarks/benchmark_lib.sh‎
Lines changed: 68 additions & 0 deletions
diff --git a/‎benchmarks/dsr1_fp4_b200_docker.sh‎
Lines changed: 6 additions & 10 deletions b/‎benchmarks/dsr1_fp4_b200_docker.sh‎
Lines changed: 6 additions & 10 deletions
diff --git a/‎benchmarks/dsr1_fp4_b200_trt_slurm.sh‎
Lines changed: 4 additions & 9 deletions b/‎benchmarks/dsr1_fp4_b200_trt_slurm.sh‎
Lines changed: 4 additions & 9 deletions
diff --git a/‎benchmarks/dsr1_fp4_mi355x_docker.sh‎
Lines changed: 4 additions & 8 deletions b/‎benchmarks/dsr1_fp4_mi355x_docker.sh‎
Lines changed: 4 additions & 8 deletions
diff --git a/‎benchmarks/dsr1_fp4_mi355x_slurm.sh‎
Lines changed: 3 additions & 9 deletions b/‎benchmarks/dsr1_fp4_mi355x_slurm.sh‎
Lines changed: 3 additions & 9 deletions
diff --git a/‎benchmarks/dsr1_fp8_b200_docker.sh‎
Lines changed: 6 additions & 10 deletions b/‎benchmarks/dsr1_fp8_b200_docker.sh‎
Lines changed: 6 additions & 10 deletions
diff --git a/‎benchmarks/dsr1_fp8_b200_trt_slurm.sh‎
Lines changed: 3 additions & 9 deletions b/‎benchmarks/dsr1_fp8_b200_trt_slurm.sh‎
Lines changed: 3 additions & 9 deletions
diff --git a/‎benchmarks/dsr1_fp8_h200_slurm.sh‎
Lines changed: 4 additions & 8 deletions b/‎benchmarks/dsr1_fp8_h200_slurm.sh‎
Lines changed: 4 additions & 8 deletions
diff --git a/‎benchmarks/dsr1_fp8_h200_trt_slurm.sh‎
Lines changed: 3 additions & 13 deletions b/‎benchmarks/dsr1_fp8_h200_trt_slurm.sh‎
Lines changed: 3 additions & 13 deletions
diff --git a/‎benchmarks/dsr1_fp8_mi300x_docker.sh‎
Lines changed: 3 additions & 0 deletions b/‎benchmarks/dsr1_fp8_mi300x_docker.sh‎
Lines changed: 3 additions & 0 deletions
@@ -2,6 +2,74 @@
 
 # Shared benchmarking utilities for InferenceMAX
 
+# Wait for server to be ready by polling the health endpoint
+# All parameters are required
+# Parameters:
+#   --port: Server port
+#   --server-log: Path to server log file
+#   --server-pid: Server process ID (required)
+#   --sleep-interval: Sleep interval between health checks (optional, default: 5)
+wait_for_server_ready() {
+    local port=""
+    local server_log=""
+    local server_pid=""
+    local sleep_interval=5
+
+    # Parse arguments
+    while [[ $# -gt 0 ]]; do
+        case $1 in
+            --port)
+                port="$2"
+                shift 2
+                ;;
+            --server-log)
+                server_log="$2"
+                shift 2
+                ;;
+            --server-pid)
+                server_pid="$2"
+                shift 2
+                ;;
+            --sleep-interval)
+                sleep_interval="$2"
+                shift 2
+                ;;
+            *)
+                echo "Unknown parameter: $1"
+                return 1
+                ;;
+        esac
+    done
+
+    # Validate required parameters
+    if [[ -z "$port" ]]; then
+        echo "Error: --port is required"
+        return 1
+    fi
+    if [[ -z "$server_log" ]]; then
+        echo "Error: --server-log is required"
+        return 1
+    fi
+    if [[ -z "$server_pid" ]]; then
+        echo "Error: --server-pid is required"
+        return 1
+    fi
+
+    # Show logs until server is ready
+    tail -f "$server_log" &
+    local TAIL_PID=$!
+    set +x
+    until curl --output /dev/null --silent --fail http://0.0.0.0:$port/health; do
+        if ! kill -0 "$server_pid" 2>/dev/null; then
+            echo "Server died before becoming healthy. Exiting."
+            kill $TAIL_PID
+            exit 1
+        fi
+        sleep "$sleep_interval"
+    done
+    kill $TAIL_PID
+}
+
 # Run benchmark serving with standardized parameters
 # All parameters are required
 # Parameters:
 
@@ -26,20 +26,16 @@ PYTHONNOUSERSITE=1 python3 -m sglang.launch_server --model-path $MODEL --host 0.
 --ep-size $EP_SIZE --quantization modelopt_fp4 --enable-flashinfer-allreduce-fusion --scheduler-recv-interval $SCHEDULER_RECV_INTERVAL \
 --enable-symm-mem --disable-radix-cache --attention-backend trtllm_mla --moe-runner-backend flashinfer_trtllm --stream-interval 10 > $SERVER_LOG 2>&1 &
 
-# Show logs until server is ready
-tail -f $SERVER_LOG &
-TAIL_PID=$!
-set +x
-until curl --output /dev/null --silent --fail http://0.0.0.0:$PORT/health; do
-    sleep 5
-done
-kill $TAIL_PID
-
-pip install -q datasets pandas
+SERVER_PID=$!
 
 # Source benchmark utilities
 source "$(dirname "$0")/benchmark_lib.sh"
 
+# Wait for server to be ready
+wait_for_server_ready --port "$PORT" --server-log "$SERVER_LOG" --server-pid "$SERVER_PID"
+
+pip install -q datasets pandas
+
 set -x
 run_benchmark_serving \
     --model "$MODEL" \
 
@@ -100,19 +100,14 @@ mpirun -n 1 --oversubscribe --allow-run-as-root \
     --extra_llm_api_options=$EXTRA_CONFIG_FILE \
     > $SERVER_LOG 2>&1 &
 
-
-# Show logs until server is ready
-tail -f $SERVER_LOG &
-TAIL_PID=$!
-set +x
-until curl --output /dev/null --silent --fail http://0.0.0.0:$PORT/health; do
-    sleep 5
-done
-kill $TAIL_PID
+SERVER_PID=$!
 
 # Source benchmark utilities
 source "$(dirname "$0")/benchmark_lib.sh"
 
+# Wait for server to be ready
+wait_for_server_ready --port "$PORT" --server-log "$SERVER_LOG" --server-pid "$SERVER_PID"
+
 set -x
 run_benchmark_serving \
     --model "$MODEL" \
 
@@ -31,18 +31,14 @@ python3 -m sglang.launch_server --model-path=$MODEL --trust-remote-code \
 --max-prefill-tokens=$PREFILL_SIZE \
 --cuda-graph-max-bs=128 > $SERVER_LOG 2>&1 &
 
-# Show logs until server is ready
-tail -f $SERVER_LOG &
-TAIL_PID=$!
-set +x
-until curl --output /dev/null --silent --fail http://0.0.0.0:$PORT/health; do
-    sleep 5
-done
-kill $TAIL_PID
+SERVER_PID=$!
 
 # Source benchmark utilities
 source "$(dirname "$0")/benchmark_lib.sh"
 
+# Wait for server to be ready
+wait_for_server_ready --port "$PORT" --server-log "$SERVER_LOG" --server-pid "$SERVER_PID"
+
 set -x
 run_benchmark_serving \
     --model "$MODEL" \
 
@@ -34,18 +34,12 @@ python3 -m sglang.launch_server --model-path=$MODEL --trust-remote-code \
 --cuda-graph-max-bs=128 \
 > $SERVER_LOG 2>&1 &
 
-# Show logs until server is ready
-tail -f $SERVER_LOG &
-TAIL_PID=$!
-set +x
-until curl --output /dev/null --silent --fail http://0.0.0.0:$PORT/health; do
-    sleep 5
-done
-kill $TAIL_PID
-
 # Source benchmark utilities
 source "$(dirname "$0")/benchmark_lib.sh"
 
+# Wait for server to be ready
+wait_for_server_ready --port "$PORT" --server-log "$SERVER_LOG" --server-pid "$SERVER_PID"
+
 set -x
 run_benchmark_serving \
     --model "$MODEL" \
 
@@ -37,20 +37,16 @@ PYTHONNOUSERSITE=1 python3 -m sglang.launch_server --model-path=$MODEL --host=0.
 --enable-flashinfer-allreduce-fusion --scheduler-recv-interval $SCHEDULER_RECV_INTERVAL --disable-radix-cache \
 --attention-backend trtllm_mla --stream-interval 30 --ep-size $EP_SIZE --moe-runner-backend flashinfer_trtllm --quantization fp8 > $SERVER_LOG 2>&1 &
 
-# Show logs until server is ready
-tail -f $SERVER_LOG &
-TAIL_PID=$!
-set +x
-until curl --output /dev/null --silent --fail http://0.0.0.0:$PORT/health; do
-    sleep 5
-done
-kill $TAIL_PID
-
-pip install -q datasets pandas
+SERVER_PID=$!
 
 # Source benchmark utilities
 source "$(dirname "$0")/benchmark_lib.sh"
 
+# Wait for server to be ready
+wait_for_server_ready --port "$PORT" --server-log "$SERVER_LOG" --server-pid "$SERVER_PID"
+
+pip install -q datasets pandas
+
 set -x
 run_benchmark_serving \
     --model "$MODEL" \
 
@@ -72,18 +72,12 @@ mpirun -n 1 --oversubscribe --allow-run-as-root \
 
 SERVER_PID=$!
 
-# Show logs until server is ready
-tail -f $SERVER_LOG &
-TAIL_PID=$!
-set +x
-until curl --output /dev/null --silent --fail http://0.0.0.0:$PORT/health; do
-    sleep 5
-done
-kill $TAIL_PID
-
 # Source benchmark utilities
 source "$(dirname "$0")/benchmark_lib.sh"
 
+# Wait for server to be ready
+wait_for_server_ready --port "$PORT" --server-log "$SERVER_LOG" --server-pid "$SERVER_PID"
+
 set -x
 run_benchmark_serving \
     --model "$MODEL" \
 
@@ -44,18 +44,14 @@ else
     > $SERVER_LOG 2>&1 &
 fi
 
-# Show logs until server is ready
-tail -f $SERVER_LOG &
-TAIL_PID=$!
-set +x
-until curl --output /dev/null --silent --fail http://0.0.0.0:$PORT/health; do
-    sleep 5
-done
-kill $TAIL_PID
+SERVER_PID=$!
 
 # Source benchmark utilities
 source "$(dirname "$0")/benchmark_lib.sh"
 
+# Wait for server to be ready
+wait_for_server_ready --port "$PORT" --server-log "$SERVER_LOG" --server-pid "$SERVER_PID"
+
 set -x
 run_benchmark_serving \
     --model "$MODEL" \
 
@@ -72,22 +72,12 @@ PYTHONNOUSERSITE=1 mpirun -n 1 --oversubscribe --allow-run-as-root \
 
 SERVER_PID=$!
 
-# Show logs until server is ready
-tail -f $SERVER_LOG &
-TAIL_PID=$!
-set +x
-until curl --output /dev/null --silent --fail http://0.0.0.0:$PORT/health; do
-    if ! kill -0 $SERVER_PID 2>/dev/null; then
-        echo "Server died before becoming healthy. Exiting."
-        exit 1
-    fi
-    sleep 5
-done
-kill $TAIL_PID
-
 # Source benchmark utilities
 source "$(dirname "$0")/benchmark_lib.sh"
 
+# Wait for server to be ready
+wait_for_server_ready --port "$PORT" --server-log "$SERVER_LOG" --server-pid "$SERVER_PID"
+
 set -x
 run_benchmark_serving \
     --model "$MODEL" \
 
@@ -50,6 +50,9 @@ kill $TAIL_PID
 # Source benchmark utilities
 source "$(dirname "$0")/benchmark_lib.sh"
 
+# Wait for server to be ready
+wait_for_server_ready --port "$PORT" --server-log "$SERVER_LOG" --server-pid "$SERVER_PID"
+
 set -x
 run_benchmark_serving \
     --model "$MODEL" \