SemiAnalysisAI
diff --git a/‎benchmarks/benchmark_lib.sh‎
Lines changed: 143 additions & 0 deletions b/‎benchmarks/benchmark_lib.sh‎
Lines changed: 143 additions & 0 deletions
diff --git a/‎benchmarks/dsr1_fp4_b200_docker.sh‎
Lines changed: 15 additions & 11 deletions b/‎benchmarks/dsr1_fp4_b200_docker.sh‎
Lines changed: 15 additions & 11 deletions
diff --git a/‎benchmarks/dsr1_fp4_b200_trt_slurm.sh‎
Lines changed: 14 additions & 12 deletions b/‎benchmarks/dsr1_fp4_b200_trt_slurm.sh‎
Lines changed: 14 additions & 12 deletions
diff --git a/‎benchmarks/dsr1_fp4_mi355x_docker.sh‎
Lines changed: 14 additions & 11 deletions b/‎benchmarks/dsr1_fp4_mi355x_docker.sh‎
Lines changed: 14 additions & 11 deletions
diff --git a/‎benchmarks/dsr1_fp4_mi355x_slurm.sh‎
Lines changed: 14 additions & 11 deletions b/‎benchmarks/dsr1_fp4_mi355x_slurm.sh‎
Lines changed: 14 additions & 11 deletions
diff --git a/‎benchmarks/dsr1_fp8_b200_docker.sh‎
Lines changed: 15 additions & 11 deletions b/‎benchmarks/dsr1_fp8_b200_docker.sh‎
Lines changed: 15 additions & 11 deletions
diff --git a/‎benchmarks/dsr1_fp8_b200_trt_slurm.sh‎
Lines changed: 14 additions & 12 deletions b/‎benchmarks/dsr1_fp8_b200_trt_slurm.sh‎
Lines changed: 14 additions & 12 deletions
diff --git a/‎benchmarks/dsr1_fp8_h200_slurm.sh‎
Lines changed: 14 additions & 12 deletions b/‎benchmarks/dsr1_fp8_h200_slurm.sh‎
Lines changed: 14 additions & 12 deletions
diff --git a/‎benchmarks/dsr1_fp8_h200_trt_slurm.sh‎
Lines changed: 14 additions & 12 deletions b/‎benchmarks/dsr1_fp8_h200_trt_slurm.sh‎
Lines changed: 14 additions & 12 deletions
@@ -0,0 +1,143 @@
+#!/usr/bin/env bash
+
+# Shared benchmarking utilities for InferenceMAX
+
+# Run benchmark serving with standardized parameters
+# All parameters are required
+# Parameters:
+#   --model: Model name
+#   --port: Server port
+#   --backend: Backend type - 'vllm' or 'openai'
+#   --input-len: Random input sequence length
+#   --output-len: Random output sequence length
+#   --random-range-ratio: Random range ratio
+#   --num-prompts: Number of prompts
+#   --max-concurrency: Max concurrency
+#   --result-filename: Result filename without extension
+#   --result-dir: Result directory
+run_benchmark_serving() {
+    local model=""
+    local port=""
+    local backend=""
+    local input_len=""
+    local output_len=""
+    local random_range_ratio=""
+    local num_prompts=""
+    local max_concurrency=""
+    local result_filename=""
+    local result_dir=""
+
+    # Parse arguments
+    while [[ $# -gt 0 ]]; do
+        case $1 in
+            --model)
+                model="$2"
+                shift 2
+                ;;
+            --port)
+                port="$2"
+                shift 2
+                ;;
+            --backend)
+                backend="$2"
+                shift 2
+                ;;
+            --input-len)
+                input_len="$2"
+                shift 2
+                ;;
+            --output-len)
+                output_len="$2"
+                shift 2
+                ;;
+            --random-range-ratio)
+                random_range_ratio="$2"
+                shift 2
+                ;;
+            --num-prompts)
+                num_prompts="$2"
+                shift 2
+                ;;
+            --max-concurrency)
+                max_concurrency="$2"
+                shift 2
+                ;;
+            --result-filename)
+                result_filename="$2"
+                shift 2
+                ;;
+            --result-dir)
+                result_dir="$2"
+                shift 2
+                ;;
+            *)
+                echo "Unknown parameter: $1"
+                return 1
+                ;;
+        esac
+    done
+
+    # Validate all required parameters
+    if [[ -z "$model" ]]; then
+        echo "Error: --model is required"
+        return 1
+    fi
+    if [[ -z "$port" ]]; then
+        echo "Error: --port is required"
+        return 1
+    fi
+    if [[ -z "$backend" ]]; then
+        echo "Error: --backend is required"
+        return 1
+    fi
+    if [[ -z "$input_len" ]]; then
+        echo "Error: --input-len is required"
+        return 1
+    fi
+    if [[ -z "$output_len" ]]; then
+        echo "Error: --output-len is required"
+        return 1
+    fi
+    if [[ -z "$random_range_ratio" ]]; then
+        echo "Error: --random-range-ratio is required"
+        return 1
+    fi
+    if [[ -z "$num_prompts" ]]; then
+        echo "Error: --num-prompts is required"
+        return 1
+    fi
+    if [[ -z "$max_concurrency" ]]; then
+        echo "Error: --max-concurrency is required"
+        return 1
+    fi
+    if [[ -z "$result_filename" ]]; then
+        echo "Error: --result-filename is required"
+        return 1
+    fi
+    if [[ -z "$result_dir" ]]; then
+        echo "Error: --result-dir is required"
+        return 1
+    fi
+
+    # Clone benchmark serving repo
+    local BENCH_SERVING_DIR=$(mktemp -d /tmp/bmk-XXXXXX)
+    git clone https://github.com/kimbochen/bench_serving.git "$BENCH_SERVING_DIR"
+
+    # Run benchmark
+    python3 "$BENCH_SERVING_DIR/benchmark_serving.py" \
+        --model "$model" \
+        --backend "$backend" \
+        --base-url "http://0.0.0.0:$port" \
+        --dataset-name random \
+        --random-input-len "$input_len" \
+        --random-output-len "$output_len" \
+        --random-range-ratio "$random_range_ratio" \
+        --num-prompts "$num_prompts" \
+        --max-concurrency "$max_concurrency" \
+        --request-rate inf \
+        --ignore-eos \
+        --save-result \
+        --percentile-metrics 'ttft,tpot,itl,e2el' \
+        --result-dir "$result_dir" \
+        --result-filename "$result_filename.json"
+}
@@ -36,16 +36,20 @@ done
 kill $TAIL_PID
 
 pip install -q datasets pandas
+
+# Source benchmark utilities
+source "$(dirname "$0")/benchmark_lib.sh"
+
 set -x
-BENCH_SERVING_DIR=$(mktemp -d /tmp/bmk-XXXXXX)
-git clone https://github.com/kimbochen/bench_serving.git $BENCH_SERVING_DIR
-python3 $BENCH_SERVING_DIR/benchmark_serving.py \
---model $MODEL  --backend vllm --base-url http://localhost:$PORT \
---dataset-name random \
---random-input-len $ISL --random-output-len $OSL --random-range-ratio $RANDOM_RANGE_RATIO \
---num-prompts $NUM_PROMPTS \
---max-concurrency $CONC \
---request-rate inf --ignore-eos \
---save-result --percentile-metrics 'ttft,tpot,itl,e2el' \
---result-dir /workspace/ --result-filename $RESULT_FILENAME.json
+run_benchmark_serving \
+    --model "$MODEL" \
+    --port "$PORT" \
+    --backend vllm \
+    --input-len "$ISL" \
+    --output-len "$OSL" \
+    --random-range-ratio "$RANDOM_RANGE_RATIO" \
+    --num-prompts "$NUM_PROMPTS" \
+    --max-concurrency "$CONC" \
+    --result-filename "$RESULT_FILENAME" \
+    --result-dir /workspace/
 
@@ -110,16 +110,18 @@ until curl --output /dev/null --silent --fail http://0.0.0.0:$PORT/health; do
 done
 kill $TAIL_PID
 
+# Source benchmark utilities
+source "$(dirname "$0")/benchmark_lib.sh"
+
 set -x
-BENCH_SERVING_DIR=$(mktemp -d /tmp/bmk-XXXXXX)
-git clone https://github.com/kimbochen/bench_serving.git $BENCH_SERVING_DIR
-python3 $BENCH_SERVING_DIR/benchmark_serving.py \
---model $MODEL --backend openai \
---base-url http://0.0.0.0:$PORT \
---dataset-name random \
---random-input-len $ISL --random-output-len $OSL --random-range-ratio $RANDOM_RANGE_RATIO \
---num-prompts $(( $CONC * 10 )) --max-concurrency $CONC \
---request-rate inf --ignore-eos \
---save-result --percentile-metrics 'ttft,tpot,itl,e2el' \
---result-dir /workspace/ \
---result-filename $RESULT_FILENAME.json
+run_benchmark_serving \
+    --model "$MODEL" \
+    --port "$PORT" \
+    --backend openai \
+    --input-len "$ISL" \
+    --output-len "$OSL" \
+    --random-range-ratio "$RANDOM_RANGE_RATIO" \
+    --num-prompts $(( $CONC * 10 )) \
+    --max-concurrency "$CONC" \
+    --result-filename "$RESULT_FILENAME" \
+    --result-dir /workspace/
@@ -40,17 +40,20 @@ until curl --output /dev/null --silent --fail http://0.0.0.0:$PORT/health; do
 done
 kill $TAIL_PID
 
+# Source benchmark utilities
+source "$(dirname "$0")/benchmark_lib.sh"
+
 set -x
-BENCH_SERVING_DIR=$(mktemp -d /tmp/bmk-XXXXXX)
-git clone https://github.com/kimbochen/bench_serving.git $BENCH_SERVING_DIR
-python3 $BENCH_SERVING_DIR/benchmark_serving.py \
---model=$MODEL --backend=vllm --base-url="http://localhost:$PORT" \
---dataset-name=random \
---random-input-len=$ISL --random-output-len=$OSL --random-range-ratio=$RANDOM_RANGE_RATIO \
---num-prompts=$NUM_PROMPTS \
---max-concurrency=$CONC \
---request-rate=inf --ignore-eos \
---save-result --percentile-metrics="ttft,tpot,itl,e2el" \
---result-dir=/workspace/ --result-filename=$RESULT_FILENAME.json
+run_benchmark_serving \
+    --model "$MODEL" \
+    --port "$PORT" \
+    --backend vllm \
+    --input-len "$ISL" \
+    --output-len "$OSL" \
+    --random-range-ratio "$RANDOM_RANGE_RATIO" \
+    --num-prompts "$NUM_PROMPTS" \
+    --max-concurrency "$CONC" \
+    --result-filename "$RESULT_FILENAME" \
+    --result-dir /workspace/
 
 
@@ -43,16 +43,19 @@ until curl --output /dev/null --silent --fail http://0.0.0.0:$PORT/health; do
 done
 kill $TAIL_PID
 
+# Source benchmark utilities
+source "$(dirname "$0")/benchmark_lib.sh"
+
 set -x
-BENCH_SERVING_DIR=$(mktemp -d /tmp/bmk-XXXXXX)
-git clone https://github.com/kimbochen/bench_serving.git $BENCH_SERVING_DIR
-python3 $BENCH_SERVING_DIR/benchmark_serving.py \
---model $MODEL --backend vllm \
---base-url "http://0.0.0.0:$PORT" \
---dataset-name random \
---random-input-len $ISL --random-output-len $OSL --random-range-ratio $RANDOM_RANGE_RATIO \
---num-prompts $(( $CONC * 10 )) --max-concurrency $CONC \
---request-rate inf --ignore-eos \
---save-result --percentile-metrics "ttft,tpot,itl,e2el" \
---result-dir /workspace/ --result-filename $RESULT_FILENAME.json
+run_benchmark_serving \
+    --model "$MODEL" \
+    --port "$PORT" \
+    --backend vllm \
+    --input-len "$ISL" \
+    --output-len "$OSL" \
+    --random-range-ratio "$RANDOM_RANGE_RATIO" \
+    --num-prompts $(( $CONC * 10 )) \
+    --max-concurrency "$CONC" \
+    --result-filename "$RESULT_FILENAME" \
+    --result-dir /workspace/
 
@@ -47,15 +47,19 @@ done
 kill $TAIL_PID
 
 pip install -q datasets pandas
+
+# Source benchmark utilities
+source "$(dirname "$0")/benchmark_lib.sh"
+
 set -x
-BENCH_SERVING_DIR=$(mktemp -d /tmp/bmk-XXXXXX)
-git clone https://github.com/kimbochen/bench_serving.git $BENCH_SERVING_DIR
-python3 $BENCH_SERVING_DIR/benchmark_serving.py \
---model $MODEL  --backend vllm --base-url http://localhost:$PORT \
---dataset-name random \
---random-input-len $ISL --random-output-len $OSL --random-range-ratio $RANDOM_RANGE_RATIO \
---num-prompts $NUM_PROMPTS \
---max-concurrency $CONC \
---request-rate inf --ignore-eos \
---save-result --percentile-metrics 'ttft,tpot,itl,e2el' \
---result-dir /workspace/ --result-filename $RESULT_FILENAME.json
+run_benchmark_serving \
+    --model "$MODEL" \
+    --port "$PORT" \
+    --backend vllm \
+    --input-len "$ISL" \
+    --output-len "$OSL" \
+    --random-range-ratio "$RANDOM_RANGE_RATIO" \
+    --num-prompts "$NUM_PROMPTS" \
+    --max-concurrency "$CONC" \
+    --result-filename "$RESULT_FILENAME" \
+    --result-dir /workspace/
@@ -81,16 +81,18 @@ until curl --output /dev/null --silent --fail http://0.0.0.0:$PORT/health; do
 done
 kill $TAIL_PID
 
+# Source benchmark utilities
+source "$(dirname "$0")/benchmark_lib.sh"
+
 set -x
-BENCH_SERVING_DIR=$(mktemp -d /tmp/bmk-XXXXXX)
-git clone https://github.com/kimbochen/bench_serving.git $BENCH_SERVING_DIR
-python3 $BENCH_SERVING_DIR/benchmark_serving.py \
---model $MODEL --backend openai \
---base-url http://0.0.0.0:$PORT \
---dataset-name random \
---random-input-len $ISL --random-output-len $OSL --random-range-ratio $RANDOM_RANGE_RATIO \
---num-prompts $(( $CONC * 10 )) --max-concurrency $CONC \
---request-rate inf --ignore-eos \
---save-result --percentile-metrics 'ttft,tpot,itl,e2el' \
---result-dir /workspace/ \
---result-filename $RESULT_FILENAME.json
+run_benchmark_serving \
+    --model "$MODEL" \
+    --port "$PORT" \
+    --backend openai \
+    --input-len "$ISL" \
+    --output-len "$OSL" \
+    --random-range-ratio "$RANDOM_RANGE_RATIO" \
+    --num-prompts $(( $CONC * 10 )) \
+    --max-concurrency "$CONC" \
+    --result-filename "$RESULT_FILENAME" \
+    --result-dir /workspace/
@@ -53,16 +53,18 @@ until curl --output /dev/null --silent --fail http://0.0.0.0:$PORT/health; do
 done
 kill $TAIL_PID
 
+# Source benchmark utilities
+source "$(dirname "$0")/benchmark_lib.sh"
+
 set -x
-BENCH_SERVING_DIR=$(mktemp -d /tmp/bmk-XXXXXX)
-git clone https://github.com/kimbochen/bench_serving.git $BENCH_SERVING_DIR
-python3 $BENCH_SERVING_DIR/benchmark_serving.py \
---model $MODEL --backend vllm \
---base-url http://0.0.0.0:$PORT \
---dataset-name random \
---random-input-len $ISL --random-output-len $OSL --random-range-ratio $RANDOM_RANGE_RATIO \
---num-prompts $(( $CONC * 10 )) --max-concurrency $CONC \
---request-rate inf --ignore-eos \
---save-result --percentile-metrics 'ttft,tpot,itl,e2el' \
---result-dir /workspace/ \
---result-filename $RESULT_FILENAME.json
+run_benchmark_serving \
+    --model "$MODEL" \
+    --port "$PORT" \
+    --backend vllm \
+    --input-len "$ISL" \
+    --output-len "$OSL" \
+    --random-range-ratio "$RANDOM_RANGE_RATIO" \
+    --num-prompts $(( $CONC * 10 )) \
+    --max-concurrency "$CONC" \
+    --result-filename "$RESULT_FILENAME" \
+    --result-dir /workspace/
@@ -85,16 +85,18 @@ until curl --output /dev/null --silent --fail http://0.0.0.0:$PORT/health; do
 done
 kill $TAIL_PID
 
+# Source benchmark utilities
+source "$(dirname "$0")/benchmark_lib.sh"
+
 set -x
-BENCH_SERVING_DIR=$(mktemp -d /tmp/bmk-XXXXXX)
-git clone https://github.com/kimbochen/bench_serving.git $BENCH_SERVING_DIR
-python3 $BENCH_SERVING_DIR/benchmark_serving.py \
---model $MODEL --backend openai \
---base-url http://0.0.0.0:$PORT \
---dataset-name random \
---random-input-len $ISL --random-output-len $OSL --random-range-ratio $RANDOM_RANGE_RATIO \
---num-prompts $(( $CONC * 10 )) --max-concurrency $CONC \
---request-rate inf --ignore-eos \
---save-result --percentile-metrics 'ttft,tpot,itl,e2el' \
---result-dir /workspace/ \
---result-filename $RESULT_FILENAME.json
+run_benchmark_serving \
+    --model "$MODEL" \
+    --port "$PORT" \
+    --backend openai \
+    --input-len "$ISL" \
+    --output-len "$OSL" \
+    --random-range-ratio "$RANDOM_RANGE_RATIO" \
+    --num-prompts $(( $CONC * 10 )) \
+    --max-concurrency "$CONC" \
+    --result-filename "$RESULT_FILENAME" \
+    --result-dir /workspace/