add start scripts

shihaobai · shihaobai · commit ef5bade5ce60 · 2025-06-23T20:22:17.000+08:00
diff --git a/test/start_scripts/multi_node_ep_node0.sh b/test/start_scripts/multi_node_ep_node0.sh
@@ -0,0 +1,16 @@
+# H200 multi node deepseek R1 ep mode node 0
+# nccl_host: the ip of the nccl host
+# sh multi_node_ep_node0.sh <nccl_host>
+export nccl_host=$1
+MOE_MODE=EP LOADWORKER=18 python -m lightllm.server.api_server --port 8088 \
+--model_dir /path/DeepSeek-R1 \
+--tp 16 \
+--dp 16 \
+--enable_fa3 \
+--nnodes 2 \
+--node_rank 0 \
+--nccl_host $nccl_host \
+--nccl_port 2732 
+# if you want to enable microbatch overlap, you can uncomment the following lines
+#--enable_prefill_microbatch_overlap
+#--enable_decode_microbatch_overlap
diff --git a/test/start_scripts/multi_node_ep_node1.sh b/test/start_scripts/multi_node_ep_node1.sh
@@ -0,0 +1,16 @@
+# H200 multi node deepseek R1 ep mode node 1
+# nccl_host: the ip of the nccl host
+# sh multi_node_ep_node1.sh <nccl_host>
+export nccl_host=$1
+MOE_MODE=EP LOADWORKER=18 python -m lightllm.server.api_server --port 8088 \
+--model_dir /path/DeepSeek-R1 \
+--tp 16 \
+--dp 16 \
+--enable_fa3 \
+--nnodes 2 \
+--node_rank 1 \
+--nccl_host $nccl_host \
+--nccl_port 2732 
+# if you want to enable microbatch overlap, you can uncomment the following lines
+#--enable_prefill_microbatch_overlap
+#--enable_decode_microbatch_overlap
diff --git a/test/start_scripts/multi_node_tp_node0.sh b/test/start_scripts/multi_node_tp_node0.sh
@@ -0,0 +1,12 @@
+# H200/H100 multi node deepseek R1 tp mode node 0
+# nccl_host: the ip of the nccl host
+# sh multi_node_tp_node0.sh <nccl_host>
+export nccl_host=$1
+LOADWORKER=18 python -m lightllm.server.api_server --port 8088 \
+--model_dir /path/DeepSeek-R1 \
+--tp 16 \
+--enable_fa3 \
+--nnodes 2 \
+--node_rank 0 \
+--nccl_host $nccl_host \
+--nccl_port 2732
diff --git a/test/start_scripts/multi_node_tp_node1.sh b/test/start_scripts/multi_node_tp_node1.sh
@@ -0,0 +1,12 @@
+# H200/H100 multi node deepseek R1 tp mode node 1
+# nccl_host: the ip of the nccl host
+# sh multi_node_tp_node1.sh <nccl_host>
+export nccl_host=$1
+LOADWORKER=18 python -m lightllm.server.api_server --port 8088 \
+--model_dir /path/DeepSeek-R1 \
+--tp 16 \
+--enable_fa3 \
+--nnodes 2 \
+--node_rank 1 \
+--nccl_host $nccl_host \
+--nccl_port 2732
diff --git a/test/start_scripts/multi_pd_master.sh b/test/start_scripts/multi_pd_master.sh
@@ -0,0 +1,34 @@
+# 多 pd_master 节点部署示例
+python -m lightllm.server.api_server --run_mode "config_server" --config_server_host 10.120.114.74 --config_server_port 60088
+
+python -m lightllm.server.api_server --model_dir /mtc/models/DeepSeek-V2-Lite-Chat --run_mode "pd_master" --host 10.120.114.74 --port 60011 --config_server_host 10.120.114.74 --config_server_port 60088
+
+python -m lightllm.server.api_server --model_dir /mtc/models/DeepSeek-V2-Lite-Chat --run_mode "pd_master" --host 10.120.114.74 --port 60012 --config_server_host 10.120.114.74 --config_server_port 60088
+
+nvidia-cuda-mps-control -d 
+CUDA_VISIBLE_DEVICES=0 KV_TRANS_USE_P2P=1 LOADWORKER=1 python -m lightllm.server.api_server --model_dir /mtc/models/DeepSeek-V2-Lite-Chat \
+--run_mode "prefill" \
+--host 10.120.178.74 \
+--port 8019 \
+--tp 1 \
+--nccl_port 2732 \
+--max_total_token_num 40000 \
+--tokenizer_mode fast \
+--max_req_total_len 16000 \
+--running_max_req_size 128 \
+--disable_cudagraph \
+--config_server_host 10.120.114.74 \
+--config_server_port 60088
+
+CUDA_VISIBLE_DEVICES=1 KV_TRANS_USE_P2P=1 LOADWORKER=10 python -m lightllm.server.api_server --model_dir /mtc/models/DeepSeek-V2-Lite-Chat \
+--run_mode "decode" \
+--host 10.120.178.74 \
+--port 8121 \
+--nccl_port 12322 \
+--tp 1 \
+--max_total_token_num 40000 \
+--graph_max_len_in_batch 2048 \
+--graph_max_batch_size 16 \
+--tokenizer_mode fast \
+--config_server_host 10.120.114.74 \
+--config_server_port 60088 
diff --git a/test/start_scripts/multi_pd_master/config_server.sh b/test/start_scripts/multi_pd_master/config_server.sh
@@ -0,0 +1,5 @@
+# config_server
+# config_server_host: the host of the config server   
+# sh config_server.sh <config_server_host>
+export config_server_host=$1
+python -m lightllm.server.api_server --run_mode "config_server" --config_server_host $config_server_host --config_server_port 60088
diff --git a/test/start_scripts/multi_pd_master/pd_decode.sh b/test/start_scripts/multi_pd_master/pd_decode.sh
@@ -0,0 +1,20 @@
+# decode
+# host: the host of the decode server
+# config_server_host: the host of the config server
+# sh decode.sh <host> <config_server_host>
+export host=$1
+export config_server_host=$2
+nvidia-cuda-mps-control -d
+MOE_MODE=EP LOADWORKER=18 python -m lightllm.server.api_server \
+--model_dir /path/DeepSeek-R1 \
+--run_mode "decode" \
+--host $host \
+--port 8121 \
+--nccl_port 12322 \
+--tp 8 \
+--dp 8 \
+--enable_fa3 \
+--config_server_host $config_server_host \
+--config_server_port 60088
+# if you want to enable microbatch overlap, you can uncomment the following lines
+#--enable_decode_microbatch_overlap
diff --git a/test/start_scripts/multi_pd_master/pd_master_1.sh b/test/start_scripts/multi_pd_master/pd_master_1.sh
@@ -0,0 +1,7 @@
+# pd_master 1
+# host: the host of the pd master
+# config_server_host: the host of the config server
+# sh pd_master_1.sh <host> <config_server_host>
+export host=$1
+export config_server_host=$2
+python -m lightllm.server.api_server --model_dir /path/DeepSeek-R1 --run_mode "pd_master" --host $host --port 60011 --config_server_host $config_server_host --config_server_port 60088
diff --git a/test/start_scripts/multi_pd_master/pd_master_2.sh b/test/start_scripts/multi_pd_master/pd_master_2.sh
@@ -0,0 +1,7 @@
+# pd_master 2
+# host: the host of the pd master
+# config_server_host: the host of the config server
+# sh pd_master_2.sh <host> <config_server_host>
+export host=$1
+export config_server_host=$2
+python -m lightllm.server.api_server --model_dir /path/DeepSeek-R1 --run_mode "pd_master" --host $host --port 60012 --config_server_host $config_server_host --config_server_port 60088
diff --git a/test/start_scripts/multi_pd_master/pd_prefill.sh b/test/start_scripts/multi_pd_master/pd_prefill.sh
@@ -0,0 +1,21 @@
+# prefill 
+# host: the host of the prefill server
+# config_server_host: the host of the config server
+# sh pd_prefill.sh <host> <config_server_host>
+export host=$1
+export config_server_host=$2
+nvidia-cuda-mps-control -d
+MOE_MODE=EP LOADWORKER=18 python -m lightllm.server.api_server \
+--model_dir /path/DeepSeek-R1 \
+--run_mode "prefill" \
+--host $host \
+--port 8019 \
+--tp 8 \
+--dp 8 \
+--nccl_port 2732 \
+--enable_fa3 \
+--disable_cudagraph \
+--config_server_host $config_server_host \
+--config_server_port 60088
+# if you want to enable microbatch overlap, you can uncomment the following lines
+#--enable_prefill_microbatch_overlap
diff --git a/test/start_scripts/single_node_ep.sh b/test/start_scripts/single_node_ep.sh
@@ -0,0 +1,9 @@
+# H200 single node deepseek R1 dpep mode
+MOE_MODE=EP LOADWORKER=18 python -m lightllm.server.api_server --port 8088 \
+--model_dir /path/DeepSeek-R1 \
+--tp 8 \
+--dp 8 \
+--enable_fa3
+# if you want to enable microbatch overlap, you can uncomment the following lines
+#--enable_prefill_microbatch_overlap \
+#--enable_decode_microbatch_overlap \
diff --git a/test/start_scripts/single_node_tp.sh b/test/start_scripts/single_node_tp.sh
@@ -0,0 +1,8 @@
+# H200 single node deepseek R1 tp mode
+LOADWORKER=18 python -m lightllm.server.api_server --port 8088 \
+--model_dir /path/DeepSeek-R1 \
+--tp 8 \
+--enable_fa3
+# if you want to enable microbatch overlap, you can uncomment the following lines
+#--enable_prefill_microbatch_overlap \
+#--enable_decode_microbatch_overlap \
diff --git a/test/start_scripts/single_pd_master/pd_decode.sh b/test/start_scripts/single_pd_master/pd_decode.sh
@@ -0,0 +1,21 @@
+# PD decode mode for deepseek R1 (DP+EP) on H200
+# host: the host of the current node
+# pd_master_ip: the ip of the pd master
+# sh pd_decode.sh <host> <pd_master_ip>
+export host=$1
+export pd_master_ip=$2
+nvidia-cuda-mps-control -d
+MOE_MODE=EP KV_TRANS_USE_P2P=1 LOADWORKER=18 python -m lightllm.server.api_server \
+--model_dir /path/DeepSeek-R1 \
+--run_mode "decode" \
+--tp 8 \
+--dp 8 \
+--host $host \
+--port 8121 \
+--nccl_port 12322 \
+--enable_fa3 \
+--disable_cudagraph \
+--pd_master_ip $pd_master_ip \
+--pd_master_port 60011 
+# if you want to enable microbatch overlap, you can uncomment the following lines
+#--enable_decode_microbatch_overlap
diff --git a/test/start_scripts/single_pd_master/pd_master.sh b/test/start_scripts/single_pd_master/pd_master.sh
@@ -0,0 +1,5 @@
+# pd_master for deepseek R1
+# pd_master_ip: the ip of the pd master
+# sh pd_master.sh <pd_master_ip>
+export pd_master_ip=$1
+python -m lightllm.server.api_server --model_dir /path/DeepSeek-R1 --run_mode "pd_master" --host $pd_master_ip --port 60011
diff --git a/test/start_scripts/single_pd_master/pd_prefill.sh b/test/start_scripts/single_pd_master/pd_prefill.sh
@@ -0,0 +1,21 @@
+# PD prefill mode for deepseek R1 (DP+EP) on H200
+# host: the host of the current node
+# pd_master_ip: the ip of the pd master
+# sh pd_prefill.sh <host> <pd_master_ip>
+export host=$1
+export pd_master_ip=$2
+nvidia-cuda-mps-control -d 
+MOE_MODE=EP KV_TRANS_USE_P2P=1 LOADWORKER=18 python -m lightllm.server.api_server \
+--model_dir /path/DeepSeek-R1 \
+--run_mode "prefill" \
+--tp 8 \
+--dp 8 \
+--host $host \
+--port 8019 \
+--nccl_port 2732 \
+--enable_fa3 \
+--disable_cudagraph \
+--pd_master_ip $pd_master_ip \
+--pd_master_port 60011 
+# if you want to enable microbatch overlap, you can uncomment the following lines
+#--enable_prefill_microbatch_overlap