1+ .. _tutorial/api_server_args_zh :
2+
13APIServer 参数详解
2- ================
4+ ==================
35
46本文档详细介绍了 LightLLM APIServer 的所有启动参数及其用法。
57
68基础配置参数
7- -----------
9+ ------------
810
911.. option :: --run_mode
1012
@@ -38,7 +40,7 @@ APIServer 参数详解
3840 只能在 ``['tcp://', 'ipc:///tmp/'] `` 中选择
3941
4042PD 分离模式参数
41- --------------
43+ ---------------
4244
4345.. option :: --pd_master_ip
4446
@@ -65,7 +67,7 @@ PD 分离模式参数
6567 配置服务器模式下的端口号
6668
6769模型配置参数
68- -----------
70+ ------------
6971
7072.. option :: --model_name
7173
@@ -87,16 +89,16 @@ PD 分离模式参数
8789
8890.. option :: --load_way
8991
90- 模型权重加载方式,默认为 ``HF``( Huggingface 格式)
92+ 模型权重加载方式,默认为 ``HF `` ( Huggingface 格式)
9193
92- llama 模型还支持 ``DS``( Deepspeed) 格式
94+ llama 模型还支持 ``DS `` ( Deepspeed) 格式
9395
9496.. option :: --trust_remote_code
9597
9698 是否允许在 Hub 上使用自定义模型定义的文件
9799
98100内存和批处理参数
99- --------------
101+ ----------------
100102
101103.. option :: --max_total_token_num
102104
@@ -135,7 +137,7 @@ PD 分离模式参数
135137 * ``mistral ``
136138
137139不同并行模式设置参数
138- ------------------
140+ --------------------
139141
140142.. option :: --nnodes
141143
@@ -182,7 +184,7 @@ PD 分离模式参数
182184 不要为不同的推理节点使用相同的 nccl_port,这将是严重错误
183185
184186attention类型选择参数
185- --------------------
187+ ---------------------
186188
187189.. option :: --mode
188190
@@ -199,7 +201,7 @@ attention类型选择参数
199201 需要阅读源代码以确认所有模型支持的具体模式
200202
201203调度参数
202- ------------
204+ --------
203205
204206.. option :: --router_token_ratio
205207
@@ -242,7 +244,7 @@ attention类型选择参数
242244
243245
244246输出约束参数
245- -----------
247+ ------------
246248
247249.. option :: --token_healing_mode
248250
@@ -260,7 +262,7 @@ attention类型选择参数
260262 使用环境变量 FIRST_ALLOWED_TOKENS 设置范围,例如 FIRST_ALLOWED_TOKENS=1,2
261263
262264多模态参数
263- --------
265+ ----------
264266
265267.. option :: --enable_multimodal
266268
@@ -299,7 +301,7 @@ attention类型选择参数
299301 为 ViT 构建分布式环境的 NCCL 端口列表,例如 29500 29501 29502,默认为 [29500]
300302
301303性能优化参数
302- -----------
304+ ------------
303305
304306.. option :: --disable_custom_allreduce
305307
@@ -366,7 +368,7 @@ attention类型选择参数
366368 默认值为 8192。如果遇到更大的值,将转为 eager 模式。
367369
368370量化参数
369- -------
371+ --------
370372
371373.. option :: --quant_type
372374
@@ -382,7 +384,7 @@ attention类型选择参数
382384 * ``vllm-fp8w8a8 ``
383385 * ``vllm-fp8w8a8-b128 ``
384386 * ``triton-fp8w8a8-block128 ``
385- * ``none``(默认)
387+ * ``none `` (默认)
386388
387389.. option :: --quant_cfg
388390
@@ -402,7 +404,7 @@ attention类型选择参数
402404 * ``ao-fp6w6a16 ``
403405 * ``vllm-w8a8 ``
404406 * ``vllm-fp8w8a8 ``
405- * ``none``(默认)
407+ * ``none `` (默认)
406408
407409.. option :: --vit_quant_cfg
408410
@@ -411,7 +413,7 @@ attention类型选择参数
411413 示例可以在 lightllm/common/quantization/configs 中找到。
412414
413415采样和生成参数
414- ------------
416+ --------------
415417
416418.. option :: --sampling_backend
417419
@@ -441,7 +443,7 @@ attention类型选择参数
441443 使用 tgi 输入和输出格式
442444
443445MTP 多预测参数
444- ------------
446+ --------------
445447
446448.. option :: --mtp_mode
447449
@@ -466,7 +468,7 @@ MTP 多预测参数
466468 目前 deepseekv3/r1 模型仅支持 1 步
467469
468470DeepSeek 冗余专家参数
469- ----------
471+ ---------------------
470472
471473.. option :: --ep_redundancy_expert_config_path
472474
@@ -477,7 +479,7 @@ DeepSeek 冗余专家参数
477479 是否通过在线专家使用计数器为 deepseekv3 模型更新冗余专家。
478480
479481监控和日志参数
480- ------------
482+ --------------
481483
482484.. option :: --disable_log_stats
483485
0 commit comments