1- .. _tutorial/api_server_args_zh :
1+ .. _tutorial/api_server_args :
22
33APIServer 参数详解
44==================
@@ -183,22 +183,6 @@ PD 分离模式参数
183183 设置为 True 时,--nccl_host 必须等于 config_server_host,--nccl_port 对于 config_server 必须是唯一的,
184184 不要为不同的推理节点使用相同的 nccl_port,这将是严重错误
185185
186- attention类型选择参数
187- ---------------------
188-
189- .. option :: --mode
190-
191- 模型推理模式,可以指定多个值:
192-
193- * ``triton_int8kv ``: 使用 int8 存储 kv cache,可增加 token 容量,使用 triton kernel
194- * ``ppl_int8kv ``: 使用 int8 存储 kv cache,使用 ppl 快速 kernel
195- * ``ppl_fp16 ``: 使用 ppl 快速 fp16 解码注意力 kernel
196- * ``triton_flashdecoding ``: 用于长上下文的 flashdecoding 模式,当前支持 llama llama2 qwen
197- * ``triton_gqa_attention ``: 使用 GQA 的模型的快速 kernel
198- * ``triton_gqa_flashdecoding ``: 使用 GQA 的模型的快速 flashdecoding kernel
199- * ``triton_fp8kv ``: 使用 float8 存储 kv cache,目前仅用于 deepseek2
200-
201- 需要阅读源代码以确认所有模型支持的具体模式
202186
203187调度参数
204188--------
@@ -300,6 +284,17 @@ attention类型选择参数
300284
301285 为 ViT 构建分布式环境的 NCCL 端口列表,例如 29500 29501 29502,默认为 [29500]
302286
287+ .. option :: --vit_att_backend
288+
289+ 设置 ViT 使用的注意力后端。可选值为:
290+
291+ * ``auto ``: 自动选择最佳后端(默认值),优先级为 fa3 > xformers > sdpa > triton
292+ * ``fa3 ``: 使用 Flash-Attention 3 后端
293+ * ``xformers ``: 使用 xformers 后端
294+ * ``sdpa ``: 使用 sdpa 后端
295+ * ``triton ``: 使用 Triton 后端
296+
297+
303298性能优化参数
304299------------
305300
@@ -326,18 +321,28 @@ attention类型选择参数
326321.. option :: --enable_decode_microbatch_overlap
327322
328323 推理后端将为解码使用微批次重叠模式
329-
330- .. option :: --enable_flashinfer_prefill
331324
332- 推理后端将为预填充使用 flashinfer 的注意力 kernel
333-
334- .. option :: --enable_flashinfer_decode
325+ .. option :: --llm_prefill_att_backend
326+
327+ 设置预填充(Prefill)阶段使用的注意力后端。可选值为:
328+
329+ * ``auto ``: 自动选择最佳后端(默认值),优先级为 fa3 > flashinfer > triton
330+ * ``fa3 ``: 使用 Flash-Attention 3 后端
331+ * ``flashinfer ``: 使用 FlashInfer 后端
332+ * ``triton ``: 使用 Triton 后端
333+
334+ .. option :: --llm_decode_att_backend
335+
336+ 设置解码(Decode)阶段使用的注意力后端。可选值为:
335337
336- 推理后端将为解码使用 flashinfer 的注意力 kernel
338+ * ``auto ``: 自动选择最佳后端(默认值),优先级为 fa3 > flashinfer > triton
339+ * ``fa3 ``: 使用 Flash-Attention 3 后端
340+ * ``flashinfer ``: 使用 FlashInfer 后端
341+ * ``triton ``: 使用 Triton 后端
337342
338- .. option :: --enable_fa3
343+ .. option :: --llm_kv_type
339344
340- 推理后端将为预填充和解码使用 fa3 注意力 kernel
345+ 推理后端使用什么类型的数据存储kv cache, 可选值为 "None", "int8kv", "int4kv", "fp8kv"
341346
342347.. option :: --disable_cudagraph
343348
@@ -373,17 +378,14 @@ attention类型选择参数
373378.. option :: --quant_type
374379
375380 量化方法,可选值:
376-
377- * ``ppl-w4a16-128 ``
378- * ``flashllm-w6a16 ``
379- * ``ao-int4wo-[32,64,128,256] ``
380- * ``ao-int8wo ``
381- * ``ao-fp8w8a16 ``
382- * ``ao-fp6w6a16 ``
381+
383382 * ``vllm-w8a8 ``
384383 * ``vllm-fp8w8a8 ``
385384 * ``vllm-fp8w8a8-b128 ``
385+ * ``deepgemm-fp8w8a8-b128 ``
386386 * ``triton-fp8w8a8-block128 ``
387+ * ``awq ``
388+ * ``awq_marlin ``
387389 * ``none `` (默认)
388390
389391.. option :: --quant_cfg
@@ -395,13 +397,7 @@ attention类型选择参数
395397.. option :: --vit_quant_type
396398
397399 ViT 量化方法,可选值:
398-
399- * ``ppl-w4a16-128 ``
400- * ``flashllm-w6a16 ``
401- * ``ao-int4wo-[32,64,128,256] ``
402- * ``ao-int8wo ``
403- * ``ao-fp8w8a16 ``
404- * ``ao-fp6w6a16 ``
400+
405401 * ``vllm-w8a8 ``
406402 * ``vllm-fp8w8a8 ``
407403 * ``none `` (默认)
@@ -447,10 +443,12 @@ MTP 多预测参数
447443
448444.. option :: --mtp_mode
449445
450- 支持的 mtp 模式,建议使用 deepseekv3_eagle获得更好的性能体验 ,可选值:
446+ 支持的 mtp 模式,建议使用 eagle_with_att获得更好的性能体验 ,可选值:
451447
452- * ``deepseekv3_vanilla ``
453- * ``deepseekv3_eagle ``
448+ * ``vanilla_with_att ``
449+ * ``eagle_with_att ``
450+ * ``vanilla_no_att ``
451+ * ``eagle_no_att ``
454452 * ``None ``: 不启用 mtp(默认)
455453
456454.. option :: --mtp_draft_model_dir
0 commit comments