ModelTC
diff --git a/‎docs/CN/source/getting_started/benchmark.rst‎
Lines changed: 6 additions & 6 deletions b/‎docs/CN/source/getting_started/benchmark.rst‎
Lines changed: 6 additions & 6 deletions
diff --git a/‎docs/CN/source/index.rst‎
Lines changed: 1 addition & 0 deletions b/‎docs/CN/source/index.rst‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎docs/CN/source/tutorial/api_server_args_zh.rst‎
Lines changed: 22 additions & 20 deletions b/‎docs/CN/source/tutorial/api_server_args_zh.rst‎
Lines changed: 22 additions & 20 deletions
diff --git a/‎docs/CN/source/tutorial/deepseek_deployment.rst‎
Lines changed: 3 additions & 3 deletions b/‎docs/CN/source/tutorial/deepseek_deployment.rst‎
Lines changed: 3 additions & 3 deletions
@@ -4,7 +4,7 @@ Benchmark 测试指南
 LightLLM 提供了全面的性能测试工具，包括服务端性能测试和静态推理性能测试。本文档将详细介绍如何使用这些工具进行性能评估。
 
 服务端性能测试 (Service Benchmark)
----------------------------------
+-----------------------------------
 
 服务端性能测试主要用于评估 LightLLM 在真实服务场景下的性能表现，包括吞吐量、延迟等关键指标。
 
@@ -55,7 +55,7 @@ QPS (Queries Per Second) 测试是评估服务端性能的核心工具，支持
 - decode_token_time P{25,50,75,90,95,99,100}: 解码 token 延迟百分位数
 
 固定并发测试 (benchmark_client.py)
-~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
 
 用于评估不同客户端并发数下的性能表现。
 
@@ -73,7 +73,7 @@ QPS (Queries Per Second) 测试是评估服务端性能的核心工具，支持
         --server_api lightllm
 
 ShareGPT 数据集测试 (benchmark_sharegpt.py)
-~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
 
 使用 ShareGPT 真实对话数据进行性能测试。
 
@@ -131,7 +131,7 @@ Prompt Cache 测试
 - ``--num_users``: 用户数
 
 静态推理性能测试 (Static Inference Benchmark)
---------------------------------------------
+----------------------------------------------
 
 静态推理测试用于评估模型在固定输入条件下的推理性能, 主要评估算子的优劣
 模型推理测试 (model_infer.py)
@@ -178,7 +178,7 @@ Prompt Cache 测试
 - 各阶段延迟统计
 
 多结果预测性能测试 (model_infer_mtp.py)
-~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
 
 多结果预测静态性能测试，默认百分百接受率，用来评估多结果预测的极限性能。目前只支持DeepSeek 系列模型
 
@@ -203,7 +203,7 @@ Prompt Cache 测试
 - ``--mtp_draft_model_dir``: 草稿模型路径
 
 Vision Transformer 测试 (test_vit.py)
-~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
 
 用于测试 Vision Transformer 模型的性能。
 
 
@@ -49,6 +49,7 @@ Lightllm 整合了众多的开源方案的优点，包括但不限于 FasterTran
    :caption: 部署教程
 
    DeepSeek R1 部署 <tutorial/deepseek_deployment>
+   多级缓存部署 <tutorial/multi_level_cache_deployment>
    多模态部署 <tutorial/multimodal>
    奖励模型部署 <tutorial/reward_model>
    OpenAI 接口使用 <tutorial/openai>
 
@@ -1,10 +1,12 @@
+.. _tutorial/api_server_args_zh:
+
 APIServer 参数详解
-================
+==================
 
 本文档详细介绍了 LightLLM APIServer 的所有启动参数及其用法。
 
 基础配置参数
------------
+------------
 
 .. option:: --run_mode
 
@@ -38,7 +40,7 @@ APIServer 参数详解
     只能在 ``['tcp://', 'ipc:///tmp/']`` 中选择
 
 PD 分离模式参数
---------------
+---------------
 
 .. option:: --pd_master_ip
 
@@ -65,7 +67,7 @@ PD 分离模式参数
     配置服务器模式下的端口号
 
 模型配置参数
------------
+------------
 
 .. option:: --model_name
 
@@ -87,16 +89,16 @@ PD 分离模式参数
 
 .. option:: --load_way
 
-    模型权重加载方式，默认为 ``HF``（Huggingface 格式）
+    模型权重加载方式，默认为 ``HF`` (Huggingface 格式)
 
-    llama 模型还支持 ``DS``（Deepspeed）格式
+    llama 模型还支持 ``DS`` (Deepspeed) 格式
 
 .. option:: --trust_remote_code
 
     是否允许在 Hub 上使用自定义模型定义的文件
 
 内存和批处理参数
---------------
+----------------
 
 .. option:: --max_total_token_num
 
@@ -135,7 +137,7 @@ PD 分离模式参数
     * ``mistral``
 
 不同并行模式设置参数
-------------------
+--------------------
 
 .. option:: --nnodes
 
@@ -182,7 +184,7 @@ PD 分离模式参数
     不要为不同的推理节点使用相同的 nccl_port，这将是严重错误
 
 attention类型选择参数
---------------------
+---------------------
 
 .. option:: --mode
 
@@ -199,7 +201,7 @@ attention类型选择参数
     需要阅读源代码以确认所有模型支持的具体模式
 
 调度参数
-------------
+--------
 
 .. option:: --router_token_ratio
 
@@ -242,7 +244,7 @@ attention类型选择参数
 
 
 输出约束参数
------------
+------------
 
 .. option:: --token_healing_mode
 
@@ -260,7 +262,7 @@ attention类型选择参数
     使用环境变量 FIRST_ALLOWED_TOKENS 设置范围，例如 FIRST_ALLOWED_TOKENS=1,2
 
 多模态参数
---------
+----------
 
 .. option:: --enable_multimodal
 
@@ -299,7 +301,7 @@ attention类型选择参数
     为 ViT 构建分布式环境的 NCCL 端口列表，例如 29500 29501 29502，默认为 [29500]
 
 性能优化参数
------------
+------------
 
 .. option:: --disable_custom_allreduce
 
@@ -366,7 +368,7 @@ attention类型选择参数
     默认值为 8192。如果遇到更大的值，将转为 eager 模式。
 
 量化参数
--------
+--------
 
 .. option:: --quant_type
 
@@ -382,7 +384,7 @@ attention类型选择参数
     * ``vllm-fp8w8a8``
     * ``vllm-fp8w8a8-b128``
     * ``triton-fp8w8a8-block128``
-    * ``none``（默认）
+    * ``none`` (默认)
 
 .. option:: --quant_cfg
 
@@ -402,7 +404,7 @@ attention类型选择参数
     * ``ao-fp6w6a16``
     * ``vllm-w8a8``
     * ``vllm-fp8w8a8``
-    * ``none``（默认）
+    * ``none`` (默认)
 
 .. option:: --vit_quant_cfg
 
@@ -411,7 +413,7 @@ attention类型选择参数
     示例可以在 lightllm/common/quantization/configs 中找到。
 
 采样和生成参数
-------------
+--------------
 
 .. option:: --sampling_backend
 
@@ -441,7 +443,7 @@ attention类型选择参数
     使用 tgi 输入和输出格式
 
 MTP 多预测参数
-------------
+--------------
 
 .. option:: --mtp_mode
 
@@ -466,7 +468,7 @@ MTP 多预测参数
     目前 deepseekv3/r1 模型仅支持 1 步
 
 DeepSeek 冗余专家参数
-----------
+---------------------
 
 .. option:: --ep_redundancy_expert_config_path
 
@@ -477,7 +479,7 @@ DeepSeek 冗余专家参数
     是否通过在线专家使用计数器为 deepseekv3 模型更新冗余专家。
 
 监控和日志参数
-------------
+--------------
 
 .. option:: --disable_log_stats
 
 
@@ -6,7 +6,7 @@ DeepSeek 模型部署指南
 LightLLM 支持多种 DeepSeek 模型的部署方案，包括 DeepSeek-R1、DeepSeek-V2、DeepSeek-V3 等。本文档详细介绍各种部署模式和配置方案。
 
 部署模式概览
------------
+------------
 
 LightLLM 支持以下几种部署模式：
 
@@ -316,7 +316,7 @@ PD (Prefill-Decode) 分离模式将预填充和解码阶段分离部署，可以
 -------------
 
 4.1 基础功能测试
-~~~~~~~~~~~~~~~
+~~~~~~~~~~~~~~~~
 
 .. code-block:: bash
 
@@ -331,7 +331,7 @@ PD (Prefill-Decode) 分离模式将预填充和解码阶段分离部署，可以
               }'
 
 4.2 性能基准测试
-~~~~~~~~~~~~~~~
+~~~~~~~~~~~~~~~~
 
 .. code-block:: bash