docs(rfcs): updated rfc doc and added vllm-omni situation

PommesPeter · PommesPeter · commit ed7c8987b071 · 2026-03-26T14:39:08.000+08:00
diff --git a/rfcs/FastDeploy/20260317_add_sd3_flux_diffusion_models_for_fastdeploy.md b/rfcs/FastDeploy/20260317_add_sd3_flux_diffusion_models_for_fastdeploy.md
@@ -84,13 +84,24 @@ PaddleMIX 项目中 PPDiffusers 已有完整的 Paddle 实现，可作为组网
 
 NVIDIA TensorRT 提供了 SD3 的图优化和算子融合加速方案，可实现 2-4x 推理加速。但需要预编译引擎，灵活性较差，且不提供服务框架。
 
-## 4) SGLang / vLLM
+## 4) SGLang / vLLM / vLLM-Omni
 
-SGLang 近期开始探索扩散模型支持（DiT serving），采用类似 LLM 的请求调度方式管理扩散模型推理。vLLM 目前尚未支持扩散模型。这一方向验证了在 LLM 推理框架中集成扩散模型的可行性。
+SGLang 近期开始探索扩散模型支持（DiT serving），采用类似 LLM 的请求调度方式管理扩散模型推理。
+
+vLLM 主线目前不支持扩散模型，但 vLLM 社区于 2025 年 11 月发布了 **vLLM-Omni**（`vllm-project/vllm-omni`），作为 vLLM 的官方扩展，将支持范围从自回归文本模型扩展到全模态模型（文本、图像、视频、音频的生成）。其核心设计：
+
+- **Stage 抽象**: 将复杂的多模态模型分解为有向图中的多个 Stage（如文本编码器 → DiT 去噪 → VAE 解码），每个 Stage 拥有独立的调度器、显存管理和执行引擎，可针对不同计算模式（自回归 vs 迭代去噪）分别优化。
+- **分离式执行后端**: 各 Stage 可运行在不同的硬件资源上并独立扩缩容，实现动态资源分配。
+- **Diffusion Cache 加速**: 支持 Cache-DiT、TeaCache 等缓存加速方法，通过跨去噪步骤复用中间计算结果来减少冗余计算，在几乎不损失质量的前提下加速推理。
+- **API 设计**: 通过 `--output-modalities image` 参数同时暴露 `/v1/chat/completions`（内联 base64 图像）和 `/v1/images/generations` 端点。
+
+参考文献：[Fully Disaggregated Serving for Any-to-Any Multimodal Models (arXiv 2602.02204)](https://arxiv.org/abs/2602.02204)
+
+vLLM-Omni 的 Stage 分解模式和分离式调度为 FastDeploy 的扩散模型集成提供了有价值的参考方向。
 
 ## 调研结论
 
-当前业内缺乏一个同时具备高性能推理、量化加速、多卡并行和 API 服务能力的扩散模型部署方案。FastDeploy 已有的量化、并行、服务基础设施为实现这一目标提供了良好基础。
+当前业内的扩散模型部署方案中，vLLM-Omni 通过 Stage 分解和分离式调度提供了较为先进的架构设计，但其基于 PyTorch 生态。FastDeploy 已有的 PaddlePaddle 量化、并行、服务基础设施为在飞桨生态中实现同等能力提供了良好基础。
 
 # 四、设计思路与实现方案