Skip to content

Commit ed7c898

Browse files
committed
docs(rfcs): updated rfc doc and added vllm-omni situation
1 parent 4b8cf38 commit ed7c898

1 file changed

Lines changed: 14 additions & 3 deletions

File tree

rfcs/FastDeploy/20260317_add_sd3_flux_diffusion_models_for_fastdeploy.md

Lines changed: 14 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -84,13 +84,24 @@ PaddleMIX 项目中 PPDiffusers 已有完整的 Paddle 实现,可作为组网
8484

8585
NVIDIA TensorRT 提供了 SD3 的图优化和算子融合加速方案,可实现 2-4x 推理加速。但需要预编译引擎,灵活性较差,且不提供服务框架。
8686

87-
## 4) SGLang / vLLM
87+
## 4) SGLang / vLLM / vLLM-Omni
8888

89-
SGLang 近期开始探索扩散模型支持(DiT serving),采用类似 LLM 的请求调度方式管理扩散模型推理。vLLM 目前尚未支持扩散模型。这一方向验证了在 LLM 推理框架中集成扩散模型的可行性。
89+
SGLang 近期开始探索扩散模型支持(DiT serving),采用类似 LLM 的请求调度方式管理扩散模型推理。
90+
91+
vLLM 主线目前不支持扩散模型,但 vLLM 社区于 2025 年 11 月发布了 **vLLM-Omni**`vllm-project/vllm-omni`),作为 vLLM 的官方扩展,将支持范围从自回归文本模型扩展到全模态模型(文本、图像、视频、音频的生成)。其核心设计:
92+
93+
- **Stage 抽象**: 将复杂的多模态模型分解为有向图中的多个 Stage(如文本编码器 → DiT 去噪 → VAE 解码),每个 Stage 拥有独立的调度器、显存管理和执行引擎,可针对不同计算模式(自回归 vs 迭代去噪)分别优化。
94+
- **分离式执行后端**: 各 Stage 可运行在不同的硬件资源上并独立扩缩容,实现动态资源分配。
95+
- **Diffusion Cache 加速**: 支持 Cache-DiT、TeaCache 等缓存加速方法,通过跨去噪步骤复用中间计算结果来减少冗余计算,在几乎不损失质量的前提下加速推理。
96+
- **API 设计**: 通过 `--output-modalities image` 参数同时暴露 `/v1/chat/completions`(内联 base64 图像)和 `/v1/images/generations` 端点。
97+
98+
参考文献:[Fully Disaggregated Serving for Any-to-Any Multimodal Models (arXiv 2602.02204)](https://arxiv.org/abs/2602.02204)
99+
100+
vLLM-Omni 的 Stage 分解模式和分离式调度为 FastDeploy 的扩散模型集成提供了有价值的参考方向。
90101

91102
## 调研结论
92103

93-
当前业内缺乏一个同时具备高性能推理、量化加速、多卡并行和 API 服务能力的扩散模型部署方案。FastDeploy 已有的量化、并行、服务基础设施为实现这一目标提供了良好基础
104+
当前业内的扩散模型部署方案中,vLLM-Omni 通过 Stage 分解和分离式调度提供了较为先进的架构设计,但其基于 PyTorch 生态。FastDeploy 已有的 PaddlePaddle 量化、并行、服务基础设施为在飞桨生态中实现同等能力提供了良好基础
94105

95106
# 四、设计思路与实现方案
96107

0 commit comments

Comments
 (0)