File tree Expand file tree Collapse file tree
Expand file tree Collapse file tree Original file line number Diff line number Diff line change @@ -84,13 +84,24 @@ PaddleMIX 项目中 PPDiffusers 已有完整的 Paddle 实现,可作为组网
8484
8585NVIDIA TensorRT 提供了 SD3 的图优化和算子融合加速方案,可实现 2-4x 推理加速。但需要预编译引擎,灵活性较差,且不提供服务框架。
8686
87- ## 4) SGLang / vLLM
87+ ## 4) SGLang / vLLM / vLLM-Omni
8888
89- SGLang 近期开始探索扩散模型支持(DiT serving),采用类似 LLM 的请求调度方式管理扩散模型推理。vLLM 目前尚未支持扩散模型。这一方向验证了在 LLM 推理框架中集成扩散模型的可行性。
89+ SGLang 近期开始探索扩散模型支持(DiT serving),采用类似 LLM 的请求调度方式管理扩散模型推理。
90+
91+ vLLM 主线目前不支持扩散模型,但 vLLM 社区于 2025 年 11 月发布了 ** vLLM-Omni** (` vllm-project/vllm-omni ` ),作为 vLLM 的官方扩展,将支持范围从自回归文本模型扩展到全模态模型(文本、图像、视频、音频的生成)。其核心设计:
92+
93+ - ** Stage 抽象** : 将复杂的多模态模型分解为有向图中的多个 Stage(如文本编码器 → DiT 去噪 → VAE 解码),每个 Stage 拥有独立的调度器、显存管理和执行引擎,可针对不同计算模式(自回归 vs 迭代去噪)分别优化。
94+ - ** 分离式执行后端** : 各 Stage 可运行在不同的硬件资源上并独立扩缩容,实现动态资源分配。
95+ - ** Diffusion Cache 加速** : 支持 Cache-DiT、TeaCache 等缓存加速方法,通过跨去噪步骤复用中间计算结果来减少冗余计算,在几乎不损失质量的前提下加速推理。
96+ - ** API 设计** : 通过 ` --output-modalities image ` 参数同时暴露 ` /v1/chat/completions ` (内联 base64 图像)和 ` /v1/images/generations ` 端点。
97+
98+ 参考文献:[ Fully Disaggregated Serving for Any-to-Any Multimodal Models (arXiv 2602.02204)] ( https://arxiv.org/abs/2602.02204 )
99+
100+ vLLM-Omni 的 Stage 分解模式和分离式调度为 FastDeploy 的扩散模型集成提供了有价值的参考方向。
90101
91102## 调研结论
92103
93- 当前业内缺乏一个同时具备高性能推理、量化加速、多卡并行和 API 服务能力的扩散模型部署方案 。FastDeploy 已有的量化 、并行、服务基础设施为实现这一目标提供了良好基础 。
104+ 当前业内的扩散模型部署方案中,vLLM-Omni 通过 Stage 分解和分离式调度提供了较为先进的架构设计,但其基于 PyTorch 生态 。FastDeploy 已有的 PaddlePaddle 量化 、并行、服务基础设施为在飞桨生态中实现同等能力提供了良好基础 。
94105
95106# 四、设计思路与实现方案
96107
You can’t perform that action at this time.
0 commit comments