Skip to content

Low Inference speed under RTX pro 6000 blackwell compared to RTX 4090 #282

@anitman

Description

@anitman

感觉对Blackwell的架构优化性不是太好。目前rtx pro 6000的推理速度只能达到rtx 4090的六到八成。
rtx pro 6000的推理速度大概是3.9t/s,而rtx 4090可以达到4.6t/s。
相反在图片生成比如SDXL同比例下,同样的环境
rtx pro 6000的推理速度大概可以跑到8.7t/s,而rtx 4090可以跑6.7t/s。所以不是驱动,不是环境不兼容的问题。

我的环境
addict==2.4.0
bitsandbytes==0.49.1
diffusers==0.36.0
einops==0.8.2
pydantic==2.11.7
safetensors==0.7.0
simplejson==3.20.1
sortedcontainers==2.4.0
soundfile==0.13.1
torch==2.9.1+cu130
torchaudio==2.9.1+cu130
tqdm==4.67.1
transformers==5.6.2

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions