感觉对Blackwell的架构优化性不是太好。目前rtx pro 6000的推理速度只能达到rtx 4090的六到八成。
rtx pro 6000的推理速度大概是3.9t/s,而rtx 4090可以达到4.6t/s。
相反在图片生成比如SDXL同比例下,同样的环境
rtx pro 6000的推理速度大概可以跑到8.7t/s,而rtx 4090可以跑6.7t/s。所以不是驱动,不是环境不兼容的问题。
我的环境
addict==2.4.0
bitsandbytes==0.49.1
diffusers==0.36.0
einops==0.8.2
pydantic==2.11.7
safetensors==0.7.0
simplejson==3.20.1
sortedcontainers==2.4.0
soundfile==0.13.1
torch==2.9.1+cu130
torchaudio==2.9.1+cu130
tqdm==4.67.1
transformers==5.6.2
感觉对Blackwell的架构优化性不是太好。目前rtx pro 6000的推理速度只能达到rtx 4090的六到八成。
rtx pro 6000的推理速度大概是3.9t/s,而rtx 4090可以达到4.6t/s。
相反在图片生成比如SDXL同比例下,同样的环境
rtx pro 6000的推理速度大概可以跑到8.7t/s,而rtx 4090可以跑6.7t/s。所以不是驱动,不是环境不兼容的问题。
我的环境
addict==2.4.0
bitsandbytes==0.49.1
diffusers==0.36.0
einops==0.8.2
pydantic==2.11.7
safetensors==0.7.0
simplejson==3.20.1
sortedcontainers==2.4.0
soundfile==0.13.1
torch==2.9.1+cu130
torchaudio==2.9.1+cu130
tqdm==4.67.1
transformers==5.6.2