chore: bump cuda to 13.0 (#1631)

AlpinDale · web-flow · commit 426ae19545a8 · 2026-04-24T19:38:51.000+04:30
Signed-off-by: AlpinDale &lt;alpindale@gmail.com&gt;
diff --git a/CMakeLists.txt b/CMakeLists.txt
@@ -87,12 +87,15 @@ find_package(Torch REQUIRED)
 # This check must happen after find_package(Torch) because that's when CMAKE_CUDA_COMPILER_VERSION gets defined
 if(DEFINED CMAKE_CUDA_COMPILER_VERSION AND
    CMAKE_CUDA_COMPILER_VERSION VERSION_GREATER_EQUAL 13.0)
+   # starting from CUDA 12.9 and Blackwell (10.0), we use family-specific targets (10.0f, 12.0f, etc)
+   # to support the whole generation without specifying all sub-architectures
+   # see: https://developer.nvidia.com/blog/nvidia-blackwell-and-nvidia-cuda-12-9-introduce-family-specific-architecture-features/
   set(CUDA_SUPPORTED_ARCHS "7.5;8.0;8.6;8.7;8.9;9.0;10.0;11.0;12.0")
 elseif(DEFINED CMAKE_CUDA_COMPILER_VERSION AND
    CMAKE_CUDA_COMPILER_VERSION VERSION_GREATER_EQUAL 12.8)
-  set(CUDA_SUPPORTED_ARCHS "6.0;6.1;7.0;7.2;7.5;8.0;8.6;8.7;8.9;9.0;10.0;10.1;12.0")
+  set(CUDA_SUPPORTED_ARCHS "7.5;8.0;8.6;8.7;8.9;9.0;10.0;10.1;10.3;12.0;12.1")
 else()
-  set(CUDA_SUPPORTED_ARCHS "6.0;6.1;7.0;7.2;7.5;8.0;8.6;8.7;8.9;9.0")
+  set(CUDA_SUPPORTED_ARCHS "7.0;7.5;8.0;8.6;8.7;8.9;9.0")
 endif()
 
 #
diff --git a/aphrodite/envs.py b/aphrodite/envs.py
@@ -81,7 +81,7 @@
     APHRODITE_MEDIA_CONNECTOR: str = "http"
     APHRODITE_MM_HASHER_ALGORITHM: str = "blake3"
     APHRODITE_TARGET_DEVICE: str = "cuda"
-    APHRODITE_MAIN_CUDA_VERSION: str = "12.9"
+    APHRODITE_MAIN_CUDA_VERSION: str = "13.0"
     APHRODITE_FLOAT32_MATMUL_PRECISION: Literal["highest", "high", "medium"] = "highest"
     APHRODITE_BATCH_INVARIANT: bool = False
     MAX_JOBS: str | None = None
@@ -483,7 +483,7 @@ def _get_or_set_default() -> str:
     # rocm, cpu]
     "APHRODITE_TARGET_DEVICE": lambda: os.getenv("APHRODITE_TARGET_DEVICE", "cuda").lower(),
     # Main CUDA version of Aphrodite. This follows PyTorch but can be overridden.
-    "APHRODITE_MAIN_CUDA_VERSION": lambda: (os.getenv("APHRODITE_MAIN_CUDA_VERSION", "").lower() or "12.9"),
+    "APHRODITE_MAIN_CUDA_VERSION": lambda: (os.getenv("APHRODITE_MAIN_CUDA_VERSION", "").lower() or "13.0"),
     # Controls PyTorch float32 matmul precision mode within Aphrodite workers.
     # Valid options mirror torch.set_float32_matmul_precision
     "APHRODITE_FLOAT32_MATMUL_PRECISION": env_with_choices(
diff --git a/docker/Dockerfile b/docker/Dockerfile
@@ -188,7 +188,7 @@ RUN --mount=type=cache,target=/root/.cache/uv \
 # Explicitly set the list to avoid issues with torch 2.2
 # See https://github.com/pytorch/pytorch/pull/123243
 # From versions.json: .torch.cuda_arch_list
-ARG torch_cuda_arch_list='7.0 7.5 8.0 8.9 9.0 10.0 12.0'
+ARG torch_cuda_arch_list='7.5 8.0 8.6 8.9 9.0 10.0 12.0+PTX'
 ENV TORCH_CUDA_ARCH_LIST=${torch_cuda_arch_list}
 #################### BUILD BASE IMAGE ####################
 
@@ -615,7 +615,7 @@ ARG PIP_EXTRA_INDEX_URL UV_EXTRA_INDEX_URL
 ENV UV_HTTP_TIMEOUT=500
 
 # install kv_connectors if requested
-ARG torch_cuda_arch_list='7.0 7.5 8.0 8.9 9.0 10.0 12.0'
+ARG torch_cuda_arch_list='7.5 8.0 8.6 8.9 9.0 10.0 12.0+PTX'
 ENV TORCH_CUDA_ARCH_LIST=${torch_cuda_arch_list}
 RUN --mount=type=cache,target=/root/.cache/uv \
     --mount=type=bind,source=requirements/kv_connectors.txt,target=/tmp/kv_connectors.txt,ro \
diff --git a/docker/docker-bake.hcl b/docker/docker-bake.hcl
@@ -88,7 +88,6 @@ target "test-ubuntu2404" {
   args = {
     UBUNTU_VERSION          = "24.04"
     GDRCOPY_OS_VERSION      = "Ubuntu24_04"
-    FLASHINFER_AOT_COMPILE  = "true"
   }
   output = ["type=docker"]
 }
@@ -100,7 +99,6 @@ target "openai-ubuntu2404" {
   args = {
     UBUNTU_VERSION          = "24.04"
     GDRCOPY_OS_VERSION      = "Ubuntu24_04"
-    FLASHINFER_AOT_COMPILE  = "true"
   }
   output = ["type=docker"]
 }
diff --git a/docker/versions.json b/docker/versions.json
@@ -32,7 +32,7 @@
       "default": "false"
     },
     "TORCH_CUDA_ARCH_LIST": {
-      "default": "7.0 7.5 8.0 8.9 9.0 10.0 12.0"
+      "default": "7.5 8.0 8.6 8.9 9.0 10.0 12.0+PTX"
     },
     "DEEPEP_COMMIT_HASH": {
       "default": "73b6ea4"

Original file line number	Diff line number	Diff line change
`@@ -88,7 +88,6 @@ target "test-ubuntu2404" {`
`88`	`88`	`args = {`
`89`	`89`	`UBUNTU_VERSION = "24.04"`
`90`	`90`	`GDRCOPY_OS_VERSION = "Ubuntu24_04"`
`91`		`- FLASHINFER_AOT_COMPILE = "true"`
`92`	`91`	`}`
`93`	`92`	`output = ["type=docker"]`
`94`	`93`	`}`
`@@ -100,7 +99,6 @@ target "openai-ubuntu2404" {`
`100`	`99`	`args = {`
`101`	`100`	`UBUNTU_VERSION = "24.04"`
`102`	`101`	`GDRCOPY_OS_VERSION = "Ubuntu24_04"`
`103`		`- FLASHINFER_AOT_COMPILE = "true"`
`104`	`102`	`}`
`105`	`103`	`output = ["type=docker"]`
`106`	`104`	`}`