update Dockerfile and scripts to remove BASE_IMAGE

ilopezluna · ilopezluna · commit 18cc59d33bc4 · 2026-04-28T16:01:57.000+02:00
diff --git a/.github/workflows/release.yml b/.github/workflows/release.yml
@@ -315,6 +315,7 @@ jobs:
           platforms: linux/amd64, linux/arm64
           build-args: |
             "LLAMA_SERVER_VERSION=${{ env.LLAMA_SERVER_VERSION }}"
+            "LLAMA_SERVER_VARIANT=cpu"
             "LLAMA_UPSTREAM_IMAGE=${{ steps.llama-images.outputs.cpu }}"
             "VERSION=${{ env.RELEASE_TAG }}"
           push: true
@@ -332,7 +333,6 @@ jobs:
             "LLAMA_SERVER_VERSION=${{ env.LLAMA_SERVER_VERSION }}"
             "LLAMA_SERVER_VARIANT=cuda"
             "LLAMA_UPSTREAM_IMAGE=${{ steps.llama-images.outputs.cuda }}"
-            "BASE_IMAGE=nvidia/cuda:13.0.2-runtime-ubuntu24.04"
             "VERSION=${{ env.RELEASE_TAG }}"
           push: true
           sbom: true
@@ -349,7 +349,6 @@ jobs:
             "LLAMA_SERVER_VERSION=${{ env.LLAMA_SERVER_VERSION }}"
             "LLAMA_SERVER_VARIANT=cuda"
             "LLAMA_UPSTREAM_IMAGE=${{ steps.llama-images.outputs.cuda }}"
-            "BASE_IMAGE=nvidia/cuda:13.0.2-runtime-ubuntu24.04"
             "VLLM_VERSION=${{ env.VLLM_VERSION }}"
             "VERSION=${{ env.RELEASE_TAG }}"
           push: true
@@ -367,7 +366,6 @@ jobs:
             "LLAMA_SERVER_VERSION=${{ env.LLAMA_SERVER_VERSION }}"
             "LLAMA_SERVER_VARIANT=cuda"
             "LLAMA_UPSTREAM_IMAGE=${{ steps.llama-images.outputs.cuda }}"
-            "BASE_IMAGE=nvidia/cuda:13.0.2-runtime-ubuntu24.04"
             "SGLANG_VERSION=${{ env.SGLANG_VERSION }}"
             "VERSION=${{ env.RELEASE_TAG }}"
           push: true
@@ -385,7 +383,6 @@ jobs:
             "LLAMA_SERVER_VERSION=${{ env.LLAMA_SERVER_VERSION }}"
             "LLAMA_SERVER_VARIANT=rocm"
             "LLAMA_UPSTREAM_IMAGE=${{ steps.llama-images.outputs.rocm }}"
-            "BASE_IMAGE=rocm/dev-ubuntu-24.04:7.2.1-complete"
             "VERSION=${{ env.RELEASE_TAG }}"
           push: true
           sbom: true
diff --git a/.versions b/.versions
@@ -5,4 +5,3 @@ VLLM_METAL_RELEASE=v0.2.0-20260420-142150
 DIFFUSERS_RELEASE=v0.1.0-20260216-000000
 SGLANG_VERSION=0.5.6
 LLAMA_SERVER_VERSION=b8882
-BASE_IMAGE=ubuntu:26.04
diff --git a/Dockerfile b/Dockerfile
@@ -5,10 +5,6 @@ ARG LLAMA_SERVER_VERSION=b8882
 ARG LLAMA_SERVER_VARIANT=cpu
 ARG LLAMA_UPSTREAM_IMAGE=ghcr.io/ggml-org/llama.cpp:server-vulkan-b8882
 
-# Use 26.04 for the default Vulkan-backed Linux image.
-# GPU variants should pair this with a compatible runtime base image.
-ARG BASE_IMAGE=ubuntu:26.04
-
 ARG VERSION=dev
 
 FROM docker.io/library/golang:${GO_VERSION}-bookworm AS builder
@@ -43,11 +39,8 @@ RUN --mount=type=cache,target=/go/pkg/mod \
     --mount=type=cache,target=/root/.cache/go-build \
     CGO_ENABLED=1 GOOS=linux go build -tags=novllm -ldflags="-s -w -X main.Version=${VERSION}" -o model-runner .
 
-# --- Get llama.cpp binary ---
-FROM ${LLAMA_UPSTREAM_IMAGE} AS llama-server
-
-# --- Final image ---
-FROM docker.io/${BASE_IMAGE} AS llamacpp
+# --- Final image: directly FROM the upstream llama.cpp image ---
+FROM ${LLAMA_UPSTREAM_IMAGE} AS llamacpp
 
 ARG LLAMA_SERVER_VARIANT
 
@@ -57,7 +50,8 @@ RUN groupadd --system modelrunner && useradd --system --gid modelrunner -G video
 
 COPY scripts/ /scripts/
 
-# Install ca-certificates for HTTPS and vulkan
+# Install additional packages not shipped by the upstream image
+# (e.g. ca-certificates for HTTPS, mesa patches for aarch64 virtio-vulkan).
 RUN /scripts/apt-install.sh && rm -rf /scripts
 
 WORKDIR /app
@@ -67,29 +61,6 @@ RUN mkdir -p /var/run/model-runner /models && \
     chown -R modelrunner:modelrunner /var/run/model-runner /app /models && \
     chmod -R 755 /models
 
-# Copy the upstream llama.cpp /app layout as-is.  The Go binary-resolver
-# (resolveLlamaServerBin) discovers "llama-server" automatically when the
-# Docker-convention "com.docker.llama-server" is absent.
-COPY --from=llama-server /app/ /app/
-
-# Verify that every shared library copied from the upstream image can resolve
-# its runtime dependencies.  This catches missing system packages (e.g.
-# libgomp1) at build time instead of letting them surface as cryptic
-# "no CPU backend found" errors at runtime.
-RUN set -e; missing=""; \
-    export LD_LIBRARY_PATH=/app; \
-    for f in /app/llama-server /app/*.so; do \
-      out=$(ldd "$f" 2>&1) || true; \
-      not_found=$(echo "$out" | grep "not found" || true); \
-      if [ -n "$not_found" ]; then \
-        missing="$missing\n$f:\n$not_found"; \
-      fi; \
-    done; \
-    if [ -n "$missing" ]; then \
-      printf "ERROR: unresolved shared-library dependencies:\n%b\n" "$missing" >&2; \
-      exit 1; \
-    fi
-
 USER modelrunner
 
 # Set the environment variable for the socket path and LLamA server binary path.
diff --git a/Makefile b/Makefile
@@ -7,7 +7,6 @@ LLAMA_SERVER_VARIANT := cpu
 LLAMA_UPSTREAM_IMAGE ?= $(shell \
 	bash scripts/resolve-llama-upstream-image.sh \
 	"$(LLAMA_SERVER_VERSION)" "$(LLAMA_SERVER_VARIANT)")
-VLLM_BASE_IMAGE := nvidia/cuda:13.0.2-runtime-ubuntu24.04
 DOCKER_IMAGE := docker/model-runner:latest
 DOCKER_IMAGE_VLLM := docker/model-runner:latest-vllm-cuda
 DOCKER_IMAGE_SGLANG := docker/model-runner:latest-sglang
@@ -34,7 +33,6 @@ DOCKER_BUILD_COMMON_ARGS = \
 	--build-arg LLAMA_SERVER_VARIANT=$(LLAMA_SERVER_VARIANT) \
 	--build-arg LLAMA_UPSTREAM_IMAGE=$(LLAMA_UPSTREAM_IMAGE) \
 	--build-arg SGLANG_VERSION=$(SGLANG_VERSION) \
-	--build-arg BASE_IMAGE=$(BASE_IMAGE) \
 	--build-arg VLLM_VERSION='$(VLLM_VERSION)' \
 	--target $(DOCKER_TARGET) \
 	-t $(DOCKER_IMAGE)
@@ -118,7 +116,7 @@ e2e:
 test-docker-ce-installation:
 	@echo "Testing Docker CE installation..."
 	@echo "Note: This requires Docker to be running"
-	BASE_IMAGE=$(BASE_IMAGE) scripts/test-docker-ce-installation.sh
+	scripts/test-docker-ce-installation.sh
 
 validate:
 	find . -type f -name "*.sh" | grep -v "pkg/go-containerregistry\|llamacpp/native/vendor" | xargs shellcheck
@@ -187,8 +185,7 @@ docker-build-vllm:
 	@$(MAKE) docker-build \
 		DOCKER_TARGET=final-vllm \
 		DOCKER_IMAGE=$(DOCKER_IMAGE_VLLM) \
-		LLAMA_SERVER_VARIANT=cuda \
-		BASE_IMAGE=$(VLLM_BASE_IMAGE)
+		LLAMA_SERVER_VARIANT=cuda
 
 # Run vLLM Docker container with TCP port access and mounted model storage
 docker-run-vllm: docker-build-vllm
@@ -199,8 +196,7 @@ docker-build-sglang:
 	@$(MAKE) docker-build \
 		DOCKER_TARGET=final-sglang \
 		DOCKER_IMAGE=$(DOCKER_IMAGE_SGLANG) \
-		LLAMA_SERVER_VARIANT=cuda \
-		BASE_IMAGE=$(VLLM_BASE_IMAGE)
+		LLAMA_SERVER_VARIANT=cuda
 
 # Run SGLang Docker container with TCP port access and mounted model storage
 docker-run-sglang: docker-build-sglang
diff --git a/scripts/apt-install.sh b/scripts/apt-install.sh
@@ -1,5 +1,12 @@
 #!/bin/bash
 
+# Install additional system packages on top of the upstream llama.cpp image.
+#
+# The upstream image already ships GPU libraries (Vulkan, CUDA, ROCm) and
+# libgomp1, so we only need:
+#   - ca-certificates  (for HTTPS model downloads)
+#   - mesa patches     (aarch64 + cpu variant only — Docker Desktop virtio-vulkan)
+
 enable_source_repos() {
   # DEB822 format (Ubuntu 24.04+)
   for f in /etc/apt/sources.list.d/*.sources; do
@@ -41,16 +48,12 @@ main() {
   set -eux -o pipefail
 
   apt-get update
-  # libgomp1 is the OpenMP runtime required by the upstream llama.cpp CPU
-  # backend plugins (libggml-cpu-*.so) which are compiled with -fopenmp.
-  local packages=("ca-certificates" "libgomp1")
-  if [ "$LLAMA_SERVER_VARIANT" = "cpu" ]; then
-    packages+=("libvulkan1")
-    if [ "$(uname -m)" = "aarch64" ]; then
-      rebuild_and_install_mesa
-    else
-      packages+=("mesa-vulkan-drivers")
-    fi
+  local packages=("ca-certificates")
+
+  # On aarch64 CPU (Vulkan) builds, rebuild mesa with Docker Desktop
+  # virtio-vulkan patches.
+  if [ "$LLAMA_SERVER_VARIANT" = "cpu" ] && [ "$(uname -m)" = "aarch64" ]; then
+    rebuild_and_install_mesa
   fi
 
   apt-get install -y "${packages[@]}"