ModelEngine-Group
diff --git a/‎.github/workflows/pull-request.yml‎
Lines changed: 5 additions & 5 deletions b/‎.github/workflows/pull-request.yml‎
Lines changed: 5 additions & 5 deletions
diff --git a/‎…er/Dockerfile.ucm-vllm-ascend.a2-v0.20.2‎ ‎…Dockerfile.ucm-vllm-ascend.a2-deepseekv4‎docker/Dockerfile.ucm-vllm-ascend.a2-v0.20.2 renamed to docker/Dockerfile.ucm-vllm-ascend.a2-deepseekv4 b/‎…er/Dockerfile.ucm-vllm-ascend.a2-v0.20.2‎ ‎…Dockerfile.ucm-vllm-ascend.a2-deepseekv4‎docker/Dockerfile.ucm-vllm-ascend.a2-v0.20.2 renamed to docker/Dockerfile.ucm-vllm-ascend.a2-deepseekv4
diff --git a/‎…er/Dockerfile.ucm-vllm-ascend.a2-v0.11.0‎ ‎…kerfile.ucm-vllm-ascend.a2-v0.18.0glm5.1‎docker/Dockerfile.ucm-vllm-ascend.a2-v0.11.0 renamed to docker/Dockerfile.ucm-vllm-ascend.a2-v0.18.0glm5.1
Lines changed: 4 additions & 10 deletions b/‎…er/Dockerfile.ucm-vllm-ascend.a2-v0.11.0‎ ‎…kerfile.ucm-vllm-ascend.a2-v0.18.0glm5.1‎docker/Dockerfile.ucm-vllm-ascend.a2-v0.11.0 renamed to docker/Dockerfile.ucm-vllm-ascend.a2-v0.18.0glm5.1
Lines changed: 4 additions & 10 deletions
diff --git a/‎docker/Dockerfile.ucm-vllm-cuda-v0.11.0‎ ‎…Dockerfile.ucm-vllm-ascend.a2-v0.20.2rc1‎docker/Dockerfile.ucm-vllm-cuda-v0.11.0 renamed to docker/Dockerfile.ucm-vllm-ascend.a2-v0.20.2rc1
Lines changed: 5 additions & 8 deletions b/‎docker/Dockerfile.ucm-vllm-cuda-v0.11.0‎ ‎…Dockerfile.ucm-vllm-ascend.a2-v0.20.2rc1‎docker/Dockerfile.ucm-vllm-cuda-v0.11.0 renamed to docker/Dockerfile.ucm-vllm-ascend.a2-v0.20.2rc1
Lines changed: 5 additions & 8 deletions
diff --git a/‎ucm/integration/vllm/patch/logger_patch.py‎
Lines changed: 19 additions & 4 deletions b/‎ucm/integration/vllm/patch/logger_patch.py‎
Lines changed: 19 additions & 4 deletions
@@ -101,7 +101,7 @@ jobs:
           cache-from: type=gha,scope=npu
           cache-to: type=gha,mode=max,scope=npu,ignore-error=true
 
-  test-build-vllm-ascend-v0-20-2:
+  test-build-vllm-ascend-deepseekv4:
     timeout-minutes: 25
     runs-on: ubuntu-24.04-arm
     steps:
@@ -116,14 +116,14 @@ jobs:
         uses: docker/build-push-action@v5
         with:
           context: .
-          file: ./docker/Dockerfile.ucm-vllm-ascend.a2-v0.20.2
+          file: ./docker/Dockerfile.ucm-vllm-ascend.a2-deepseekv4
           build-args: |
             PIP_INDEX_URL=https://pypi.org/simple
-          tags: ucm-npu-v0.20.2:latest
+          tags: ucm-npu-deepseekv4:latest
           push: false
           load: false
-          cache-from: type=gha,scope=npu-v0.20.2
-          cache-to: type=gha,mode=max,scope=npu-v0.20.2,ignore-error=true
+          cache-from: type=gha,scope=npu-deepseekv4
+          cache-to: type=gha,mode=max,scope=npu-deepseekv4,ignore-error=true
 
   test-build-vllm-cuda-v0-20-2:
     timeout-minutes: 25
 
@@ -1,26 +1,25 @@
 # Set to other image if needed
 ARG IMAGE_SOURCE="quay.io/ascend"
-ARG IMAGE_NAME_VERSION="vllm-ascend:v0.11.0"
+ARG IMAGE_NAME_VERSION="vllm-ascend:v0.18.0"
 
 FROM ${IMAGE_SOURCE}/${IMAGE_NAME_VERSION}
 
 ARG PIP_INDEX_URL="https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple"
 ARG INSTALL_MODE="source"
 
-# Apply the UCM monkey patch for vllm & vllm_ascend
-ENV ENABLE_UCM_PATCH=1
-
 WORKDIR /workspace
 
 # Install unified-cache-management
 COPY . /workspace/unified-cache-management
 
 RUN pip config set global.index-url ${PIP_INDEX_URL}
 
+RUN pip install --no-cache-dir "transformers==5.4"
+
 # Build or link package
 RUN if [ "${INSTALL_MODE}" != "package" ]; then \
         pip install --no-cache-dir build cmake && \
-        export WORKSPACE=/workspace SKIP_TAR=1 && \
+        export WORKSPACE=/workspace SKIP_TAR=1 ENABLE_SPARSE=false && \
         bash /workspace/unified-cache-management/scripts/build_ascend.sh; \
     else \
         ln -s /workspace/unified-cache-management /workspace/package; \
@@ -29,9 +28,4 @@ RUN if [ "${INSTALL_MODE}" != "package" ]; then \
 # Install UCM
 RUN pip install /workspace/package/uc_manager-*.whl
 
-# Install Ascend custom ops if present
-RUN if [ -f /workspace/package/install_ascend_ops.sh ]; then \
-        cd /workspace/package && bash install_ascend_ops.sh; \
-    fi
-
 CMD ["/bin/bash"]
@@ -1,15 +1,12 @@
 # Set to other image if needed
-ARG IMAGE_SOURCE="vllm"
-ARG IMAGE_NAME_VERSION="vllm-openai:v0.11.0"
+ARG IMAGE_SOURCE="quay.io/ascend"
+ARG IMAGE_NAME_VERSION="vllm-ascend:v0.20.2rc1"
 
 FROM ${IMAGE_SOURCE}/${IMAGE_NAME_VERSION}
 
 ARG PIP_INDEX_URL="https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple"
 ARG INSTALL_MODE="source"
 
-# Apply the UCM monkey patch for vllm
-ENV ENABLE_UCM_PATCH=1
-
 WORKDIR /workspace
 
 # Install unified-cache-management
@@ -20,13 +17,13 @@ RUN pip config set global.index-url ${PIP_INDEX_URL}
 # Build or link package
 RUN if [ "${INSTALL_MODE}" != "package" ]; then \
         pip install --no-cache-dir build cmake && \
-        export WORKSPACE=/workspace SKIP_TAR=1 && \
-        bash /workspace/unified-cache-management/scripts/build_cuda.sh; \
+        export WORKSPACE=/workspace SKIP_TAR=1 ENABLE_SPARSE=false && \
+        bash /workspace/unified-cache-management/scripts/build_ascend.sh; \
     else \
         ln -s /workspace/unified-cache-management /workspace/package; \
     fi
 
 # Install UCM
 RUN pip install /workspace/package/uc_manager-*.whl
 
-ENTRYPOINT ["/bin/bash"]
+CMD ["/bin/bash"]
@@ -1,9 +1,24 @@
-from ucm.integration.vllm.patch.utils import patch_or_inject, when_imported
+import logging
+import os
+
+from ucm.integration.vllm.patch.utils import when_imported
+
+
+def _capture_enabled() -> bool:
+    value = os.getenv("UCM_CAPTURE_VLLM_LOG", "1").strip().lower()
+    return value in ("1", "true", "yes", "on")
 
 
 @when_imported("vllm.logger")
 def patch_logger(mod):
-    from ucm import logger
+    if not _capture_enabled():
+        return
+
+    from ucm.logger import UcmBridgeHandler, get_vllm_capture_handler
 
-    patch_or_inject(mod, "init_logger", logger.init_logger)
-    patch_or_inject(mod, "current_formatter_type", logger.current_formatter_type)
+    vllm_root = logging.getLogger("vllm")
+    if any(isinstance(h, UcmBridgeHandler) for h in vllm_root.handlers):
+        return
+    handler = get_vllm_capture_handler()
+    if handler is not None:
+        vllm_root.addHandler(handler)