ModelEngine-Group
diff --git a/‎ucm/integration/vllm/patch/apply_patch.py‎
Lines changed: 3 additions & 0 deletions b/‎ucm/integration/vllm/patch/apply_patch.py‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎…integration/vllm/patch/v0180/__init__.py‎ ‎…ration/vllm/patch/v0180/vllm/__init__.py‎ucm/integration/vllm/patch/v0180/__init__.py renamed to ucm/integration/vllm/patch/v0180/vllm/__init__.py b/‎…integration/vllm/patch/v0180/__init__.py‎ ‎…ration/vllm/patch/v0180/vllm/__init__.py‎ucm/integration/vllm/patch/v0180/__init__.py renamed to ucm/integration/vllm/patch/v0180/vllm/__init__.py
diff --git a/‎ucm/integration/vllm/patch/v0180/vllm/pc/__init__.py‎ b/‎ucm/integration/vllm/patch/v0180/vllm/pc/__init__.py‎
diff --git a/‎ucm/integration/vllm/patch/v0180/vllm/pc/metrics/__init__.py‎ b/‎ucm/integration/vllm/patch/v0180/vllm/pc/metrics/__init__.py‎
diff --git a/‎ucm/integration/vllm/patch/v0180/vllm/pc/metrics/stats.py‎
Lines changed: 17 additions & 0 deletions b/‎ucm/integration/vllm/patch/v0180/vllm/pc/metrics/stats.py‎
Lines changed: 17 additions & 0 deletions
diff --git a/‎ucm/integration/vllm/patch/v0180/vllm/pc_patch.py‎
Lines changed: 17 additions & 0 deletions b/‎ucm/integration/vllm/patch/v0180/vllm/pc_patch.py‎
Lines changed: 17 additions & 0 deletions
@@ -136,6 +136,9 @@ def apply_all_patches() -> None:
                 if ENABLE_SPARSE:
                     logger.info("UCM patching vllm for sparse...")
                     import ucm.integration.vllm.patch.v0110.vllm.sparse_patch
+            case "0.18.0":
+                logger.info("UCM patching vllm for pc...")
+                import ucm.integration.vllm.patch.v0180.vllm.pc_patch
             case _:
                 pass
 
 
@@ -0,0 +1,17 @@
+def update_from_output(
+    self,
+    num_cached_tokens: int,
+    num_external_computed_tokens: int,
+    prompt_len: int,
+) -> None:
+    """Update stats from a prefill output."""
+    recomputed = 1 if (num_cached_tokens + 1 == prompt_len) else 0
+
+    self.computed += prompt_len - num_cached_tokens
+    self.external_kv_transfer += num_external_computed_tokens
+    self.local_cache_hit += max(
+        0, num_cached_tokens + recomputed - num_external_computed_tokens
+    )
+    self.cached_tokens += num_cached_tokens
+    self.recomputed_tokens += recomputed
+    self.total += prompt_len
@@ -0,0 +1,17 @@
+from ucm.integration.vllm.patch.utils import patch_or_inject, when_imported
+from ucm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+@when_imported("vllm.v1.metrics.stats")
+def patch_stats(mod):
+    logger.debug(f"Patched {mod} called")
+
+    from ucm.integration.vllm.patch.v0180.vllm.pc.metrics import stats
+
+    patch_or_inject(
+        mod.PromptTokenStats,
+        "update_from_output",
+        stats.update_from_output,
+    )