[Usage] Move use layerwise and hit ratio into config file (#784)

harrisonyhq · web-flow · commit 97851775b1e9 · 2026-03-30T20:46:40.000+08:00
## Purpose
Move use layerwise and hit ratio into config file.
## Modifications 
Get ucm_config inside UCMConnector, and use ucm_config to choose the
actual connector.
## Test

Co-authored-by: harrisonyhq &lt;harrisonyhq@users.noreply.github.com&gt;
diff --git a/docs/source/user-guide/prefix-cache/pipeline_store.md b/docs/source/user-guide/prefix-cache/pipeline_store.md
@@ -151,14 +151,16 @@ vllm serve Qwen/Qwen2.5-14B-Instruct \
     "kv_connector_extra_config": {"UCM_CONFIG_FILE": "/vllm-workspace/unified-cache-management/examples/ucm_config_example.yaml"}
 }'
 ```
-You can also use the Layerwise Connector by adding `"use_layerwise": true` to the `kv_connector_extra_config`.
+You can also use the Layerwise Connector by adding `"use_layerwise": true` in the `UCM_CONFIG_FILE`.
 for example:
 
-```bash
-"kv_connector_extra_config": {
-  "use_layerwise": true,
-  "UCM_CONFIG_FILE": "/home/qiuyuhao1/unified-cache-management/examples/ucm_config_example.yaml"
-}
+```yaml
+ucm_connectors:
+  - ucm_connector_name: "UcmPipelineStore"
+    ucm_connector_config:
+      store_pipeline: "Cache|Posix"
+      storage_backends: "/mnt/test"
+use_layerwise: true
 ```
 
 **⚠️ Make sure to replace `"/vllm-workspace/unified-cache-management/examples/ucm_config_example.yaml"` with your actual config file path.**
diff --git a/examples/deployments/scripts/vllm/config.properties b/examples/deployments/scripts/vllm/config.properties
@@ -91,7 +91,6 @@ enable_ascend_scheduler=false
 #****************************************
 # set true to enable UCM
 ucm_enable=true
-use_layerwise=false
 ucm_config_yaml_path=/vllm-workspace/unified-cache-management/examples/ucm_config_example.yaml
 export ENABLE_UCM_PATCH=1
 export ENABLE_SPARSE=FALSE
diff --git a/examples/deployments/scripts/vllm/run_vllm.sh b/examples/deployments/scripts/vllm/run_vllm.sh
@@ -37,7 +37,6 @@ start_server() {
     echo "enable_prefix_caching    = $enable_prefix_caching"
     echo "async_scheduling         = $async_scheduling"
     echo "graph_mode               = $graph_mode"
-    echo "use_layerwise            = $use_layerwise"
     if [[ "$ucm_enable" == "true" ]]; then
         echo "ucm_config_file          = $ucm_config_yaml_path"
     fi
@@ -109,7 +108,6 @@ start_server() {
             \"kv_connector_module_path\":\"ucm.integration.vllm.ucm_connector\",
             \"kv_role\":\"kv_both\",
             \"kv_connector_extra_config\":{
-                \"use_layerwise\": $use_layerwise,  
                 \"UCM_CONFIG_FILE\":\"$ucm_config_yaml_path\"
             }
         }"
diff --git a/examples/deployments/scripts/vllm/run_vllm_dp.sh b/examples/deployments/scripts/vllm/run_vllm_dp.sh
@@ -82,7 +82,6 @@ start_server() {
     echo "enable_prefix_caching    = $enable_prefix_caching"
     echo "async_scheduling         = $async_scheduling"
     echo "graph_mode               = $graph_mode"
-    echo "use_layerwise            = $use_layerwise"
     if [[ "$ucm_enable" == "true" ]]; then
         echo "ucm_config_file          = $ucm_config_yaml_path"
     fi
@@ -155,7 +154,6 @@ start_server() {
             \"kv_connector_module_path\":\"ucm.integration.vllm.ucm_connector\",
             \"kv_role\":\"kv_both\",
             \"kv_connector_extra_config\":{
-                \"use_layerwise\":$use_layerwise,
                 \"UCM_CONFIG_FILE\":\"$ucm_config_yaml_path\"
             }
         }"
diff --git a/ucm/integration/vllm/ucm_connector.py b/ucm/integration/vllm/ucm_connector.py
@@ -237,7 +237,6 @@ def __init__(self, vllm_config: "VllmConfig", role: KVConnectorRole):
         ucm_config = Config(vllm_config.kv_transfer_config)
         self.engine_id = vllm_config.kv_transfer_config.engine_id
         self.launch_config = ucm_config.get_config()
-        logger.info(f"self.launch_config: {self.launch_config}")
         self.connector_configs = self.launch_config.get("ucm_connectors", [])
         self.enable_event_sync = self.launch_config.get("enable_event_sync", True)
         assert len(self.connector_configs) > 0, "no storage connector name in config."
@@ -853,11 +852,7 @@ def wait_for_save(self) -> None:
 class UCMCPConnector(UCMLayerWiseConnector):
     def __init__(self, vllm_config: "VllmConfig", role: KVConnectorRole):
         super().__init__(vllm_config, role)
-        self.use_layerwise = (
-            self._vllm_config.kv_transfer_config.kv_connector_extra_config.get(
-                "use_layerwise", False
-            )
-        )
+        self.use_layerwise = self.launch_config.get("use_layerwise", False)
 
         try:
             from vllm.distributed import get_dcp_group, get_pcp_group
@@ -1120,22 +1115,21 @@ class UCMConnector(KVConnectorBase_V1):
     def __init__(self, vllm_config: "VllmConfig", role: KVConnectorRole):
         super().__init__(vllm_config=vllm_config, role=role)
         self.connector: KVConnectorBase_V1
-        # TODO new conn by config
+        ucm_config = Config(vllm_config.kv_transfer_config)
+        self.launch_config = ucm_config.get_config()
+        logger.info(f"self.launch_config: {self.launch_config}")
+
         use_layerwise = (
-            self._vllm_config.kv_transfer_config.kv_connector_extra_config.get(
-                "use_layerwise", False
-            )
+            self.launch_config.get("use_layerwise", False)
+            if self.launch_config is not None
+            else False
         )
         pp_enabled = self._vllm_config.parallel_config.pipeline_parallel_size > 1
         if pp_enabled and not use_layerwise:
             raise RuntimeError(
                 "Pipeline parallelism is not supported in UCMDirectConnector, please set use_layerwise=True."
             )
-        if (
-            self._vllm_config.kv_transfer_config is not None
-            and "hit_ratio"
-            in self._vllm_config.kv_transfer_config.kv_connector_extra_config
-        ):
+        if self.launch_config is not None and "hit_ratio" in self.launch_config:
             self.connector = UCMMockConnector(vllm_config, role)
         elif (
             hasattr(self._vllm_config.parallel_config, "prefill_context_parallel_size")
@@ -1147,12 +1141,7 @@ def __init__(self, vllm_config: "VllmConfig", role: KVConnectorRole):
             > 1
         ):
             self.connector = UCMCPConnector(vllm_config, role)
-        elif (
-            self._vllm_config.kv_transfer_config is not None
-            and self._vllm_config.kv_transfer_config.kv_connector_extra_config.get(
-                "use_layerwise", False
-            )
-        ):
+        elif use_layerwise:
             self.connector = UCMLayerWiseConnector(vllm_config, role)
         else:
             self.connector = UCMDirectConnector(vllm_config, role)