[KVCache][Engine][BugFix] fix cache evict metadata direction and resource manager v1 bugs

kevincheng2 · claude · kevincheng2 · commit 01b8eb57abf4 · 2026-05-08T15:30:50.000+08:00
## Motivation

修复 cache_manager 和 resource_manager_v1 中的多个 bug。

## Modifications

- `cache_manager.py`: 修复 `free_gpu_block_ids` 返回实际空闲块列表而非 range，调整日志顺序（先打印日志再计算 matched_device/host_ids）
- `common_engine.py`: 修正 typo（Unexcepted → Unexpected）
- `request.py`: 修正 `cache_evict_metadata` 中 src/dst 类型方向错误（DEVICE→HOST 驱逐方向）
- `resource_manager_v1.py`: PD 分离 prefill 节点跳过 prefix cache update_cache_blocks；在 prefill 节点分配后调用 update_cache_blocks

Co-Authored-By: Claude Sonnet 4.6 &lt;noreply@anthropic.com&gt;
diff --git a/fastdeploy/cache_manager/v1/cache_manager.py b/fastdeploy/cache_manager/v1/cache_manager.py
@@ -431,7 +431,7 @@ def gpu_free_block_list(self) -> List[int]:
         with PrefixCacheManager.gpu_free_block_list.
         """
         # Return list representation of available blocks
-        return list(range(self._device_pool.available_blocks()))
+        return list(self._device_pool._free_blocks)
 
     @property
     def available_gpu_resource(self) -> float:
@@ -536,13 +536,14 @@ def match_prefix(
                 if not (self._storage_scheduler and skip_storage):
                     self._radix_tree.increment_ref_nodes(matched_nodes)
 
-                matched_device_ids = [n.block_id for n in result.device_nodes]
-                matched_host_ids = [n.block_id for n in result.host_nodes]
                 logger.info(
                     f"match_prefix for request_id: {request.request_id} total_hashes: {len(block_hashes)}, "
                     f"total_matched: {result.total_matched_blocks} (device_blocks={result.matched_device_nums}, "
                     f"host_blocks={result.matched_host_nums}, storage_hashes={result.matched_storage_nums})"
                 )
+
+                matched_device_ids = [n.block_id for n in result.device_nodes]
+                matched_host_ids = [n.block_id for n in result.host_nodes]
                 logger.debug(
                     f"[match_prefix] request_id={request.request_id} "
                     f"matched_device_block_ids={matched_device_ids} "
diff --git a/fastdeploy/engine/common_engine.py b/fastdeploy/engine/common_engine.py
@@ -2091,7 +2091,7 @@ def _zmq_send_generated_tokens(self):
                             if batch_data:
                                 self.send_response_server.send_response(None, batch_data, worker_pid=wpid)
             except Exception as e:
-                self.llm_logger.error(f"Unexcepted error happend: {e}, {traceback.format_exc()!s}")
+                self.llm_logger.error(f"Unexpected error happend: {e}, {traceback.format_exc()!s}")
 
     def _decode_process_splitwise_requests(self):
         """
diff --git a/fastdeploy/engine/request.py b/fastdeploy/engine/request.py
@@ -664,8 +664,8 @@ def append_evict_metadata(self, metadata: List[CacheSwapMetadata]):
                 self.cache_evict_metadata = CacheSwapMetadata(
                     src_block_ids=meta.src_block_ids,
                     dst_block_ids=meta.dst_block_ids,
-                    src_type=CacheLevel.HOST,
-                    dst_type=CacheLevel.DEVICE,
+                    src_type=CacheLevel.DEVICE,
+                    dst_type=CacheLevel.HOST,
                     hash_values=meta.hash_values,
                 )
 
diff --git a/fastdeploy/engine/sched/resource_manager_v1.py b/fastdeploy/engine/sched/resource_manager_v1.py
@@ -1071,6 +1071,7 @@ def _allocate_decode_and_extend():
                     if (
                         self.config.cache_config.enable_prefix_caching
                         and self.config.scheduler_config.splitwise_role != "decode"
+                        and self.config.scheduler_config.splitwise_role != "prefill"
                         and not self.enable_cache_manager_v1
                     ):
                         self.cache_manager.update_cache_blocks(
@@ -1844,6 +1845,11 @@ def preallocate_resource_in_p(self, request: Request):
                     self.stop_flags[request.idx] = False
                     self.requests[request.request_id] = request
                     self.req_dict[request.request_id] = allocated_position
+
+                    self.cache_manager.update_cache_blocks(
+                        request, self.config.cache_config.block_size, request.need_prefill_tokens
+                    )
+
                     return True
                 else:
                     self._free_blocks(request)