fix

niushengxiao · niushengxiao · commit feac81906c33 · 2026-05-20T10:47:59.000+08:00
diff --git a/docker/Dockerfile b/docker/Dockerfile
@@ -62,8 +62,6 @@ RUN export CPATH=/usr/local/cuda/targets/x86_64-linux/include/cccl:/usr/local/cu
 
 RUN apt-get update && apt-get install -y libnuma-dev && rm -rf /var/lib/apt/lists/*
 
-RUN pip install --no-cache-dir "flash-attn-4[13]==4.0.0b13"
-
 ENV CUDA_HOME=/usr/local/cuda \
     GDRCOPY_HOME=/usr/src/gdrdrv-2.4.4/
 
diff --git a/lightllm/common/basemodel/attention/fa4/fp.py b/lightllm/common/basemodel/attention/fa4/fp.py
@@ -56,7 +56,7 @@ def _ensure_fa4_paged_kv_supported(
 
 @dataclasses.dataclass
 class Fa4PrefillAttState(PagedFa3PrefillAttState):
-    def _nomarl_prefill_att(
+    def _normal_prefill_att(
         self, q: torch.Tensor, k: torch.Tensor, v: torch.Tensor, att_control: AttControl, alloc_func=torch.empty
     ) -> torch.Tensor:
         if att_control.use_sliding_window:
diff --git a/lightllm/common/linear_att_cache_manager/linear_att_buffer_manager.py b/lightllm/common/linear_att_cache_manager/linear_att_buffer_manager.py
@@ -26,15 +26,15 @@ def __init__(
             dtype=self.linear_config.conv_state_dtype,
             shape=self.linear_config.get_conv_state_shape(),
             layer_num=self.linear_config.linear_layer_num,
-            device="cpu",
+            device="cuda",
             size_first=True,
         )
         self.ssm_state_cache = LayerCache(
             size=self.size,
             dtype=self.linear_config.ssm_state_dtype,
             shape=self.linear_config.get_ssm_state_shape(),
             layer_num=self.linear_config.linear_layer_num,
-            device="cpu",
+            device="cuda",
             size_first=True,
         )
         self.clear_to_init_state()
diff --git a/requirements.txt b/requirements.txt
@@ -98,3 +98,4 @@ nixl==1.1.0
 xformers==0.0.35
 redis==7.3.0
 litellm>=1.52.0,<1.85
+flash-attn-4[13]==4.0.0b13
diff --git a/test/benchmark/service/benchmark_client.py b/test/benchmark/service/benchmark_client.py
@@ -27,6 +27,13 @@ def get_tokenizer(
     return tokenizer
 
 
+def normalize_model_name(model_name: str) -> str:
+    if not model_name:
+        return model_name
+    normalized = model_name.rstrip("/\\")
+    return normalized or model_name
+
+
 def get_output_length(input_num: int, output_len: int) -> List[int]:
     min_len, max_len = 2, output_len * 2
     mean = (min_len + max_len) * 0.5
@@ -162,7 +169,7 @@ def main():
         return
 
     assert args.tokenizer_path is not None
-    model_name.append(args.tokenizer_path)
+    model_name.append(normalize_model_name(args.tokenizer_path))
     seed_all(args.seed)
     url = args.url
     tokenizer = get_tokenizer(args.tokenizer_path)
diff --git a/test/benchmark/service/benchmark_multiturn.py b/test/benchmark/service/benchmark_multiturn.py
diff --git a/test/benchmark/service/benchmark_qps.py b/test/benchmark/service/benchmark_qps.py