[Iluvatar] Support CINN for paddleocr-vl

wuyujiji · wuyujiji · commit c97cd8c5cf63 · 2026-06-04T11:31:10.000+08:00
diff --git a/custom_ops/iluvatar_ops/flash_attn_unpadded.cu b/custom_ops/iluvatar_ops/flash_attn_unpadded.cu
@@ -24,8 +24,8 @@ void FlashAttnUnpaddedKernel(const paddle::Tensor& q,
                              int num_heads,
                              int head_dim,
                              int num_kv_heads,
-                             int max_seqlens_q,
-                             int max_seqlens_k,
+                             const paddle::Tensor& max_seqlens_q_,
+                             const paddle::Tensor& max_seqlens_k_,
                              bool causal,
                              float scale,
                              paddle::Tensor& out) {
@@ -148,10 +148,13 @@ void FlashAttnUnpaddedKernel(const paddle::Tensor& q,
   cuinferTensorDescriptor_t lse_desc;
   CUINFER_CHECK(cuinferCreateTensorDescriptor(&lse_desc));
 
+  const int32_t* max_seqlens_q = max_seqlens_q_.data<int32_t>();
+  const int32_t* max_seqlens_k = max_seqlens_k_.data<int32_t>();
+
   FmhaFwdFuncArguments args;
   args.batch = batch_size;
-  args.max_seqlen_q = max_seqlens_q;
-  args.max_seqlen_k = max_seqlens_k;
+  args.max_seqlen_q = *max_seqlens_q;
+  args.max_seqlen_k = *max_seqlens_k;
   args.is_causal = causal;
   args.scaling = scale;
   args.window_size_left = -1;
@@ -197,8 +200,8 @@ std::vector<paddle::Tensor> FlashAttnUnpadded(
     const paddle::Tensor& v,
     const paddle::Tensor& cu_seqlens_q,
     const paddle::Tensor& cu_seqlens_k,
-    int max_seqlens_q,
-    int max_seqlens_k,
+    const paddle::Tensor& max_seqlens_q,
+    const paddle::Tensor& max_seqlens_k,
     bool causal,
     float scale,
     bool training) {
@@ -248,21 +251,31 @@ std::vector<paddle::Tensor> FlashAttnUnpadded(
 }
 
 std::vector<std::vector<int64_t>> FlashAttnUnpaddedInferShape(
-    const std::vector<int64_t>& q_shape) {
+    const std::vector<int64_t>& q_shape,
+    const std::vector<int64_t>& k_shape,
+    const std::vector<int64_t>& v_shape,
+    const std::vector<int64_t>& cu_seqlens_q_shape,
+    const std::vector<int64_t>& cu_seqlens_k_shape,
+    const std::vector<int64_t>& max_seqlens_q_shape,
+    const std::vector<int64_t>& max_seqlens_k_shape) {
   return {{q_shape[0], q_shape[1], q_shape[2]}};
 }
 
 std::vector<paddle::DataType> FlashAttnUnpaddedInferDtype(
-    const paddle::DataType& q_dtype) {
+    const paddle::DataType& q_dtype,
+    const paddle::DataType& k_dtype,
+    const paddle::DataType& v_dtype,
+    const paddle::DataType& cu_seqlens_q_dtype,
+    const paddle::DataType& cu_seqlens_v_dtype,
+    const paddle::DataType& max_seqlens_q_dtype,
+    const paddle::DataType& max_seqlens_k_dtype) {
   return {q_dtype};
 }
 
 PD_BUILD_STATIC_OP(cuinfer_flash_attn_unpadded)
-    .Inputs({"q", "k", "v", "cu_seqlens_q", "cu_seqlens_k"})
+    .Inputs({"q", "k", "v", "cu_seqlens_q", "cu_seqlens_k", "max_seqlens_q", "max_seqlens_k"})
     .Outputs({"out"})
-    .Attrs({"max_seqlens_q:int",
-            "max_seqlens_k:int",
-            "causal:bool",
+    .Attrs({"causal:bool",
             "scale:float",
             "training:bool"})
     .SetKernelFn(PD_KERNEL(FlashAttnUnpadded))
diff --git a/custom_ops/setup_ops.py b/custom_ops/setup_ops.py
@@ -605,7 +605,7 @@ def find_end_files(directory, end_str):
 elif paddle.is_compiled_with_xpu():
     assert False, "For XPU, please use setup_ops.py in the xpu_ops directory to compile custom ops."
 elif paddle.is_compiled_with_custom_device("iluvatar_gpu"):
-    _iluvatar_clang_cuda_flags = ["-Wno-non-pod-varargs", "-DPADDLE_DEV", "-DPADDLE_WITH_CUSTOM_DEVICE"]
+    _iluvatar_clang_cuda_flags = ["-Wno-non-pod-varargs", "-DPADDLE_DEV", "-DPADDLE_WITH_CUSTOM_DEVICE", "-std=c++17"]
     setup(
         name="fastdeploy_ops",
         ext_modules=CUDAExtension(
diff --git a/docs/get_started/installation/iluvatar_gpu.md b/docs/get_started/installation/iluvatar_gpu.md
@@ -23,13 +23,13 @@ docker pull ccr-2vdh3abv-pub.cnc.bj.baidubce.com/device/paddle-ixuca:3.3.0-20260
 ### 3.1 Start Container
 
 ```bash
-docker run -itd --name paddle_infer --network host -v /usr/src:/usr/src -v /lib/modules:/lib/modules -v /dev:/dev -v /home/paddle:/home/paddle -v /usr/local/corex/bin/ixsmi:/usr/local/corex/bin/ixsmi -v /usr/local/corex/lib64/libcuda.so.1:/usr/local/corex/lib64/libcuda.so.1 -v /usr/local/corex/lib64/libixml.so:/usr/local/corex/lib64/libixml.so -v /usr/local/corex/lib64/libixthunk.so:/usr/local/corex/lib64/libixthunk.so --privileged --cap-add=ALL --pid=host ccr-2vdh3abv-pub.cnc.bj.baidubce.com/device/paddle-ixuca:3.3.0-20260507
-docker exec -it paddle_infer bash
+docker run -itd --name fd_iluvatar -v /usr/src:/usr/src -v /lib/modules:/lib/modules -v /dev:/dev -v /home/workspace:/home/workspace -v /usr/local/corex/bin/ixsmi:/usr/local/corex/bin/ixsmi -v /usr/local/corex/lib64/libcuda.so.1:/usr/local/corex/lib64/libcuda.so.1 -v /usr/local/corex/lib64/libixml.so:/usr/local/corex/lib64/libixml.so -v /usr/local/corex/lib64/libixthunk.so:/usr/local/corex/lib64/libixthunk.so --privileged --shm-size=64G --net=host --cap-add=ALL --pid=host ccr-2vdh3abv-pub.cnc.bj.baidubce.com/device/paddle-ixuca:3.3.0-20260507
+docker exec -it fd_iluvatar bash
 ```
 
 Note: Because the 4.3.8 SDK in the image is incompatible with KMD, paddle cannot find the iluvatar device. Therefore, it is temporarily necessary to map ixsmi, libcuda.so.1, libixml.so, and libixthunk.so from the host corex-4.3.8 directory into the container.
 
-/home/paddle contains the model files, *.whl packages, and scripts.
+/home/workspace contains the model files, *.whl packages, and scripts.
 
 ### 3.2 Install paddle
 
@@ -478,17 +478,17 @@ export LD_PRELOAD=/usr/local/corex/lib64/libcuda.so.1
 export FD_SAMPLING_CLASS=rejection
 export CUDA_VISIBLE_DEVICES=1
 python3 -m fastdeploy.entrypoints.openai.api_server \
-       --model /data1/fastdeploy/PaddleOCR-VL \
-       --port 8180 \
-       --metrics-port 8471 \
-       --engine-worker-queue-port 8472 \
-       --cache-queue-port 55660 \
-       --max-model-len 16384 \
-       --max-num-batched-tokens 16384 \
-       --max-num-seqs 64 \
-       --workers 2 \
-       --block-size 16 \
-       --graph-optimization-config '{"use_cudagraph": true}'
+        --model /data1/fastdeploy/PaddleOCR-VL \
+        --port 8180 \
+        --metrics-port 8471 \
+        --max-model-len 16384 \
+        --max-num-batched-tokens 16384 \
+        --max-num-seqs 240 \
+        --block-size 16 \
+        --workers 2 \
+        --gpu-memory-utilization 0.7 \
+        --graph-optimization-config '{"graph_opt_level":2, "use_cudagraph": true}'
+
 ```
 
 client:
diff --git a/docs/zh/get_started/installation/iluvatar_gpu.md b/docs/zh/get_started/installation/iluvatar_gpu.md
@@ -23,13 +23,13 @@ docker pull ccr-2vdh3abv-pub.cnc.bj.baidubce.com/device/paddle-ixuca:3.3.0-20260
 ### 3.1 启动容器
 
 ```bash
-docker run -itd --name paddle_infer --network host -v /usr/src:/usr/src -v /lib/modules:/lib/modules -v /dev:/dev -v /home/paddle:/home/paddle -v /usr/local/corex/bin/ixsmi:/usr/local/corex/bin/ixsmi -v /usr/local/corex/lib64/libcuda.so.1:/usr/local/corex/lib64/libcuda.so.1 -v /usr/local/corex/lib64/libixml.so:/usr/local/corex/lib64/libixml.so -v /usr/local/corex/lib64/libixthunk.so:/usr/local/corex/lib64/libixthunk.so --privileged --cap-add=ALL --pid=host ccr-2vdh3abv-pub.cnc.bj.baidubce.com/device/paddle-ixuca:3.3.0-20260507
-docker exec -it paddle_infer bash
+docker run -itd --name fd_iluvatar -v /usr/src:/usr/src -v /lib/modules:/lib/modules -v /dev:/dev -v /home/workspace:/home/workspace -v /usr/local/corex/bin/ixsmi:/usr/local/corex/bin/ixsmi -v /usr/local/corex/lib64/libcuda.so.1:/usr/local/corex/lib64/libcuda.so.1 -v /usr/local/corex/lib64/libixml.so:/usr/local/corex/lib64/libixml.so -v /usr/local/corex/lib64/libixthunk.so:/usr/local/corex/lib64/libixthunk.so --privileged --shm-size=64G --net=host --cap-add=ALL --pid=host ccr-2vdh3abv-pub.cnc.bj.baidubce.com/device/paddle-ixuca:3.3.0-20260507
+docker exec -it fd_iluvatar bash
 ```
 
 注意: 由于镜像中的 4.3.8 SDK 与 KMD 不兼容，paddle 无法找到 iluvatar device。因此，暂时需要将宿主机 corex-4.3.8 目录中的 ixsmi、libcuda.so.1、libixml.so 和 libixthunk.so 映射到容器中
 
-/home/paddle 为模型文件、whl包、脚本所在目录。
+/home/workspace 为模型文件、whl包、脚本所在目录。
 
 ### 3.2 安装paddle
 
@@ -478,17 +478,17 @@ export LD_PRELOAD=/usr/local/corex/lib64/libcuda.so.1
 export FD_SAMPLING_CLASS=rejection
 export CUDA_VISIBLE_DEVICES=1
 python3 -m fastdeploy.entrypoints.openai.api_server \
-       --model /data1/fastdeploy/PaddleOCR-VL \
-       --port 8180 \
-       --metrics-port 8471 \
-       --engine-worker-queue-port 8472 \
-       --cache-queue-port 55660 \
-       --max-model-len 16384 \
-       --max-num-batched-tokens 16384 \
-       --max-num-seqs 64 \
-       --workers 2 \
-       --block-size 16 \
-       --graph-optimization-config '{"use_cudagraph": true}'
+        --model /data1/fastdeploy/PaddleOCR-VL \
+        --port 8180 \
+        --metrics-port 8471 \
+        --max-model-len 16384 \
+        --max-num-batched-tokens 16384 \
+        --max-num-seqs 240 \
+        --block-size 16 \
+        --workers 2 \
+        --gpu-memory-utilization 0.7 \
+        --graph-optimization-config '{"graph_opt_level":2, "use_cudagraph": true}'
+
 ```
 
 客户端:
diff --git a/scripts/run_ci_iluvatar.sh b/scripts/run_ci_iluvatar.sh
@@ -322,7 +322,7 @@ python -m fastdeploy.entrypoints.openai.api_server \
        --max-num-seqs 64 \
        --workers 2 \
        --block-size 16 \
-       --graph-optimization-config '{"use_cudagraph": true}' > server.log 2>&1 &
+       --graph-optimization-config '{"graph_opt_level":2, "use_cudagraph": true}' > server.log 2>&1 &
 
 check_server_status