fix CI issues

Yongbozzz · Yongbozzz · commit e211b99e37b8 · 2025-12-01T09:48:50.000+08:00
Signed-off-by: Yongbozzz &lt;yongbo.zhu@intel.com&gt;
diff --git a/.github/code_spell_ignore.txt b/.github/code_spell_ignore.txt
@@ -1,4 +1,5 @@
 ModelIn
 modelin
 pressEnter
-PromptIn
+PromptIn
+OT
diff --git a/EdgeCraftRAG/edgecraftrag/api/v1/data.py b/EdgeCraftRAG/edgecraftrag/api/v1/data.py
@@ -140,90 +140,6 @@ async def get_files():
     return ctx.get_file_mgr().get_files()
 
 
-# GET chunks by document name
-@data_app.get(path="/v1/data/{document_name}/nodes")
-async def get_nodes_by_document_name(document_name: str) -> List[dict]:
-    pl = ctx.get_pipeline_mgr().get_active_pipeline()
-    if pl is None:
-        raise HTTPException(
-            status_code=status.HTTP_404_NOT_FOUND, detail="No active pipeline")
-
-    nodelist = ctx.get_node_mgr().get_nodes(pl.node_parser.idx)
-
-    if not nodelist:
-        return []
-
-    matching_nodes = []
-    for node in nodelist:
-        if hasattr(node, 'metadata') and node.metadata:
-            node_file_name = node.metadata.get('file_name', '')
-            node_file_path = node.metadata.get('file_path', '')
-
-            if (node_file_name == document_name or
-                document_name in node_file_name or
-                    document_name in node_file_path):
-                node_dict = node.model_dump()
-                matching_nodes.append(node_dict)
-
-    return matching_nodes
-
-
-# GET chunk by node id
-@data_app.get(path="/v1/data/nodes/{node_id}")
-async def get_node_by_id(node_id: str) -> dict:
-    pl = ctx.get_pipeline_mgr().get_active_pipeline()
-    if pl is None:
-        raise HTTPException(
-            status_code=status.HTTP_404_NOT_FOUND, detail="No active pipeline")
-
-    nodelist = ctx.get_node_mgr().get_nodes(pl.node_parser.idx)
-
-    if not nodelist:
-        raise HTTPException(status_code=status.HTTP_404_NOT_FOUND, detail="No nodes found")
-    for node in nodelist:
-        # node_id attribute expected per existing node usage
-        if node.node_id == node_id:
-            return node.model_dump()
-
-    raise HTTPException(status_code=status.HTTP_404_NOT_FOUND, detail=f"Node {node_id} not found")
-
-
-# GET available document names
-@data_app.get(path="/v1/data/documents")
-async def get_document_names():
-    pl = ctx.get_pipeline_mgr().get_active_pipeline()
-    if pl is None:
-        raise HTTPException(
-            status_code=status.HTTP_404_NOT_FOUND, detail="No active pipeline")
-
-    nodelist = ctx.get_node_mgr().get_nodes(pl.node_parser.idx)
-
-    if not nodelist:
-        return {"documents": []}
-
-    documents = {}
-    for node in nodelist:
-        if hasattr(node, 'metadata') and node.metadata:
-            file_name = node.metadata.get('file_name')
-            file_path = node.metadata.get('file_path')
-
-            if file_name and file_name not in documents:
-                documents[file_name] = {
-                    "file_name": file_name,
-                    "file_path": file_path,
-                    "file_type": node.metadata.get('file_type', 'unknown'),
-                    "chunk_count": 0
-                }
-
-            if file_name:
-                documents[file_name]["chunk_count"] += 1
-
-    return {
-        "total_documents": len(documents),
-        "documents": list(documents.values())
-    }
-
-
 # GET a file
 @data_app.get(path="/v1/data/files/{name}")
 async def get_file_docs(name):
diff --git a/EdgeCraftRAG/edgecraftrag/api/v1/prompt.py b/EdgeCraftRAG/edgecraftrag/api/v1/prompt.py
@@ -5,7 +5,7 @@
 from edgecraftrag.context import ctx
 from edgecraftrag.api.v1.pipeline import save_pipeline_configurations
 from fastapi import FastAPI, File, HTTPException, UploadFile, status
-
+from edgecraftrag.utils import DEFAULT_TEMPLATE
 prompt_app = FastAPI()
 
 
@@ -61,6 +61,9 @@ async def get_tagged_prompt():
     except Exception as e:
         raise HTTPException(status_code=status.HTTP_500_INTERNAL_SERVER_ERROR, detail=str(e))
 
+@prompt_app.get(path="/v1/chatqna/prompt/default")
+async def get_default_prompt():
+    return DEFAULT_TEMPLATE
 
 # Reset prompt for LLM ChatQnA
 @prompt_app.post(path="/v1/chatqna/prompt/reset")
diff --git a/EdgeCraftRAG/tools/quick_start.sh b/EdgeCraftRAG/tools/quick_start.sh
@@ -23,7 +23,7 @@ get_enable_function() {
 }
 
 function start_vllm_services() {
-    COMPOSE_FILE="compose_vllm.yaml"
+    COMPOSE_FILE="compose.yaml"
     echo "stop former service..."
     docker compose -f $WORKPATH/docker_compose/intel/gpu/arc/$COMPOSE_FILE down
 
@@ -63,24 +63,11 @@ function start_vllm_services() {
     sudo chown -R 1000:1000 ${HF_CACHE}
     HF_ENDPOINT=https://hf-mirror.com
     # vllm ENV
-    export NGINX_PORT=8086
-    export vLLM_ENDPOINT="http://${HOST_IP}:${NGINX_PORT}"
-    read -p "DP number(how many containers to run vLLM) [1] , press Enter to confirm, or type a new value:" DP_NUM; DP_NUM=${DP_NUM:-1}
-    read -p "Tensor parallel size(your tp size [1]), press Enter to confirm, or type a new value:" TENSOR_PARALLEL_SIZE; TENSOR_PARALLEL_SIZE=${TENSOR_PARALLEL_SIZE:-1}
-
-    for (( x=0; x<DP_NUM; x++ )); do
-        start_gpu=$(( x * TENSOR_PARALLEL_SIZE ))
-        default_gpu_list=$(seq -s, $start_gpu $(( start_gpu + TENSOR_PARALLEL_SIZE - 1 )))
-
-        read -p "selected XPU(your selected_XPU_${x} [${default_gpu_list}]) , press Enter to confirm, or type a new value:" input_gpu_list
-        selected_gpu_list=${input_gpu_list:-$default_gpu_list}
+    export VLLM_SERVICE_PORT_A770=8086
 
-        export SELECTED_XPU_${x}="$selected_gpu_list"
-        export VLLM_SERVICE_PORT_${x}="8$((x+1))00"
-    done
+    read -p "Tensor parallel size(your tp size [1]), press Enter to confirm, or type a new value:" TENSOR_PARALLEL_SIZE; TENSOR_PARALLEL_SIZE=${TENSOR_PARALLEL_SIZE:-1}
     CCL_DG2_USM=$(get_user_input "Set USM (Core=1, Xeon=0, default=0)" 0)
     export HOST_IP=${HOST_IP}
-    export VLLM_SERVICE_PORT_0=8100
     # export ENV
     export MODEL_PATH=${MODEL_PATH}
     export DOC_PATH=${DOC_PATH}
@@ -90,18 +77,14 @@ function start_vllm_services() {
     export no_proxy="localhost, 127.0.0.1, 192.168.1.1, ${HOST_IP}"
     export MILVUS_ENABLED=${MILVUS_ENABLED}
     export CHAT_HISTORY_ROUND=${CHAT_HISTORY_ROUND}
-    export SELECTED_XPU_0=${SELECTED_XPU_0}
     export TENSOR_PARALLEL_SIZE=${TENSOR_PARALLEL_SIZE}
     export CCL_DG2_USM=${CCL_DG2_USM}
     export VIDEOGROUPID=$(getent group video | cut -d: -f3)
     export RENDERGROUPID=$(getent group render | cut -d: -f3)
 
-    bash $WORKPATH/nginx/nginx-conf-generator.sh $DP_NUM $WORKPATH/nginx/nginx.conf
-    export NGINX_CONFIG_PATH="${WORKPATH}/nginx/nginx.conf"
 
     # Start Docker Containers
-    bash $WORKPATH/docker_compose/intel/gpu/arc/multi-arc-yaml-generator.sh $DP_NUM $WORKPATH/docker_compose/intel/gpu/arc/$COMPOSE_FILE
-    docker compose -f $WORKPATH/docker_compose/intel/gpu/arc/$COMPOSE_FILE up -d
+    docker compose --profile a770 -f $WORKPATH/docker_compose/intel/gpu/arc/$COMPOSE_FILE up -d
     echo "ipex-llm-serving-xpu is booting, please wait..."
     n=0
     until [[ "$n" -ge 100 ]]; do
@@ -176,6 +159,7 @@ function start_services() {
     export CHAT_HISTORY_ROUND=${CHAT_HISTORY_ROUND}
     export VIDEOGROUPID=$(getent group video | cut -d: -f3)
     export RENDERGROUPID=$(getent group render | cut -d: -f3)
+    export MAX_MODEL_LEN=5000
 
     # Start Docker Containers
     COMPOSE_FILE="compose.yaml"
@@ -199,10 +183,11 @@ function check_baai_folder() {
 
 function quick_start_vllm_services() {
     WORKPATH=$(dirname "$PWD")
-    COMPOSE_FILE="compose_vllm.yaml"
+    COMPOSE_FILE="compose.yaml"
     EC_RAG_SERVICE_PORT=16010
     docker compose -f $WORKPATH/docker_compose/intel/gpu/arc/$COMPOSE_FILE down
 
+    ip_address=$(hostname -I | awk '{print $1}')
     export HOST_IP=${HOST_IP:-"${ip_address}"}
     export MODEL_PATH=${MODEL_PATH:-"${PWD}/models"}
     export DOC_PATH=${DOC_PATH:-"$WORKPATH/tests"}
@@ -211,21 +196,17 @@ function quick_start_vllm_services() {
     export MILVUS_ENABLED=${MILVUS_ENABLED:-1}
     export CHAT_HISTORY_ROUND=${CHAT_HISTORY_ROUND:-2}
     export HF_ENDPOINT=${HF_ENDPOINT:-https://hf-mirror.com}
-    export NGINX_PORT=${NGINX_PORT:-8086}
-    export NGINX_PORT_0=${NGINX_PORT_0:-8100}
-    export VLLM_SERVICE_PORT_0=${VLLM_SERVICE_PORT_0:-8100}
     export TENSOR_PARALLEL_SIZE=${TENSOR_PARALLEL_SIZE:-1}
-    export SELECTED_XPU_0=${SELECTED_XPU_0:-0}
     export MAX_NUM_SEQS=${MAX_NUM_SEQS:-64}
-    export MAX_NUM_BATCHED_TOKENS=${MAX_NUM_BATCHED_TOKENS:-4000}
-    export MAX_MODEL_LEN=${MAX_MODEL_LEN:-3000}
+    export MAX_MODEL_LEN=${MAX_MODEL_LEN:-10240}
+    export MAX_NUM_BATCHED_TOKENS=${MAX_NUM_BATCHED_TOKENS:-10240}
     export LOAD_IN_LOW_BIT=${LOAD_IN_LOW_BIT:-fp8}
     export CCL_DG2_USM=${CCL_DG2_USM:-0}
-    export vLLM_ENDPOINT=${vLLM_ENDPOINT:-"http://${HOST_IP}:${NGINX_PORT}"}
     export LLM_MODEL=${LLM_MODEL:-Qwen/Qwen3-8B}
     export LLM_MODEL_PATH=${LLM_MODEL_PATH:-"${MODEL_PATH}/Qwen/Qwen3-8B"}
     export VIDEOGROUPID=$(getent group video | cut -d: -f3)
     export RENDERGROUPID=$(getent group render | cut -d: -f3)
+    export VLLM_SERVICE_PORT_A770=8086
 
     check_baai_folder
     export HF_CACHE=${HF_CACHE:-"${HOME}/.cache"}
@@ -237,11 +218,8 @@ function quick_start_vllm_services() {
     sudo chown -R 1000:1000 ${MODEL_PATH} ${DOC_PATH} ${TMPFILE_PATH}
     sudo chown -R 1000:1000 ${HF_CACHE}
     cd $WORKPATH/docker_compose/intel/gpu/arc
-    bash $WORKPATH/nginx/nginx-conf-generator.sh $DP_NUM $WORKPATH/nginx/nginx.conf
-    export NGINX_CONFIG_PATH=${NGINX_CONFIG_PATH:-"$WORKPATH/nginx/nginx.conf"}
 
-    bash $WORKPATH/docker_compose/intel/gpu/arc/multi-arc-yaml-generator.sh $DP_NUM $WORKPATH/docker_compose/intel/gpu/arc/$COMPOSE_FILE
-    docker compose -f $WORKPATH/docker_compose/intel/gpu/arc/$COMPOSE_FILE up -d
+    docker compose --profile a770 -f $WORKPATH/docker_compose/intel/gpu/arc/$COMPOSE_FILE up -d
     echo "ipex-llm-serving-xpu is booting, please wait..."
     n=0
     until [[ "$n" -ge 100 ]]; do
@@ -272,6 +250,7 @@ function quick_start_ov_services() {
     export MODEL_PATH=${MODEL_PATH:-"${PWD}/models"}
     export VIDEOGROUPID=$(getent group video | cut -d: -f3)
     export RENDERGROUPID=$(getent group render | cut -d: -f3)
+    export MAX_MODEL_LEN=5000
 
     check_baai_folder
     export HF_CACHE=${HF_CACHE:-"${HOME}/.cache"}
@@ -292,7 +271,7 @@ function quick_start_ov_services() {
 
 
 function start_vLLM_B60_services() {
-    COMPOSE_FILE="compose_vllm_b60.yaml"
+    COMPOSE_FILE="compose.yaml"
     echo "stop former service..."
     export MODEL_PATH=${MODEL_PATH:-"${PWD}/models"}
     docker compose -f $WORKPATH/docker_compose/intel/gpu/arc/$COMPOSE_FILE down
@@ -339,7 +318,7 @@ function start_vLLM_B60_services() {
     NO_ENABLE_PREFIX_CACHING=$(get_user_input "NO_ENABLE_PREFIX_CACHING (disable prefix caching, 1=disable/0=enable)" "1")
     MAX_NUM_BATCHED_TOKENS=$(get_user_input "MAX_NUM_BATCHED_TOKENS (max number of batched tokens)" "8192")
     DISABLE_LOG_REQUESTS=$(get_user_input "DISABLE_LOG_REQUESTS (disable request logs, 1=disable/0=enable)" "1")
-    MAX_MODEL_LEN=$(get_user_input "MAX_MODEL_LEN (max model context length, e.g. 49152/10240)" "49152")
+    MAX_MODEL_LEN=$(get_user_input "MAX_MODEL_LEN (max model context length, e.g. 40000/10240)" "40000")
     BLOCK_SIZE=$(get_user_input "BLOCK_SIZE (vLLM block size)" "64")
     QUANTIZATION=$(get_user_input "QUANTIZATION (model quantization method, e.g. fp8/int4)" "fp8")
     # export ENV
@@ -371,7 +350,7 @@ function start_vLLM_B60_services() {
     export QUANTIZATION=${QUANTIZATION}
 
     # Start Docker Containers
-    docker compose -f $WORKPATH/docker_compose/intel/gpu/arc/$COMPOSE_FILE up -d
+    docker compose --profile b60 -f $WORKPATH/docker_compose/intel/gpu/arc/$COMPOSE_FILE up -d
     echo "ipex-llm-serving-xpu is booting, please wait..."
     n=0
     until [[ "$n" -ge 100 ]]; do
@@ -389,10 +368,11 @@ function start_vLLM_B60_services() {
 
 function quick_start_vllm_B60_services() {
     WORKPATH=$(dirname "$PWD")
-    COMPOSE_FILE="compose_vllm_b60.yaml"
+    COMPOSE_FILE="compose.yaml"
     EC_RAG_SERVICE_PORT=16010
     docker compose -f $WORKPATH/docker_compose/intel/gpu/arc/$COMPOSE_FILE down
 
+    ip_address=$(hostname -I | awk '{print $1}')
     export HOST_IP=${HOST_IP:-"${ip_address}"}
     export MODEL_PATH=${MODEL_PATH:-"${PWD}/models"}
     export DOC_PATH=${DOC_PATH:-"$WORKPATH/tests"}
@@ -403,26 +383,26 @@ function quick_start_vllm_B60_services() {
     export VIDEOGROUPID=$(getent group video | cut -d: -f3)
     export RENDERGROUPID=$(getent group render | cut -d: -f3)
     # export vllm ENV
-    export DP=${DP:-4}
+    export DP=${DP:-1}
     export TP=${TP:-1}
     export DTYPE=${DTYPE:-float16}
-    export ZE_AFFINITY_MASK=${ZE_AFFINITY_MASK:-0,1,2,3}
+    export ZE_AFFINITY_MASK=${ZE_AFFINITY_MASK:-0}
     export ENFORCE_EAGER=${ENFORCE_EAGER:-1}
     export TRUST_REMOTE_CODE=${TRUST_REMOTE_CODE:-1}
     export DISABLE_SLIDING_WINDOW=${DISABLE_SLIDING_WINDOW:-1}
     export GPU_MEMORY_UTIL=${GPU_MEMORY_UTIL:-0.8}
     export NO_ENABLE_PREFIX_CACHING=${NO_ENABLE_PREFIX_CACHING:-1}
     export MAX_NUM_BATCHED_TOKENS=${MAX_NUM_BATCHED_TOKENS:-8192}
     export DISABLE_LOG_REQUESTS=${disable_LOG_REQUESTS:-1}
-    export MAX_MODEL_LEN=${MAX_MODEL_LEN:-49152}
+    export MAX_MODEL_LEN=${MAX_MODEL_LEN:-40000}
     export BLOCK_SIZE=${BLOCK_SIZE:-64}
     export QUANTIZATION=${QUANTIZATION:-fp8}
 
 
     check_baai_folder
     export no_proxy="localhost, 127.0.0.1, 192.168.1.1, ${HOST_IP}"
     sudo chown -R 1000:1000 ${MODEL_PATH} ${DOC_PATH} ${TMPFILE_PATH}
-    docker compose -f $WORKPATH/docker_compose/intel/gpu/arc/$COMPOSE_FILE up -d
+    docker compose --profile b60 -f $WORKPATH/docker_compose/intel/gpu/arc/$COMPOSE_FILE up -d
     echo "ipex-llm-serving-xpu is booting, please wait..."
     n=0
     until [[ "$n" -ge 100 ]]; do
@@ -450,10 +430,10 @@ function main {
             start_services
         fi
     else
-        export SERVICE_TYPE=${SERVICE_TYPE:-"vLLM_A770"}
-        if [[ "$SERVICE_TYPE" == "vLLM_A770" || "$SERVICE_TYPE" == "vLLM" ]]; then
+        export COMPOSE_PROFILES=${COMPOSE_PROFILES:-""}
+        if [[ "$COMPOSE_PROFILES" == "vLLM_A770" || "$COMPOSE_PROFILES" == "vLLM"  || "$COMPOSE_PROFILES" == "vllm_on_a770" ]]; then
             quick_start_vllm_services
-        elif [[ "$SERVICE_TYPE" == "vLLM_B60" || "$SERVICE_TYPE" == "vLLM_b60" ]]; then
+        elif [[ "$COMPOSE_PROFILES" == "vLLM_B60" || "$COMPOSE_PROFILES" == "vLLM_b60" || "$COMPOSE_PROFILES" == "vllm_on_b60" ]]; then
             quick_start_vllm_B60_services
         else
             quick_start_ov_services