老大也不加个中文语言包，可累死我了,又弄了个启动脚本 #22618

mychenjun · 2026-05-02T15:04:08Z

mychenjun
May 2, 2026

我从昨天听说ollama和lmstudio是llama套壳后就下了这里的源码编译启动,没想到还有个webui页但全是英文的我又看不懂，（真心希望老大搞个中文语言）,先把源码下到我的windows笔记本上,用vscode打开,网页上复制了在里面查找,可累死我了,一夜没睡,汉化了重新编译，再启动看，里面各个按钮点开看,还有英文，又来,总算汉化了差不多了.

那个模型我就想要把ollama下载的模型利用起来,先用ollama list列出模型列表然后找那个实际文件,做软链接到llama.cpp/models下,但是好像谷歌的‌Gemini模型llama.cpp都不能加载不知道为什么,我ollama下了三四个用llama全不能加载.希望老大看下.
还有启动老是要打很长命令，叫deepseek帮我做了个脚本来启动.
chen@mm llama.cpp % cat runllama.sh
#!/bin/bash

配置路径

LLAMA_SERVER="$HOME/llama.cpp/bin/llama-server"
MODELS_DIR="$HOME/llama.cpp/models"
DEFAULT_HOST="0.0.0.0"
DEFAULT_PORT="8080"
DEFAULT_N_GPU_LAYERS="auto"

颜色定义

RED='\033[0;31m'
GREEN='\033[0;32m'
YELLOW='\033[1;33m'
BLUE='\033[0;34m'
NC='\033[0m' # No Color

获取模型列表函数（兼容 macOS）

get_models() {
local models=()
for f in "$MODELS_DIR"/*.gguf; do
if [[ -f "$f" ]]; then
basename "$f" .gguf
fi
done
printf '%s\n' "${models[@]}"
}

显示帮助

show_help() {
echo "用法: $0 [选项]"
echo ""
echo "选项:"
echo " -h, --help 显示帮助"
echo " -m, --model MODEL 直接指定模型名称（跳过选择）"
echo " --host HOST 服务器主机地址 (默认: $DEFAULT_HOST)"
echo " -p, --port PORT 服务器端口 (默认: $DEFAULT_PORT)"
echo ""
echo "示例:"
echo " $0 # 交互式选择"
echo " $0 -m qwen3.5_9b # 直接启动指定模型"
echo " $0 --host 127.0.0.1 --port 8080 # 只允许本地访问"
}

检查 llama-server 是否存在

if [[ ! -f "$LLAMA_SERVER" ]]; then
echo -e "${RED}错误: 找不到 llama-server 在 $LLAMA_SERVER${NC}"
exit 1
fi

检查模型目录

if [[ ! -d "$MODELS_DIR" ]]; then
echo -e "${RED}错误: 模型目录不存在 $MODELS_DIR${NC}"
exit 1
fi

获取模型列表（兼容 macOS 不使用 mapfile）

models=()
for f in "$MODELS_DIR"/*.gguf; do
if [[ -f "$f" ]]; then
models+=("$(basename "$f" .gguf)")
fi
done

if [[ ${#models[@]} -eq 0 ]]; then
echo -e "${RED}错误: 在 $MODELS_DIR 中没有找到模型文件${NC}"
echo "请先创建模型软链接"
exit 1
fi

解析命令行参数

HOST="$DEFAULT_HOST"
PORT="$DEFAULT_PORT"
MODEL_NAME=""

while [[ $# -gt 0 ]]; do
case $1 in
-h|--help)
show_help
exit 0
;;
-m|--model)
MODEL_NAME="$2"
shift 2
;;
--host)
HOST="$2"
shift 2
;;
-p|--port)
PORT="$2"
shift 2
;;
*)
echo -e "${RED}未知参数: $1${NC}"
show_help
exit 1
;;
esac
done

如果没有指定模型，显示选择菜单

if [[ -z "$MODEL_NAME" ]]; then
echo -e "${GREEN}========================================${NC}"
echo -e "${GREEN} llama-server 启动脚本${NC}"
echo -e "${GREEN}========================================${NC}"
echo ""

echo -e "${YELLOW}可用模型列表:${NC}"
echo "----------------------------------------"
for i in "${!models[@]}"; do
    model_file="$MODELS_DIR/${models[$i]}.gguf"
    model_size=$(du -h "$model_file" 2>/dev/null | cut -f1)
    echo -e "$((i+1)). ${models[$i]} ${BLUE}($model_size)${NC}"
done
echo "----------------------------------------"
echo ""

# 选择模型
while true; do
    read -p "请选择模型 (1-${#models[@]}): " choice
    if [[ "$choice" =~ ^[0-9]+$ ]] && [ "$choice" -ge 1 ] && [ "$choice" -le "${#models[@]}" ]; then
        MODEL_NAME="${models[$((choice-1))]}"
        break
    else
        echo -e "${RED}无效选择，请重新输入${NC}"
    fi
done

fi

验证模型文件

MODEL_FILE="$MODELS_DIR/${MODEL_NAME}.gguf"
if [[ ! -f "$MODEL_FILE" ]]; then
echo -e "${RED}错误: 找不到模型文件 $MODEL_FILE${NC}"
exit 1
fi

echo ""
echo -e "${GREEN}已选择模型: ${MODEL_NAME}${NC}"
echo ""

从模型文件获取原生上下文大小

echo -e "${YELLOW}正在读取模型信息...${NC}"
MODEL_CTX=""
if [[ -f "$LLAMA_SERVER" ]]; then
# 尝试从模型文件获取上下文大小
MODEL_CTX=$("$HOME/llama.cpp/build/bin/llama-gguf" -f "$MODEL_FILE" 2>/dev/null | grep "llama.context_length" | awk '{print $2}')
fi

默认参数

DEFAULT_TEMP="0.80"
DEFAULT_TOP_K="40"
DEFAULT_TOP_P="0.95"
DEFAULT_PRESENCE_PENALTY="0.00"
DEFAULT_FREQUENCY_PENALTY="0.00"
DEFAULT_CTX_SIZE="${MODEL_CTX:-4096}"
DEFAULT_N_PREDICT="512"
DEFAULT_BATCH_SIZE="512"
DEFAULT_UBATCH_SIZE="512"

echo -e "${GREEN}模型原生上下文: $DEFAULT_CTX_SIZE${NC}"
echo ""

显示默认值并询问修改

echo -e "${YELLOW}========================================${NC}"
echo -e "${YELLOW}服务器参数配置${NC}"
echo -e "${YELLOW}========================================${NC}"
echo -e "${BLUE}提示: 直接回车使用默认值${NC}"
echo ""

主机地址

read -p "主机地址 [默认: $HOST]: " input
HOST=${input:-$HOST}

端口

read -p "端口 [默认: $PORT]: " input
PORT=${input:-$PORT}

echo ""
echo -e "${YELLOW}========================================${NC}"
echo -e "${YELLOW}模型参数配置${NC}"
echo -e "${YELLOW}========================================${NC}"
echo ""

Temperature

read -p "Temperature [默认: $DEFAULT_TEMP]: " input
TEMP=${input:-$DEFAULT_TEMP}

Top K

read -p "Top K [默认: $DEFAULT_TOP_K]: " input
TOP_K=${input:-$DEFAULT_TOP_K}

Top P

read -p "Top P [默认: $DEFAULT_TOP_P]: " input
TOP_P=${input:-$DEFAULT_TOP_P}

Presence Penalty

read -p "Presence Penalty [默认: $DEFAULT_PRESENCE_PENALTY]: " input
PRESENCE_PENALTY=${input:-$DEFAULT_PRESENCE_PENALTY}

Frequency Penalty

read -p "Frequency Penalty [默认: $DEFAULT_FREQUENCY_PENALTY]: " input
FREQUENCY_PENALTY=${input:-$DEFAULT_FREQUENCY_PENALTY}

上下文大小

read -p "上下文大小 [默认: $DEFAULT_CTX_SIZE]: " input
CTX_SIZE=${input:-$DEFAULT_CTX_SIZE}

最大预测 token 数

read -p "最大预测 Token 数 [默认: $DEFAULT_N_PREDICT, -1=无限制]: " input
N_PREDICT=${input:-$DEFAULT_N_PREDICT}

Batch Size

read -p "Batch Size [默认: $DEFAULT_BATCH_SIZE]: " input
BATCH_SIZE=${input:-$DEFAULT_BATCH_SIZE}

GPU 层数

read -p "GPU 层数 [默认: $DEFAULT_N_GPU_LAYERS, auto=自动, all=全部, 数字=指定层数]: " input
N_GPU_LAYERS=${input:-$DEFAULT_N_GPU_LAYERS}

echo ""
echo -e "${GREEN}========================================${NC}"
echo -e "${GREEN}配置总结${NC}"
echo -e "${GREEN}========================================${NC}"
echo -e "模型: ${BLUE}$MODEL_NAME${NC}"
echo -e "主机: ${BLUE}http://$HOST:$PORT${NC}"
echo -e "Temperature: ${BLUE}$TEMP${NC}"
echo -e "Top K: ${BLUE}$TOP_K${NC}"
echo -e "Top P: ${BLUE}$TOP_P${NC}"
echo -e "Presence Penalty: ${BLUE}$PRESENCE_PENALTY${NC}"
echo -e "Frequency Penalty:${BLUE}$FREQUENCY_PENALTY${NC}"
echo -e "上下文大小: ${BLUE}$CTX_SIZE${NC}"
echo -e "最大 Token: ${BLUE}$N_PREDICT${NC}"
echo -e "Batch Size: ${BLUE}$BATCH_SIZE${NC}"
echo -e "GPU 层数: ${BLUE}$N_GPU_LAYERS${NC}"
echo ""

read -p "启动服务器? (y/n): " confirm
if [[ ! "$confirm" =~ ^[Yy]$ ]]; then
echo "已取消"
exit 0
fi

echo ""
echo -e "${GREEN}正在启动 llama-server...${NC}"
echo "================================================"

构建命令

CMD="$LLAMA_SERVER
-m "$MODEL_FILE"
--host $HOST
--port $PORT
--temp $TEMP
--top-k $TOP_K
--top-p $TOP_P
--presence-penalty $PRESENCE_PENALTY
--frequency-penalty $FREQUENCY_PENALTY
--ctx-size $CTX_SIZE
--n-predict $N_PREDICT
--batch-size $BATCH_SIZE"

添加 GPU 层数参数

if [[ "$N_GPU_LAYERS" != "auto" ]]; then
if [[ "$N_GPU_LAYERS" == "all" ]]; then
CMD="$CMD -ngl 999"
else
CMD="$CMD -ngl $N_GPU_LAYERS"
fi
fi

echo -e "${BLUE}执行命令:${NC}"
echo "$CMD"
echo "================================================"
echo ""

执行命令

eval "$CMD"
chen@mm llama.cpp %
最后希望llama.cpp越来越好.

mychenjun · 2026-05-02T15:10:28Z

mychenjun
May 2, 2026
Author

我链接的ollama模型
chen@mm llama.cpp % cd models
chen@mm models % ls
all-minilm_latest.gguf deepseek-r1_8b.gguf llama3.2_3b.gguf qwen2.5-coder_14b.gguf
deepseek-coder_6.7b.gguf glm4_9b.gguf nomic-embed-text_latest.gguf qwen2.5_14b.gguf
deepseek-r1_14b.gguf llama3.1_8b.gguf phi4-reasoning_latest.gguf translategemma_latest.gguf
chen@mm models % ls -la
total 0
drwxr-xr-x 14 chen staff 448 May 2 13:26 .
drwxr-xr-x 5 chen staff 160 May 2 22:25 ..
lrwxr-xr-x 1 chen staff 104 May 2 11:19 all-minilm_latest.gguf -> /Users/chen/.ollama/models/blobs/sha256-797b70c4edf85907fe0a49eb85811256f65fa0f7bf52166b147fd16be2be4662
lrwxr-xr-x 1 chen staff 104 May 2 11:19 deepseek-coder_6.7b.gguf -> /Users/chen/.ollama/models/blobs/sha256-59bb50d8116b6a1f9bfbb940d6bb946a05554e591e30c8c2429ed6c854867ecb
lrwxr-xr-x 1 chen staff 104 May 2 11:19 deepseek-r1_14b.gguf -> /Users/chen/.ollama/models/blobs/sha256-6e9f90f02bb3b39b59e81916e8cfce9deb45aeaeb9a54a5be4414486b907dc1e
lrwxr-xr-x 1 chen staff 104 May 2 11:19 deepseek-r1_8b.gguf -> /Users/chen/.ollama/models/blobs/sha256-e6a7edc1a4d7d9b2de136a221a57336b76316cfe53a252aeba814496c5ae439d
lrwxr-xr-x 1 chen staff 104 May 2 11:19 glm4_9b.gguf -> /Users/chen/.ollama/models/blobs/sha256-b506a070d1152798d435ec4e7687336567ae653b3106f73b7b4ac7be1cbc4449
lrwxr-xr-x 1 chen staff 104 May 2 11:19 llama3.1_8b.gguf -> /Users/chen/.ollama/models/blobs/sha256-667b0c1932bc6ffc593ed1d03f895bf2dc8dc6df21db3042284a6f4416b06a29
lrwxr-xr-x 1 chen staff 104 May 2 11:19 llama3.2_3b.gguf -> /Users/chen/.ollama/models/blobs/sha256-dde5aa3fc5ffc17176b5e8bdc82f587b24b2678c6c66101bf7da77af9f7ccdff
lrwxr-xr-x 1 chen staff 104 May 2 11:19 nomic-embed-text_latest.gguf -> /Users/chen/.ollama/models/blobs/sha256-970aa74c0a90ef7482477cf803618e776e173c007bf957f635f1015bfcfef0e6
lrwxr-xr-x 1 chen staff 104 May 2 11:19 phi4-reasoning_latest.gguf -> /Users/chen/.ollama/models/blobs/sha256-89f38c5f78de6092c203b63dd62ff1285276a6f8ee140dd1eb2f6e196a631f40
lrwxr-xr-x 1 chen staff 104 May 2 11:19 qwen2.5-coder_14b.gguf -> /Users/chen/.ollama/models/blobs/sha256-ac9bc7a69dab38da1c790838955f1293420b55ab555ef6b4615efa1c1507b1ed
lrwxr-xr-x 1 chen staff 104 May 2 11:19 qwen2.5_14b.gguf -> /Users/chen/.ollama/models/blobs/sha256-2049f5674b1e92b4464e5729975c9689fcfbf0b0e4443ccf10b5339f370f9a54
lrwxr-xr-x 1 chen staff 104 May 2 11:19 translategemma_latest.gguf -> /Users/chen/.ollama/models/blobs/sha256-bdbf939b402e2f88fbe3e918beb777813009335756b4c17be7fe008dfe4815d4

1 reply

wjddythhk May 2, 2026

第一次用cpp，B站教程也比较少，可以请教一下大佬要怎么操作吗？

mychenjun · 2026-05-02T15:17:23Z

mychenjun
May 2, 2026
Author

忘了说我的系统了.
Model Name: Mac mini
Model Identifier: Mac16,10
Chip: Apple M4
Total Number of Cores: 10 (4 Performance and 6 Efficiency)
Memory: 24 GB

0 replies

Pauliehedron · 2026-05-08T02:12:56Z

Pauliehedron
May 8, 2026

Try for Mac <3 : https://github.com/ggml-org/LlamaBarn

How llama.cpp/llama-server: https://unsloth.ai/docs/zh/mo-xing/gemma-4#llama.cpp-zhi-nan

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

老大也不加个中文语言包，可累死我了,又弄了个启动脚本 #22618

Uh oh!

{{title}}

Uh oh!

Replies: 3 comments 1 reply

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

老大也不加个中文语言包，可累死我了,又弄了个启动脚本 #22618

Uh oh!

mychenjun May 2, 2026

配置路径

颜色定义

获取模型列表函数（兼容 macOS）

显示帮助

检查 llama-server 是否存在

检查模型目录

获取模型列表（兼容 macOS 不使用 mapfile）

解析命令行参数

如果没有指定模型，显示选择菜单

验证模型文件

从模型文件获取原生上下文大小

默认参数

显示默认值并询问修改

主机地址

端口

Temperature

Top K

Top P

Presence Penalty

Frequency Penalty

上下文大小

最大预测 token 数

Batch Size

GPU 层数

构建命令

添加 GPU 层数参数

执行命令

Replies: 3 comments · 1 reply

Uh oh!

mychenjun May 2, 2026 Author

Uh oh!

wjddythhk May 2, 2026

Uh oh!

mychenjun May 2, 2026 Author

Uh oh!

Pauliehedron May 8, 2026

mychenjun
May 2, 2026

Replies: 3 comments 1 reply

mychenjun
May 2, 2026
Author

mychenjun
May 2, 2026
Author

Pauliehedron
May 8, 2026