DGX Spark llama.cpp 部署 Gemma4 26B

diudiuu

2 条回复

54 次浏览

前提

上一篇已经尝试部署 2B，但是由于显存限制，部署的效果不太理想，继续尝试部署 26B，下面是部署的相关参数：

llama.cpp 已经是最新版，尽量去下载最新版，可以继续参考我 31B 的帖子进行编译。

模型下载都来自这里 https://huggingface.co/unsloth

google_gemma-4-26B-A4B-it-bf16 量化版本

这个说实话我不知道从哪里下载的，反正是在里面了，我就直接用了。

这个其实第一反应，我个人理解应该不会快到我满意，毕竟还是精度的问题，容易产生带宽不够的问题

还是要试下具体快多少

这个是部署脚本

复制

#!/bin/bash

export GGML_CUDA_ENABLE_UNIFIED_MEMORY=1

/home/romain/llama.cpp/build/bin/llama-server \
  -m /home/romain/models/gemma-4-26B/google_gemma-4-26B-A4B-it-bf16-00001-of-00002.gguf \
  --mmproj /home/romain/models/gemma-4-26B/mmproj-google_gemma-4-26B-A4B-it-bf16.gguf \
  -ngl 999 \
  --jinja \
  -fa on \
  -c 32768 \
  -b 2048 \
  -ub 512 \
  -t 20 \
  --cache-type-k q8_0 \
  --cache-type-v q8_0 \
  --host 0.0.0.0 \
  --port 8080 \
  --alias gemma-4-26B \
  --cont-batching \
  --temp 0.7 \
  --top-p 0.9 \
  --repeat-penalty 1.05

prompt eval: 928 token/s
eval time: 16 token/s（之前 6.5，现在大约 2.5x）

嗯，速度提升了不少，还是不能用，但是已经看到了希望了，继续尝试其他版本。

gemma-4-26B-A4B-it-UD-Q4_K_X 量化版本

重新看了一下模型列表，决定下载这个版本再试一下。

复制

#!/bin/bash
export GGML_CUDA_ENABLE_UNIFIED_MEMORY=1

/home/romain/llama.cpp/build/bin/llama-server \
  -m /home/romain/models/gemma-4-26B/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf \
  --mmproj /home/romain/models/gemma-4-26B/mmproj-google_gemma-4-26B-A4B-it-bf16.gguf \
  -ngl 999 \
  --jinja \
  -fa on \
  -c 131072 \
  -b 2048 \
  -ub 512 \
  -t 20 \
  -np 1 \
  --cache-type-k q4_0 \
  --cache-type-v q4_0 \
  --host 0.0.0.0 \
  --port 8080 \
  --alias gemma-4-26B \
  --temp 0.7 \
  --top-p 0.9 \
  --repeat-penalty 1.05

速度 35 token/s，喜大普奔，起码可以正常使用了。