DGX Spark llama.cpp 部署 Gemma4 26B

2 条回复
32 次浏览

前提

上一篇已经尝试部署 2B,但是由于显存限制,部署的效果不太理想,继续尝试部署 26B,下面是部署的相关参数:

llama.cpp 已经是最新版,尽量去下载最新版,可以继续参考我 31B 的帖子进行编译。

模型下载都来自这里 https://huggingface.co/unsloth

google_gemma-4-26B-A4B-it-bf16 量化版本

这个说实话我不知道从哪里下载的,反正是在里面了,我就直接用了。

这个其实第一反应,我个人理解应该不会快到我满意,毕竟还是精度的问题,容易产生带宽不够的问题

还是要试下具体快多少

这个是部署脚本

复制
#!/bin/bash

export GGML_CUDA_ENABLE_UNIFIED_MEMORY=1

/home/romain/llama.cpp/build/bin/llama-server \
  -m /home/romain/models/gemma-4-26B/google_gemma-4-26B-A4B-it-bf16-00001-of-00002.gguf \
  --mmproj /home/romain/models/gemma-4-26B/mmproj-google_gemma-4-26B-A4B-it-bf16.gguf \
  -ngl 999 \
  --jinja \
  -fa on \
  -c 32768 \
  -b 2048 \
  -ub 512 \
  -t 20 \
  --cache-type-k q8_0 \
  --cache-type-v q8_0 \
  --host 0.0.0.0 \
  --port 8080 \
  --alias gemma-4-26B \
  --cont-batching \
  --temp 0.7 \
  --top-p 0.9 \
  --repeat-penalty 1.05

prompt eval: 928 token/s
eval time: 16 token/s(之前 6.5,现在大约 2.5x)

嗯,速度提升了不少,还是不能用,但是已经看到了希望了,继续尝试其他版本。

gemma-4-26B-A4B-it-UD-Q4_K_X 量化版本

重新看了一下模型列表,决定下载这个版本再试一下。

复制
#!/bin/bash
export GGML_CUDA_ENABLE_UNIFIED_MEMORY=1

/home/romain/llama.cpp/build/bin/llama-server \
  -m /home/romain/models/gemma-4-26B/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf \
  --mmproj /home/romain/models/gemma-4-26B/mmproj-google_gemma-4-26B-A4B-it-bf16.gguf \
  -ngl 999 \
  --jinja \
  -fa on \
  -c 131072 \
  -b 2048 \
  -ub 512 \
  -t 20 \
  -np 1 \
  --cache-type-k q4_0 \
  --cache-type-v q4_0 \
  --host 0.0.0.0 \
  --port 8080 \
  --alias gemma-4-26B \
  --temp 0.7 \
  --top-p 0.9 \
  --repeat-penalty 1.05

速度 35 token/s,喜大普奔,起码可以正常使用了。

结论

  1. 26B 的模型在 DGX 上是可以部署的,虽然速度不快,但至少可以正常使用了。
  2. 量化版本的模型在速度上有明显提升,尤其是 UD-Q4_K_X 版本,速度提升了近 5 倍。虽然质量可能会有一定损失,但对于一些应用场景来说是可以接受的。
  3. 继续等待社区的优化和更多量化版本的发布,可能会有更好的性能表现。
  4. 现在要做的事情就是和 OpenClaw 联动测试它的推理效果,看看实际应用效果如何。
前排打手

llama.cpp 好啊,慢的话,试试 TurboQuant+

不确定能用噢,毕竟 TurboQuant 是谷歌弄的,非谷歌的模型用这个应该都能加速,Gamma 4 嘛,没准谷歌已经内置了 TurboQuant 呢,可以试试

都听我说!
OP

我先学习一下,DGX Spark 现在推理一点问题都没有,主要是带宽是硬伤

发表一个评论

R保持