DGX Spark llama.cpp 部署 Gemma4 26B
前提
上一篇已经尝试部署 2B,但是由于显存限制,部署的效果不太理想,继续尝试部署 26B,下面是部署的相关参数:
llama.cpp 已经是最新版,尽量去下载最新版,可以继续参考我 31B 的帖子进行编译。
模型下载都来自这里 https://huggingface.co/unsloth
google_gemma-4-26B-A4B-it-bf16 量化版本
这个说实话我不知道从哪里下载的,反正是在里面了,我就直接用了。
这个其实第一反应,我个人理解应该不会快到我满意,毕竟还是精度的问题,容易产生带宽不够的问题
还是要试下具体快多少
这个是部署脚本
复制
#!/bin/bash export GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 /home/romain/llama.cpp/build/bin/llama-server \ -m /home/romain/models/gemma-4-26B/google_gemma-4-26B-A4B-it-bf16-00001-of-00002.gguf \ --mmproj /home/romain/models/gemma-4-26B/mmproj-google_gemma-4-26B-A4B-it-bf16.gguf \ -ngl 999 \ --jinja \ -fa on \ -c 32768 \ -b 2048 \ -ub 512 \ -t 20 \ --cache-type-k q8_0 \ --cache-type-v q8_0 \ --host 0.0.0.0 \ --port 8080 \ --alias gemma-4-26B \ --cont-batching \ --temp 0.7 \ --top-p 0.9 \ --repeat-penalty 1.05
prompt eval: 928 token/s
eval time: 16 token/s(之前 6.5,现在大约 2.5x)
嗯,速度提升了不少,还是不能用,但是已经看到了希望了,继续尝试其他版本。
gemma-4-26B-A4B-it-UD-Q4_K_X 量化版本
重新看了一下模型列表,决定下载这个版本再试一下。
复制
#!/bin/bash export GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 /home/romain/llama.cpp/build/bin/llama-server \ -m /home/romain/models/gemma-4-26B/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf \ --mmproj /home/romain/models/gemma-4-26B/mmproj-google_gemma-4-26B-A4B-it-bf16.gguf \ -ngl 999 \ --jinja \ -fa on \ -c 131072 \ -b 2048 \ -ub 512 \ -t 20 \ -np 1 \ --cache-type-k q4_0 \ --cache-type-v q4_0 \ --host 0.0.0.0 \ --port 8080 \ --alias gemma-4-26B \ --temp 0.7 \ --top-p 0.9 \ --repeat-penalty 1.05
速度 35 token/s,喜大普奔,起码可以正常使用了。
结论
- 26B 的模型在 DGX 上是可以部署的,虽然速度不快,但至少可以正常使用了。
- 量化版本的模型在速度上有明显提升,尤其是 UD-Q4_K_X 版本,速度提升了近 5 倍。虽然质量可能会有一定损失,但对于一些应用场景来说是可以接受的。
- 继续等待社区的优化和更多量化版本的发布,可能会有更好的性能表现。
- 现在要做的事情就是和 OpenClaw 联动测试它的推理效果,看看实际应用效果如何。
llama.cpp 好啊,慢的话,试试 TurboQuant+ ?
不确定能用噢,毕竟 TurboQuant 是谷歌弄的,非谷歌的模型用这个应该都能加速,Gamma 4 嘛,没准谷歌已经内置了 TurboQuant 呢,可以试试