david2150OP1 个月前是 Qwen3.6-35B-A3B-16bit,速度有 65tok/s 了。我查了下,和 A3B 模式有关,就是说虽然是 35B 的模型,但是每次只调用 3B 的参数,所以可以跑得飞快。试了下 Qwen3.6-27B-8bit,也只有 15tok/s,gemma4-31B-8bit 也是这个 15 的速度。 我的机器是 MacBook pro M5 max 128G 的
david2150OP1 个月前感觉没有显卡不行,即使显存小点都是必要的。我试过 4G 显存,32G 内存的笔记本,9G 大小的模型,吐字速度也算能用了。反而一台 256G 内存的纯 cpu 机器,慢的怀疑人生
是的,qwen3.5 27B 的时候就大概这种感觉了