做了一款在线 GPU 推理速度计算器,希望可以帮助到大家
一个 vibe code 出来的 GPU 推理性能估算工具。
起因很简单——显卡太贵,买不起,想跑个模型又不知道自己的配置够不够,
于是把网上散落的参数和公式汇总了一下,做成了这个计算器。
在线地址: tps.bunai.cc
适合干什么
✅ 在买机子 / 租卡之前,先大概预估一下跑不跑得起来
✅ 学习推理性能建模,理解量化、KV Cache、TP、Roofline 这些概念
✅ 做方案初筛和参数对比
❌ 不适合直接替代真实 benchmark
❌ 不适合把估算值当作生产承诺
❌ Mac 电脑没有放出来,验证了一下差距有点大,先放一放
参考资料
- 模型参数来源: HuggingFace model cards 及 Ollama 官方页面
- MoE CPU Offload 场景参考: val1813/kaiwu
- 自己搭建模型 Gemma4 26b
- 自己搭建模型 Gemma4 31b
这套公式和参数是我自己整理汇总的,没有大量真机跑过验证。
如果你手上有真实的测试数据,发现哪里估算偏差大、公式有问题,
欢迎开 Issue 或 PR 指出来,大家一起学习,一起把这个东西做得更准。
希望有真实数据的大佬帮忙指正,谢谢!🙏


显卡列表和模型列表的还需要补充,显卡各型号配置都有不同,模型就比如 qwen3 和 qwen3.6 都有,没看到 qwen3.5...