【💰】看看这个大模型性价比排行合理吗？

23 条回复

214 次浏览

在做一个小项目：
用 OpenRouter 的价格、速度 + AA 的 intelligence 分，算一个「性价比」排名，每天自动更新。
刚开始试了能力次方，导致低能模型排行靠前，目前我认为还是以智力为主，不能因为价格而忽略大模型能力，现在使用均分嵌套平方是为了拉开高分、惩罚低分，能力突出的模型会相对靠前，我认为还是比较合理，有啥想法可以评论区讨论下，欢迎给个 star

核心公式：
性价比 = f(能力) × 速度^0.8 / 价格

其中 f(x) 是以当日有能力分模型的均分为基准的嵌套平方：

x ≥ 均分：f(x) = (均分 + (x-均分)²)²
x < 均分：f(x) = (均分 - (均分-x)²)²（内层≤0 的不参与排名）

其他规则：

能力：OpenRouter 内嵌的 AA intelligence_index（目前只有 ~48 个模型有分）
速度：各 Provider 最高 p50 吞吐（和 OpenRouter 页面上 "best across providers" 一致）
价格：OpenRouter 有效价（uptime 加权，输入:输出 3:1，缓存命中 70%）
原始能力 < 25 的不排名

开源 + 在线演示：
https://yyh-001.github.io/llm-value-rankings/
https://github.com/yyh-001/llm-value-rankings

金币池

💰 558 金币

金币会随着回复数量动态增加，首次回复有概率获得金币池中部分金币奖励。

❤️2

👍2

200

不懂，感觉有些东西不太好量化，但是还是挺有意义。

感谢 🙂

感觉还是得加个按能力排序，另外可能把编码和生图分开会不会好一点

确实

美国豆包居然是榜二吗

笑死

你的价格是官方价格？但用户实际算的时候应该要算上 coding-plan，甚至很多需要加上中转优惠，希望有个自定义倍率功能

嗯嗯对的，我打算后续更新加上官方 coding-plan 来计算价格，但是有些 coding-plan 不太稳定，甚至都抢不到 😂

我没深入使用过这么多模型。你的这个性价比得分符合自己的使用感受吗？

要客观的话的确要划分使用场景。实际体验下来有些性价比高的模型只是纯捣乱的 contorted

主观认为 v4 pro 还是蛮不错了

确实，目前主力用的也是这个

v4 pro 的价格得调整 deepseek 官方的价格，openrouter 上贵了很多

已经更新了 🙂

牛的 👍

模型能力的均分是从哪里得到的？OpenRouter？

对的，从 openrouter 拿的

可以 GLM5.2 yyds

yyds

OpenRouter 在国内是不是网速很慢 contorted

可以不用 openrouter 只是作为一个参考，数据源比较全 😂

我之前用过还是很快的

不得不说，z.ai 这个域名不错，还是舍得下本钱

牛啊

发表一个评论

R保持