【💰】看看这个大模型性价比排行合理吗?
在做一个小项目:
用 OpenRouter 的价格、速度 + AA 的 intelligence 分,算一个「性价比」排名,每天自动更新。
刚开始试了能力次方,导致低能模型排行靠前,目前我认为还是以智力为主,不能因为价格而忽略大模型能力,现在使用均分嵌套平方是为了拉开高分、惩罚低分,能力突出的模型会相对靠前,我认为还是比较合理,有啥想法可以评论区讨论下,欢迎给个 star
核心公式:
性价比 = f(能力) × 速度^0.8 / 价格
其中 f(x) 是以当日有能力分模型的均分为基准的嵌套平方:
- x ≥ 均分:f(x) = (均分 + (x-均分)²)²
- x < 均分:f(x) = (均分 - (均分-x)²)²(内层≤0 的不参与排名)
其他规则:
- 能力:OpenRouter 内嵌的 AA intelligence_index(目前只有 ~48 个模型有分)
- 速度:各 Provider 最高 p50 吞吐(和 OpenRouter 页面上 "best across providers" 一致)
- 价格:OpenRouter 有效价(uptime 加权,输入:输出 3:1,缓存命中 70%)
- 原始能力 < 25 的不排名
开源 + 在线演示:
https://yyh-001.github.io/llm-value-rankings/
https://github.com/yyh-001/llm-value-rankings
金币会随着回复数量动态增加,首次回复有概率获得金币池中部分金币奖励。

不懂,感觉有些东西不太好量化,但是还是挺有意义。