【💰】看看这个大模型性价比排行合理吗?

23 条回复
214 次浏览

在做一个小项目:
用 OpenRouter 的价格、速度 + AA 的 intelligence 分,算一个「性价比」排名,每天自动更新。
刚开始试了能力次方,导致低能模型排行靠前,目前我认为还是以智力为主,不能因为价格而忽略大模型能力,现在使用均分嵌套平方是为了拉开高分、惩罚低分,能力突出的模型会相对靠前,我认为还是比较合理,有啥想法可以评论区讨论下,欢迎给个 star

核心公式:
性价比 = f(能力) × 速度^0.8 / 价格

其中 f(x) 是以当日有能力分模型的均分为基准的嵌套平方:

  • x ≥ 均分:f(x) = (均分 + (x-均分)²)²
  • x < 均分:f(x) = (均分 - (均分-x)²)²(内层≤0 的不参与排名)

其他规则:

  • 能力:OpenRouter 内嵌的 AA intelligence_index(目前只有 ~48 个模型有分)
  • 速度:各 Provider 最高 p50 吞吐(和 OpenRouter 页面上 "best across providers" 一致)
  • 价格:OpenRouter 有效价(uptime 加权,输入:输出 3:1,缓存命中 70%)
  • 原始能力 < 25 的不排名

开源 + 在线演示:
https://yyh-001.github.io/llm-value-rankings/
https://github.com/yyh-001/llm-value-rankings

金币池
💰 558 金币

金币会随着回复数量动态增加,首次回复有概率获得金币池中部分金币奖励。

种子用户

感觉还是得加个按能力排序,另外可能把编码和生图分开会不会好一点

幸运儿

你的价格是官方价格?但用户实际算的时候应该要算上 coding-plan,甚至很多需要加上中转优惠,希望有个自定义倍率功能

OP

嗯嗯对的,我打算后续更新加上官方 coding-plan 来计算价格,但是有些 coding-plan 不太稳定,甚至都抢不到 😂

都听我说!

我没深入使用过这么多模型。你的这个性价比得分符合自己的使用感受吗?

要客观的话的确要划分使用场景。实际体验下来有些性价比高的模型只是纯捣乱的contorted

主观认为 v4 pro 还是蛮不错了

OP

v4 pro 的价格得调整 deepseek 官方的价格,openrouter 上贵了很多

OP

可以不用 openrouter 只是作为一个参考,数据源比较全 😂

发表一个评论

R保持