【💰】大佬们都是在哪查看 AI 能力排名的呢?

26 条回复
161 次浏览

国内国外中文英文,AI 模型的能力排名,求指路。contorted

金币池
💰 312 金币

金币会随着回复数量动态增加,首次回复有概率获得金币池中部分金币奖励。

慷慨解囊
GRD

其实没啥参考意义,新出的模型基本都会霸榜,今天不是这个爆了就是明天那个炸了,而且不内部跑分跑到第一,是不会放出来的
又不搞科研,谢谢代码日常用用 GPT 绰绰有余

谁还不是宝宝呢!?

SWE-bench Verified/Pro、Terminal-Bench 2.0、NL2Repo、CyberGym、LiveCodeBench。。。
但说实话看多了也就腻了 还是得结合个人使用体感

前排打手

付费使用一段时间,自行对比。

自媒体或者厂商都会无限吹捧自家模型,但有些模型使用不一定符合自己

马上来

榜单意义不大,都是在刷榜。主要得看你是干什么用?

前排打手

每个人都有心中的哈姆雷特

你用,自然知道哪个好

不用,每个都说自己榜一

谁还不是宝宝呢!?

没有啥讨论意义,就目前来讲参数越大的模型更 "聪明",
如果想体验最新的模型可以氪金。

都听我说!

稍微关注一下,好的几个模型总会刷到。然后在自己的任务上都试一遍,就知道哪个适合自己了。

种子用户

我一般都是看感觉,最后哪个产出适合我就用哪个

前排打手

在 L 站关注了个一个老哥,纯粹分享新出模型能力,其中包含各个测评网站的简单排名,每次出新模型就看他帖子补充一下,这种热知识基本上不过脑子的,纯聊天的谈资

自己多用,自己的使用体验是最重要的,能解决自己的问题,能实现方案就是对你最好的。

榜单看个乐就够了,想起上半年看 MiniMax M2.7 那吊炸天的跑分,和令人心动的 Token Plan 价格,买了一个月 Starter 试水...体验一言难尽cunning
这玩意还是得靠试,用起来体感好的那他就是好。
比如最近 GPT5.5 降智严重,一用就感觉出来了。

发表一个评论

R保持