【💰】大佬们都是在哪查看 AI 能力排名的呢?

47 条回复
300 次浏览

国内国外中文英文,AI 模型的能力排名,求指路。contorted

金币池
💰 304 金币

金币会随着回复数量动态增加,首次回复有概率获得金币池中部分金币奖励。

GRD

其实没啥参考意义,新出的模型基本都会霸榜,今天不是这个爆了就是明天那个炸了,而且不内部跑分跑到第一,是不会放出来的
又不搞科研,谢谢代码日常用用 GPT 绰绰有余

谁还不是宝宝呢!?

SWE-bench Verified/Pro、Terminal-Bench 2.0、NL2Repo、CyberGym、LiveCodeBench。。。
但说实话看多了也就腻了 还是得结合个人使用体感

前排打手

付费使用一段时间,自行对比。

自媒体或者厂商都会无限吹捧自家模型,但有些模型使用不一定符合自己

马上来

榜单意义不大,都是在刷榜。主要得看你是干什么用?

前排打手

每个人都有心中的哈姆雷特

你用,自然知道哪个好

不用,每个都说自己榜一

谁还不是宝宝呢!?

没有啥讨论意义,就目前来讲参数越大的模型更 "聪明",
如果想体验最新的模型可以氪金。

都听我说!

稍微关注一下,好的几个模型总会刷到。然后在自己的任务上都试一遍,就知道哪个适合自己了。

种子用户

我一般都是看感觉,最后哪个产出适合我就用哪个

前排打手

在 L 站关注了个一个老哥,纯粹分享新出模型能力,其中包含各个测评网站的简单排名,每次出新模型就看他帖子补充一下,这种热知识基本上不过脑子的,纯聊天的谈资

自己多用,自己的使用体验是最重要的,能解决自己的问题,能实现方案就是对你最好的。

榜单看个乐就够了,想起上半年看 MiniMax M2.7 那吊炸天的跑分,和令人心动的 Token Plan 价格,买了一个月 Starter 试水...体验一言难尽cunning
这玩意还是得靠试,用起来体感好的那他就是好。
比如最近 GPT5.5 降智严重,一用就感觉出来了。

GPT 里面有个毛病资源不够时会自己换模型,很难注意到。

MiniMax 这个家模型确实是测评谁都打不过,真实也谁都打不过

MiniMax 3m,我尝试把 effort 开到最高,他就很聪明,不过 token 也消耗的快

前排打手
GRD

不知道这个三倍金币池有没有机会

国内的测评,特别是小米,都是多么多么牛逼,超 gpt.超 gemini,实际用起来就是一坨

前排打手
OP

还真给你中了,对于国产模型,只能说勉强吧,一分钱一分货/

发表一个评论

R保持