【💰】大佬们都是在哪查看 AI 能力排名的呢？

YEQIU

47 条回复

300 次浏览

国内国外中文英文，AI 模型的能力排名，求指路。

金币池

💰 304 金币

金币会随着回复数量动态增加，首次回复有概率获得金币池中部分金币奖励。

#模型排名

#AI

#大模型

其实没啥参考意义，新出的模型基本都会霸榜，今天不是这个爆了就是明天那个炸了，而且不内部跑分跑到第一，是不会放出来的
又不搞科研，谢谢代码日常用用 GPT 绰绰有余

YEQIU

对我这种不经常跟进 AI 新闻 facepalm 还是有些帮助的

ZEZTZ

SWE-bench Verified/Pro、Terminal-Bench 2.0、NL2Repo、CyberGym、LiveCodeBench。。。
但说实话看多了也就腻了还是得结合个人使用体感

Arena.ai？大模型竞技场

自己体感最重要，用的够多感受还是很明显的

搞了一圈，还是付费的好用。

付费使用一段时间，自行对比。

自媒体或者厂商都会无限吹捧自家模型，但有些模型使用不一定符合自己

lxk

榜单意义不大，都是在刷榜。主要得看你是干什么用？

vvv

日常娱乐用国产，工作用老外

Wyntal

每个人都有心中的哈姆雷特

你用，自然知道哪个好

不用，每个都说自己榜一

wayhelper

没有啥讨论意义，就目前来讲参数越大的模型更 "聪明"，
如果想体验最新的模型可以氪金。

oden

稍微关注一下，好的几个模型总会刷到。然后在自己的任务上都试一遍，就知道哪个适合自己了。

sankgao

自己用着好用就可以

Simba

FlagEval 这个吧。

kingshuoxu

一般我都是看 linux.do 的评价感觉评测榜意义不大

Aye

我一般都是看感觉，最后哪个产出适合我就用哪个

jolon

https://artificialanalysis.ai/leaderboards/models

PixPin_2026-06-22_15-35-45

jay

用贵的准没错

giuditta

https://openlm.ai/chatbot-arena/

在 L 站关注了个一个老哥，纯粹分享新出模型能力，其中包含各个测评网站的简单排名，每次出新模型就看他帖子补充一下，这种热知识基本上不过脑子的，纯聊天的谈资

YEQIU

这位老哥的 L 站 ID 是啥，我也关注一下

dwqxq1

CxTboceder

自己多用，自己的使用体验是最重要的，能解决自己的问题，能实现方案就是对你最好的。

zacharywu

榜单看个乐就够了，想起上半年看 MiniMax M2.7 那吊炸天的跑分，和令人心动的 Token Plan 价格，买了一个月 Starter 试水...体验一言难尽 cunning
这玩意还是得靠试，用起来体感好的那他就是好。
比如最近 GPT5.5 降智严重，一用就感觉出来了。

diudiuu

GPT 里面有个毛病资源不够时会自己换模型，很难注意到。

MiniMax 这个家模型确实是测评谁都打不过，真实也谁都打不过

MiniMax 3m，我尝试把 effort 开到最高，他就很聪明，不过 token 也消耗的快

看实际消耗量排行榜

适合自己就好

记得，越贵就越好。

https://arena.ai/leaderboard/code/webdev

acknack

合适就行

jay

https://www.superclueai.com/homepage

brettzhang

之前我收藏了一个这个 LiveBench
但是基本没咋看。。。

noncoming

新出的都是霸榜 contorted

不知道这个三倍金币池有没有机会

国内的测评，特别是小米，都是多么多么牛逼，超 gpt.超 gemini，实际用起来就是一坨

YEQIU

还真给你中了，对于国产模型，只能说勉强吧，一分钱一分货/

【💰】大佬们都是在哪查看 AI 能力排名的呢？

国内国外中文英文，AI 模型的能力排名，求指路。

发表一个评论