对我这种不经常跟进 AI 新闻
还是有些帮助的
对我这种不经常跟进 AI 新闻
还是有些帮助的
SWE-bench Verified/Pro、Terminal-Bench 2.0、NL2Repo、CyberGym、LiveCodeBench。。。
但说实话看多了也就腻了 还是得结合个人使用体感
Arena.ai?大模型竞技场
自己体感最重要,用的够多感受还是很明显的
搞了一圈,还是付费的好用。
付费使用一段时间,自行对比。
自媒体或者厂商都会无限吹捧自家模型,但有些模型使用不一定符合自己
榜单意义不大,都是在刷榜。主要得看你是干什么用?
日常娱乐用国产,工作用老外
每个人都有心中的哈姆雷特
你用,自然知道哪个好
不用,每个都说自己榜一
没有啥讨论意义,就目前来讲参数越大的模型更 "聪明",
如果想体验最新的模型可以氪金。
稍微关注一下,好的几个模型总会刷到。然后在自己的任务上都试一遍,就知道哪个适合自己了。
自己用着好用就可以
FlagEval 这个吧。
一般我都是看 linux.do 的评价 感觉评测榜意义不大
我一般都是看感觉,最后哪个产出适合我就用哪个
用贵的 准没错
自己多用,自己的使用体验是最重要的,能解决自己的问题,能实现方案就是对你最好的。
看实际消耗量排行榜
适合自己就好
记得,越贵就越好。
合适就行
之前我收藏了一个这个 LiveBench
但是基本没咋看。。。
新出的都是霸榜
不知道这个三倍金币池有没有机会
国内的测评,特别是小米,都是多么多么牛逼,超 gpt.超 gemini,实际用起来就是一坨
还真给你中了,对于国产模型,只能说勉强吧,一分钱一分货/
其实没啥参考意义,新出的模型基本都会霸榜,今天不是这个爆了就是明天那个炸了,而且不内部跑分跑到第一,是不会放出来的
又不搞科研,谢谢代码日常用用 GPT 绰绰有余