关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1013108人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

汕小伙5000元创业,如今3家工厂10家店,“睡地板也要当老板”

电商在线 浏览 3468

冲刺“开门红” 有银行理财公司0费率抢市场

中国商报 浏览 2269

曼城外租至斯托克城的穆巴马在对阵QPR时受伤,被担架抬出场

懂球帝 浏览 2248

“这个风格”今年冬天又火了!谁穿谁高级

LinkFashion 浏览 2194

被问是否会刺杀伊朗新领袖 特朗普突然"共情"了

极目新闻 浏览 32804

金棕榈年度女性最佳力作,首次造访艺术影院

幕味儿 浏览 3458

2号种子险爆冷!张本智和打满5局逆转日本悍将,8强战约战勒布伦

乒谈 浏览 3255

宝马圣诞视频暗藏新车剪影

大象新闻 浏览 2525

林心如揭秘:霍建华宠女无度,对自己超抠?

科学发掘 浏览 2758

1-9月主流车企销量成绩单,比亚迪326万辆完成全年71%

分秒汽车 浏览 3479

媒体:丢大人了 特朗普在航母上演讲巨幅海报后有问题

枢密院十号 浏览 6077

河南"妻儿三人被发小杀害案"宣判:被告人获死刑

红星新闻 浏览 31127

红魔授权服务中心・售后网点最新进展公布,覆盖全国62城

IT之家 浏览 2806

公开喊话 贾跃亭称FF愿与特斯拉展开合作

车质网 浏览 2923

REDMI K90 Pro Max 可与 iPhone / 小米 17 Pro Max 通用钢化膜

IT之家 浏览 3302

蔚来换电和理想5C,谁能硬刚,比亚迪兆瓦闪充?

路咖汽车 浏览 1463

最牛退休女工,靠卖易拉罐,纳税100亿

创业家 浏览 3428

何穗:新生亦重生

时尚COSMO 浏览 1477

邮报:利物浦体能教练正帮维尔茨提升身体素质,从而适应激烈对抗

直播吧 浏览 3972

喜报!识局助力一家机器人企业落户西南某地!

识局 浏览 3183

三季报,茅台失速!

YOUNG财经 浏览 3185
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1