关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1014197人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

王心凌再回应与吴克群绯闻

半岛晨报 浏览 4284

月薪7000的抽卡师,只是AI短剧的「临时工」

豹变 浏览 635

福建女商人林惠荣提国赔申请获立案 曾服刑7年获无罪

澎湃新闻 浏览 7958

男子称爷爷坟里埋了200万 女友给他272万发现其是老赖

潇湘晨报 浏览 8309

64岁男演员春节在景区打工,暴瘦引担忧!

扬子晚报 浏览 2875

亚马逊将对意大利反垄断罚款提出上诉:一分钱都不该罚

IT之家 浏览 3452

马竞重新投入训练备战贝蒂斯,卡多佐是唯一缺席训练的球员

懂球帝 浏览 4408

11国做出选择后特朗普喊话"中国将服软" 高市处境堪忧

胥言 浏览 9033

白宫发了张图:“痛击加拿大鹅”

大风新闻 浏览 39444

收评:沪指涨超1%逼近4000点 两市放量超3600亿

财联社 浏览 9848

双11链接合集 || 一键查缺补漏,这些宝藏别错过!

黎贝卡的异想世界 浏览 4367

俄美乌首次三方会谈触及实质议题 领土问题仍有分歧

上观新闻 浏览 3380

黄子佼为脱罪庭上卖惨!自曝离婚请求轻判,律师痛批毁掉别人一生

萌神木木 浏览 4480

xbench实验室发布:如何让AI代理真正走进普通用户的日常生活?

科技行者 浏览 3290

业内曝窦骁遭遇豪门杀猪盘,被女方当跳板?

萌神木木 浏览 4465

小S久违晒自拍美照,容光焕发状态超好

扒虾侃娱 浏览 2582

英国防大臣称访乌克兰途中 专列险被俄“榛树”导弹命中

红星新闻 浏览 3392

男子给女友买的金镯子被放在门口丢了 顺丰只赔200元

潇湘晨报 浏览 9109

有种的冲这儿打!

电影最TOP 浏览 4509

比亚迪10月销售441706辆 新能源累计销售超1420万辆

网易汽车 浏览 4256

【年度爱用】她们2025年买得最值的,是这些

黎贝卡的异想世界 浏览 3537
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1