关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1013106人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

官方:利物浦从德比郡召回23岁后卫欧文-贝克

懂球帝 浏览 2467

诺奖化学奖一得主是巴勒斯坦难民 家中8个兄弟姐妹

扬子晚报 浏览 20122

海盗船新键盘内嵌直播控制台,1月29日开卖!

IT之家 浏览 2411

纯电续航提升 新款小鹏X9纯电版申报图曝光

车质网 浏览 2621

会是后手奇兵吗?本届U23亚洲杯外场球员中仅毛伟杰还未出场

懂球帝 浏览 2208

一旦安世半导体分裂,最后谁会哭?

禾颜阅车 浏览 3245

刘维伟回国寄语杨瀚森:未来不会顺利每天都要进步 获赠签名球衣

醉卧浮生 浏览 3272

以军称打死哈马斯高级指挥 哈马斯发声

每日经济新闻 浏览 2627

28岁中国留学生海外失联十几天 曾给家人发送信息

环球网资讯 浏览 6836

"与辉同行"带货83元3只"皖西麻黄鸡"被打假 客服回应

澎湃新闻 浏览 6494

娜然跟霍启山回香港!逛街消费幸福肥明显

动物奇奇怪怪 浏览 1642

硬刚资本!这一次,我要为陈思诚起立鼓掌

皮皮电影 浏览 35

欧盟峰会与美俄乌磋商在即 被冻结俄资产成博弈焦点

北青网-北京青年报 浏览 2593

苹果CEO库克上海两日行:看LABUBU,首次“直播带货”,直言“太爱中国人和中国文化”

澎湃新闻 浏览 3511

基米希被法比安鲁伊斯爆头,裁判未做表示,VAR未介入

懂球帝 浏览 3053

拜仁欧冠战巴黎大名单:凯恩领衔,诺伊尔、卡尔在列

懂球帝 浏览 3246

极狐乔心昱:北汽新能源行业首个实现L3-L4自动驾驶技术全覆盖

IT之家 浏览 2276

皮克又惹事了,这位FC安道尔股东本赛季已经三次直接指责裁判

懂球帝 浏览 2703

更年轻动感 全新马自达CX-5正式首发亮相

车质网 浏览 3150

年末避险情绪抬升 公募选股遵循涨价硬逻辑

证券时报 浏览 3096

今日热点:王鹤润方向王玉雯道歉;正午阳光辟谣《琅琊榜3》阵容信息……

伊周潮流 浏览 1269
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1