关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者3209人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

上海交大突破:AI精准学习人类审美偏好

科技行者 浏览 3128

刘嘉玲怒怼肉娱小鲜肉?

港剧叔 浏览 3181

瑞信前副总裁挪用客户资金,判囚13年,24名高净值人士获赔8690万

财通社 浏览 2304

雅达利复刻“前竞争对手”Mattel Intellivision Sprint 游戏机

IT之家 浏览 3321

小鹏第二代VLA推送前,何小鹏回应用户关心的22个问题

百姓评车 浏览 1293

“大起”被防住后,下周A股怎么走?

每经牛眼 浏览 2217

普通人真该看看这些穿搭!短上衣配裙子、颜色选好,自然得体

静儿时尚达人 浏览 3482

大哥承诺每月给1万养家费 小弟把事扛了入狱发现被耍

方圆 浏览 8498

动物纹回潮,那很狂野了

时尚COSMO 浏览 2326

欧洲航天局:中欧合作“微笑”卫星将于明年 4 月至 5 月发射

IT之家 浏览 3259

沉默的荣耀大结局前瞻,最惨角色出炉,果然不幸的人各有各的不幸

娱乐圈笔娱君 浏览 3432

布朗41+7+6绿军险胜双杀太阳 布克40+6迎500场20+里程碑

醉卧浮生 浏览 1349

女人到了60岁也要好好穿衣!冬天认准大衣和羽绒服,舒适大方

静儿时尚达人 浏览 2443

央剧《生命树》播出4天,43岁杨烁口碑实现逆转

观察者海风 浏览 2162

唐嫣这一出手,若不出意外,央视《爱情没有神话》估计得“封神”

娱乐圈笔娱君 浏览 37

太二不做酸菜鱼了?告别酸菜鱼的太二想干啥?

江瀚视野 浏览 2288

年销破28万辆!一汽解放斥资百亿元买理财,商用车龙头变“投资大户”?

时代周报 浏览 2059

全智贤自毁口碑!LV撤掉广告海蓝之谜外网都删,限韩令全面收紧

萌神木木 浏览 4009

林俊杰女友报警反击谣言,获男友极力维护,果然是奔着结婚去的

萌神木木 浏览 2383

长安福特要转让三条电池组装生产线,电动车转型下一步怎么走?

时代周报 浏览 3890

官方:法国后卫泰奥-佩勒纳尔加盟梅州客家,穿5号球衣

懂球帝 浏览 2121
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1