关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者3206人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

汽车图谱⑳|新能源车迎最强“金九” 新势力头部月销达4万量级

贝壳财经 浏览 3451

香港科技大学突破:让电脑"看懂"视频中每个像素的3D运动轨迹

科技行者 浏览 2440

年轻人用AI生成流浪汉吓坏父母,引810万人围观,这次玩笑开大了

机器之心Pro 浏览 3374

绿帽哥:切尔西就罗德里戈与皇马展开接触,计划冬窗完成交易

懂球帝 浏览 3036

商业火箭勇闯A股!已有IPO进入辅导验收

券商中国 浏览 2545

爱泼斯坦案最新文件公布 有记录显示来电人为特朗普

每日经济新闻 浏览 13490

站在2025年底,小红书商业正跨过一个新门槛

36氪 浏览 2597

为避免与白宫格斗冠军赛冲突 法国推迟举行G7峰会

环球网资讯 浏览 7818

连续三个月创历史新高 蔚来公司10月新车交付首超4万台

网易汽车 浏览 3134

2026 年度载人航天飞行任务标识开始征集

IT之家 浏览 3258

澳网最具看点女单比赛来了!莱巴金娜谈迎战斯瓦泰克:保持进攻

网球之家 浏览 2127

Altman放话:2028年,超级智能将超越人类

钛媒体APP 浏览 1632

在进博会上,重新认识海尔生物

财经无忌 浏览 3169

航母“弹射三连”释放哪些信号

经济日报 浏览 3908

媒体:美伊紧张局势拉满 沙特、阿联酋对美国"亮红灯"

上观新闻 浏览 21554

特朗普发文宣称:10项停战条款是“假新闻”

吉刻新闻 浏览 708

卫衣+半裙=早秋流行混搭套路,时髦极了!

Yuki女人故事 浏览 4101

上半年超七成二手车经销商亏损,二手车的未来在哪里?

江瀚视野 浏览 3447

"四大天王"被网友笑称"四大岳父" 最年轻的黎明已59岁

极目新闻 浏览 7571

BBA大促混战,谁是真性价比之王?

百姓评车 浏览 2420

伊朗伊斯兰革命卫队:战争的结束由伊朗决定

界面新闻 浏览 1417
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1