关闭广告

上海AI实验室推出ATLAS:让AI在科学推理中"败下阵来"的超级考场

科技行者2300人阅读


这项由上海AI实验室领导的研究于2024年11月发表在arXiv预印本平台,论文编号为2511.14366。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队包括来自复旦大学、北京大学、上海交通大学等25所知名院校的专家学者,他们共同开发了一个名为ATLAS的科学推理评测平台。

当人工智能在各种考试中频频刷新高分记录时,一个有趣的现象出现了:那些曾经被视为"金标准"的测试题目,如今对顶级AI模型来说似乎变得过于简单。就像一个天赋异禀的学生轻松通过了小学考试,但我们却不知道他是否真正具备了解决复杂现实问题的能力。

正是在这样的背景下,上海AI实验室的研究团队决定为AI模型打造一个真正的"地狱级考场"。他们开发的ATLAS平台就像是一个专门设计来让AI"败下阵来"的超级测试场,专门检验AI在科学推理方面的真实能力。这个名字本身就很有意味——ATLAS意为"AGI导向的科学逻辑应用测试平台",寓意着要像古希腊神话中扛起天空的巨人一样,承担起衡量AI真实科学推理能力的重任。

想象一下,如果把现有的AI测试比作小学数学题,那么ATLAS就像是博士入学考试。它不满足于简单的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

3家“通达系”A股快递公司9月单价均同比上涨,快递反内卷见成效

红星资本局 浏览 3389

57岁寻亲志愿者离世:为数百人找到家 自己却未能回家

扬子晚报 浏览 20842

安切洛蒂:后卫失误导致失利 我们必须要吸取教训

体坛周报 浏览 3303

BIO-FORUM 2025 蓄势待发|聚焦生物医药前沿技术,共建全球创新合作生态

上观新闻 浏览 3277

一颗卫星“掉链”,为何让全球航天界紧张?

上游新闻 浏览 2570

在大陆淘金20年,眼看赚钱机会没了,香港老板套现17亿清仓离场

壹只灰鸽子 浏览 2432

伊姐周日热推:电视剧《看得见风景的窗》;电视剧《春日狂热》......

伊周潮流 浏览 2273

票房炸裂,口碑崩塌,《731》到底值不值得我们为它买单

最爱酷影视 浏览 4242

马斯克暗示 SpaceX明年IPO?

北京商报 浏览 2746

持续烧钱的大模型,阻挡不了AI行业的热情

蓝鲸新闻 浏览 2543

社保基金最新重仓股揭晓!新进比亚迪、隆基绿能等226只个股!

私募排排网 浏览 3177

阿尔伯塔大学新突破:让AI学会自我检查错误,准确率远超人工审核

科技行者 浏览 2369

杜淳带娃吃冰激凌,穿紫色长袜好抢镜,小蛋饺投喂爸爸幸福满溢

扒虾侃娱 浏览 2270

伊朗外长:霍尔木兹海峡实际开放 仅对敌人关闭

国际在线 浏览 1280

谷歌翻译加入文本翻译AI模型,有快速与进阶模式可选

IT之家 浏览 3244

一图看懂|朝鲜庆祝空军成立80周年 展示了哪些新式武器

澎湃新闻 浏览 2675

储朝晖:应对“入学潮”,推动教育提质增效

环球网资讯 浏览 2692

补能快也智能 奇瑞纯电皮卡威麟R08 EV售12.78万起

网易汽车 浏览 2205

马卡: 姆巴佩在皇马达成50球里程碑,本赛季点球命中率显著提升

直播吧 浏览 4158

白俄女子被骗到缅北 家属被告知其器官被摘除遗体火化

红星新闻 浏览 8407

张慧贤指责万鹏“当小三当惯了”万鹏方严正声明

韩小娱 浏览 3310
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1