关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者3228人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美政府"停摆"破纪录 英伟达市值一夜蒸发1.4万亿元

每日经济新闻 浏览 8284

长外套+短靴,正流行

Yuki女人故事 浏览 2377

产品力全面提升 问界M7新老款车型对比

车质网 浏览 3239

财经早餐:美股三大指数集体收跌;阿联酋5月1日起退出欧佩克

网易财经 浏览 39

女儿严重高反 男子订回程票出错立即取消重订被扣两千

上观新闻 浏览 11879

乌克兰代表团抵达日内瓦 与英法德官员举行会谈

环球网资讯 浏览 2928

特朗普公开对伊开战真正原因

极目新闻 浏览 289

速卖通正在成为更多亚马逊商家的第一阵地

华尔街见闻官方 浏览 3594

当《蚁人》照进现实: 西湖大学造出能爬会游、摔不坏的“机器小强”

都市快报橙柿互动 浏览 4032

昔日“神车”众泰突然大规模招聘!内部人士:已收到不少简历

红星资本局 浏览 2174

董路:日本队6届世界杯过不了16强 跟国足24年无缘世界杯一样痛苦

风过乡 浏览 3362

全职主妇吞大量安眠药 丈夫:她觉得她是美女嫁我可惜

扬子晚报 浏览 6385

美股芯片股全线大跌,希捷科技盘后猛涨17%,闪迪大涨4%,国际油价涨超3%,霍尔木兹海峡传来新消息

21世纪经济报道 浏览 36

高市称若台湾有事日美将联合救助两国公民 外交部驳斥

外交部网站 浏览 6212

浙江稠州商业银行“共享法庭”实践,获评消费者权益保护领航企业

Daily每日财报 浏览 2503

短剧都没有她的故事精彩?62岁活成了多少人羡慕的样子

黎贝卡的异想世界 浏览 2137

76岁欢喜哥去世!众星悼念

查尔菲的笔记 浏览 3203

中年返贫,一场无声的凌迟

识局 浏览 3234

黎巴嫩民众雨中避难 超83万人流离失所

国际在线 浏览 1268

影石们找到了“活人感”

字母榜 浏览 2500

Nature|尺寸与光电转换效率创世界纪录,上海科学家团队携手龙头企业突破大尺寸钙钛矿光伏模组产业化关键技术

上观新闻 浏览 3461
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1