关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者4327人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美股、中概股,全线爆发!机构称A股调整是布局良机!

证券时报e公司 浏览 4473

美国否决加沙停火决议草案后 以美代表亲切握手

看看新闻Knews 浏览 5131

天空体育:热刺高层在考虑所有选项,尚未决定弗兰克的去留

懂球帝 浏览 3403

媒体:中方反制不当域外管辖 欧盟商会又紧张起来了

澎湃新闻 浏览 35006

告别卡粉斑驳!保姆级遮瑕教程,手把手教你黑眼圈痘印全隐形

Yuki女人故事 浏览 3318

最牛退休女工,靠卖易拉罐,纳税100亿

创业家 浏览 4528

"失联风波"过后 画家范曾首度公开露面:近期喜得独子

澎湃新闻 浏览 20395

不止本田遭遇“冰雹”,这些跨国车企如何找回“春天”?

禾颜阅车 浏览 2431

奔驰“小G”海外路试谍照曝光

大象新闻 浏览 4102

"暴躁十亿姐"被封号:自称润田创始人妻子 老公4婚5娃

极目新闻 浏览 9733

吴磊大瓜牵扯多位明星!爆料女主骂赵露思骚扰吴磊,曝何猷君出轨

萌神木木 浏览 3318

朱媛媛离世5月后,辛柏青再传坏消息

乡野小珥 浏览 3654

媒体:美国中期选举后 特朗普或成"跛脚鸭"被"吊打"

新民周刊 浏览 6938

赛季末巴黎频造新大师,这次小黑能一黑到底吗?

网球之家 浏览 4353

河北公务员,干出200亿乳品王国

创业家 浏览 3274

博主:据了解长春亚泰旧将王栋执教中乙长春喜都

懂球帝 浏览 3548

又一个汽车新品牌要来了,背靠五菱,首款车型微型车

汽车公告板 浏览 5190

齐沃:意大利足球不以进球多著称;恩里克和迪乌夫终会迎来闪耀时刻

懂球帝 浏览 4544

吉利汽车集团10月销量307133辆 同比增长35%

网易汽车 浏览 3438

中国首个低空飞行营地开营,落户广州大学城

IT之家 浏览 4300

今日热点:电影《得闲谨制》定档;成毅回应《两京十五日》拍摄受伤……

伊周潮流 浏览 3900
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1