关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者3230人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

销量、价格双双坍塌,二线豪华品牌,已经被国产新能源“挤垮”了

小李车评李建红 浏览 2776

福原爱首次回应再婚怀孕 现任丈夫正是出轨风波男主

新民周刊 浏览 7615

骗取生育保险基金,主犯获刑十年!国家医保局曝光典型案例

环球网资讯 浏览 3440

伊姐周日热推:电视剧《我的山与海》;电视剧《在你灿烂的季节》......

伊周潮流 浏览 1281

SK海力士因环保问题被罚26.4万

雷达财经 浏览 3417

AI圈再颠覆!中国AI翻译耳机通话翻译,实测震撼

新智元 浏览 3458

新财年临近,美政府“停摆”风险加剧,白宫指示联邦机构准备裁员计划

环球网资讯 浏览 4020

柳云龙:与初恋结婚,婚后生一女,如今咋样了?

人间无味啊 浏览 3504

油头粉面别演穷人!《命悬一生》几个镜头告诉你,真穷人是什么样

娱乐圈笔娱君 浏览 3436

磁浮底盘/全铝车身 凯迪拉克新CT6上市28.99万起

网易汽车 浏览 3276

中国社会科学院发布14项冷门绝学

经济观察报 浏览 4046

国米官方:博尼左膝轻微扭伤,将在下周接受进一步评估

懂球帝 浏览 2603

能否做到?拜仁有望成为首支欧冠客战巴黎取得三连胜的球队

懂球帝 浏览 3200

不露腿也想穿好看,最关键的是这一点

黎贝卡的异想世界 浏览 2198

Meta实验室革命性并行推理技术:让AI模型思考速度提升50%

科技行者 浏览 2417

陈浩民夫妇滞留阿联酋,半夜发文怀念祖国

北纬的咖啡豆 浏览 1572

男子假期嫖娼被抓7年后被银行发现辞退 官司打到高院

扬子晚报 浏览 9395

48家发债主体中报延期 审计梗阻、系统改革、经营挑战

21世纪经济报道 浏览 4032

国羽汤杯与印度队争小组第一:石宇奇休战,李诗沣任一单

懂球帝 浏览 37

罗永浩被禁言后首亮相 现身B站颁奖典礼获年度新人奖

扬子晚报 浏览 6768

吴尊元旦晒全家福!一家四口笑容灿烂温馨幸福

失宠的小野猪 浏览 2468
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1