关闭广告

港科大广州校区突破大模型训练瓶颈:让AI学习像数学考试高效

科技行者3225人阅读


这项由香港科技大学广州校区xLeaF实验室团队完成的研究于2026年2月发表在预印本平台,论文编号为arXiv:2601.23000v1。研究团队提出了一种名为Mano的全新优化器,能够大幅提升大型语言模型的训练效率,同时显著降低计算成本和内存消耗。

训练大型语言模型就像是在教授一个拥有数千亿个参数的超级大脑学习语言,这个过程需要消耗巨额的计算资源和电力。现有的训练方法就好比让学生用最笨拙的方式学习数学——要么只看到局部信息而忽视整体结构,要么过度追求完美而丢失了重要细节。当前最流行的AdamW优化器就像一个只会逐个检查每道题目的老师,完全忽略了题目之间的内在联系和整体规律。而另一种叫做Muon的优化器虽然能够统一处理所有维度的信息,但在这个过程中却丢失了宝贵的曲率信息,就像为了保持答题速度一致而忽略了题目的难易程度。

研究团队从一个全新的角度来思考这个问题。他们发现,传统的流形优化方法虽然在数学理论上很优美,但在实际的大模型训练中表现很差,这让很多研究者对这类方法失去了信心。然而,港科大的研究团队没有放弃,而是创新性地改造了这些方法。

他们的核心洞察是这样的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

郑爽近照曝光星味全无,家中装修豪华惊现儿童玩具,日子并不可怜

不八卦会死星人 浏览 3530

五角大楼摊牌:解放军有巨大优势 美军已经被远远甩开

空天力量 浏览 4549

《红色电影录音机》背后的:花高片酬请来美国人

随申Hi 浏览 3578

当“蔚小理”跌出头部:2026车企淘汰赛全面加速

首席商业评论 浏览 3546

伊姐周日热推:电视剧《我的山与海》;电视剧《在你灿烂的季节》......

伊周潮流 浏览 2446

A股年内上会数量将破百

北京商报 浏览 3799

OptiScaler发测试版:抢跑AMD为Vulkan游戏开启FSR 4

IT之家 浏览 2928

乌军袭击一生产弹道导弹的俄军工厂

每日经济新闻 浏览 2870

增持回购潮背后的A股信心

北京商报 浏览 4040

将于年内上市 别克至境SUV官方预告图曝光

车质网 浏览 3081

24岁小伙深夜聚餐当场吐血 医生从他肺部取出一枚笔帽

环球网资讯 浏览 7713

离婚7个月,霸总杨子又给内娱上了一课

老吴教育课堂 浏览 3874

又一位难得的好演员,突然走了

独立鱼 浏览 4148

美迪西子公司遭客户索赔1.59亿元,因新药项目安评报告交付滞后

红星资本局 浏览 5306

马竞主场战热刺大名单:格列兹曼、阿尔瓦雷斯、卢克曼在列

懂球帝 浏览 2611

高端海鲜“老炮儿”,开始扎堆做小火锅

餐饮老板内参 浏览 2830

鲍威尔回应遭刑事调查:都是借口 想逼美联储降息

红星新闻 浏览 13650

铜梁融媒:U16国足已抵达重庆备战,全力冲刺U17亚洲杯预选赛

懂球帝 浏览 4294

俄实施大规模打击 乌多地军工企业和能源设施遭袭

每日经济新闻 浏览 4157

纳米级OLED突破:科学家开发出全球最小发光像素,仅 300nm² 见方

IT之家 浏览 4390

零跑D19定档10月16日,旗舰SUV全球首秀

网易汽车 浏览 5316
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1