关闭广告

港科大广州校区突破大模型训练瓶颈:让AI学习像数学考试高效

科技行者2033人阅读


这项由香港科技大学广州校区xLeaF实验室团队完成的研究于2026年2月发表在预印本平台,论文编号为arXiv:2601.23000v1。研究团队提出了一种名为Mano的全新优化器,能够大幅提升大型语言模型的训练效率,同时显著降低计算成本和内存消耗。

训练大型语言模型就像是在教授一个拥有数千亿个参数的超级大脑学习语言,这个过程需要消耗巨额的计算资源和电力。现有的训练方法就好比让学生用最笨拙的方式学习数学——要么只看到局部信息而忽视整体结构,要么过度追求完美而丢失了重要细节。当前最流行的AdamW优化器就像一个只会逐个检查每道题目的老师,完全忽略了题目之间的内在联系和整体规律。而另一种叫做Muon的优化器虽然能够统一处理所有维度的信息,但在这个过程中却丢失了宝贵的曲率信息,就像为了保持答题速度一致而忽略了题目的难易程度。

研究团队从一个全新的角度来思考这个问题。他们发现,传统的流形优化方法虽然在数学理论上很优美,但在实际的大模型训练中表现很差,这让很多研究者对这类方法失去了信心。然而,港科大的研究团队没有放弃,而是创新性地改造了这些方法。

他们的核心洞察是这样的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

香港闹市发现二战时期美军投射炸弹 耗时12个小时拆除

新民周刊 浏览 25905

辛杰上任9个月辞去万科董事长职务 深铁系黄力平接任

每日经济新闻 浏览 6992

短剧泛滥成灾,燃起观众热潮与烦恼

喜欢历史的阿繁 浏览 2360

哈格里夫斯:枪手拥有英超最顶级的四名边卫,其中廷贝尔最强

懂球帝 浏览 2245

泽连斯基新年致辞:不要"乌克兰的终结"

中国经济网 浏览 2439

白宫又爆丑闻:为特朗普老婆拍片烧7500万

你得漂亮 浏览 2126

39岁李思思离开央视两年,商演小县城不摆架子

范櫳舍长 浏览 1652

看完《逐玉》我承认我还是喜欢长剧

时尚COSMO 浏览 1291

杉杉股份易主:任元林接盘,“民营船王”入主锂电材料巨头

征探财经 浏览 3546

连爆2大行业瓜!大花回应只字不提影帝

大龄女一晓彤 浏览 2978

捧红王菲、那英的袁惟仁走了 曾被陶晶莹公开调侃

中国新闻周刊 浏览 8217

最牛退休女工,靠卖易拉罐,纳税100亿

创业家 浏览 3427

2025福布斯中国内地富豪榜发布:钟睒睒连续五年登顶,雷军超越马云排第七

红星资本局 浏览 3157

《向往8》暴露明星真实性格!张子枫老实,何炅诙谐,黄磊最强势

娱乐圈笔娱君 浏览 3406

松延动力创始人姜哲源回应“低价”:机器人本身就不该那么贵

中国经营报 浏览 3347

人类史上最大抄家案?华人受害,美国却狂揽1070亿

大猫财经Pro 浏览 3014

IEA:如果有需要,仍可进一步动用更多石油储备

华尔街见闻官方 浏览 1283

李沁,一款全方位健康的“老式小孩”

时尚COSMO 浏览 4049

媒体:在美国对华政策调整刺激下 欧洲三大国都要访华

南风窗 浏览 32483

E句话| 《繁花》剧组又回应了?

仙女事件簿 浏览 3100

测Manus 1.5:丝滑,超预期,Manus独特上下文工程的一次关键展示

硅星人 浏览 3488
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1