关闭广告

港科大广州校区突破大模型训练瓶颈:让AI学习像数学考试高效

科技行者2038人阅读


这项由香港科技大学广州校区xLeaF实验室团队完成的研究于2026年2月发表在预印本平台,论文编号为arXiv:2601.23000v1。研究团队提出了一种名为Mano的全新优化器,能够大幅提升大型语言模型的训练效率,同时显著降低计算成本和内存消耗。

训练大型语言模型就像是在教授一个拥有数千亿个参数的超级大脑学习语言,这个过程需要消耗巨额的计算资源和电力。现有的训练方法就好比让学生用最笨拙的方式学习数学——要么只看到局部信息而忽视整体结构,要么过度追求完美而丢失了重要细节。当前最流行的AdamW优化器就像一个只会逐个检查每道题目的老师,完全忽略了题目之间的内在联系和整体规律。而另一种叫做Muon的优化器虽然能够统一处理所有维度的信息,但在这个过程中却丢失了宝贵的曲率信息,就像为了保持答题速度一致而忽略了题目的难易程度。

研究团队从一个全新的角度来思考这个问题。他们发现,传统的流形优化方法虽然在数学理论上很优美,但在实际的大模型训练中表现很差,这让很多研究者对这类方法失去了信心。然而,港科大的研究团队没有放弃,而是创新性地改造了这些方法。

他们的核心洞察是这样的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

实探封关后的海南三亚:消费者无法全岛"零关税"购物

第一财经资讯 浏览 2536

蔡卓妍林俊贤结婚,3枚婚戒超65万,男主搬入女方豪宅同居生活

素素娱乐 浏览 44

文班亚马:我真的不在乎个人荣誉,若拿到DPOY说明我帮到球队了

懂球帝 浏览 3236

官方:湖人裁掉RJ-戴维斯、安东-沃特森等4人

懂球帝 浏览 3406

洛里昂vs布雷斯特:姆沃戈、马肯戈首发,迪纳-埃宾贝、阿若克出战

懂球帝 浏览 3338

新华鲜报|向着8万海里!中国第42次南极考察队起航

新华社 浏览 3322

这6款发色居然这么火?50张图可以直接给tony

Yuki女人故事 浏览 1546

被出示黄牌,西蒙斯社媒晒知名网红uno梗图

懂球帝 浏览 2104

这一抹瑞红,在2025年终

时尚COSMO 浏览 1947

‍♂️吧友们抓紧了!国足主帅报名将于明天截止

直播吧 浏览 3452

口子窖第三季度利润下降超9成,高端酒卖不动了

红星资本局 浏览 3249

张柏芝带大儿子澳洲度假,18岁Lucas又高又帅

扒虾侃娱 浏览 2048

特斯拉撞树后打不开车门 5人被困燃烧的车内身亡

每日经济新闻 浏览 3215

与中国“交好”,拿盟友“开刀”,战略已明朗

浏览 26412

大爆冷!北京末节被轰30-13崩盘负天津 赵睿复出13分杰曼8中1

醉卧浮生 浏览 2206

iPhone Air国行版要来了!联通eSIM预约通道正式开放

三言科技 浏览 2970

全新MG4、极狐T1和缤果S,都上市不久,分别卖得怎么样?

车轮生活 浏览 3507

胡夏明明能保送,非要参与五公,披哥5怪贴心的

翰林涛涛 浏览 3481

十年前的百度,聚拢了硅谷最杰出的天才,每个都比姚顺雨耀眼……

字母榜 浏览 2143

以军袭击加沙城社区 至少6人死亡

财联社 浏览 2035

"希腊船王"继承人战胜癌症 被虫子咬一口莫名其妙死了

新民晚报 浏览 23229
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1