关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者4394人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

一针注射,体外控波,科学家研发新型无线神经刺激器重塑疼痛管理

DeepTech深科技 浏览 3

白百何被骂翻了!聊天记录自锤耍大牌难搞?

萌神木木 浏览 4259

1000亿美元投资仍处“纸上”?黄仁勋称英伟达尚未支付OpenAI一分钱

环球网资讯 浏览 3689

美的空界M5空调上市,国补后2499元,还能鸿蒙互联!

IT之家 浏览 3434

企业30年燃气特许权被单方取消 两级法院判定政府违法

大皖新闻 浏览 7301

别克至境L7:新能源赛道,没有人能靠旧身份活下去

AutoBusiness 浏览 5358

郭磊:如何认识最新的出口数据和出口形势

首席经济学家论坛 浏览 4629

怒批9人摆烂!穆帅不惧球员造反:你爸一直对你好? 4轮0分非末日

风过乡 浏览 4153

观众对白百何的评价,明白了当年宋丹丹那番话

娱乐圈笔娱君 浏览 3382

爸爸是国家一级演员,他36岁靠《四喜》红了

睿鉴历史 浏览 3794

四冠王!南外毕业生所在战队问鼎RoboMaster2025全国总冠军

现代快报 浏览 5391

700万辆之后 中国汽车出口的“下一程”

车质网 浏览 3443

特朗普大规模换大使:涉及30多国 均在拜登时期上任

齐鲁壹点 浏览 8903

付豪:其实我们比球迷更想赢球,但球队实力与过去不可同日而语

懂球帝 浏览 3584

17岁小伙疑陷东南亚骗局 家人收其戴手铐跪地照片

大风新闻 浏览 18312

给《树影迷宫》演技最好的7位演员排座次:刘琳第3,第1无法超越

娱乐圈笔娱君 浏览 4182

岚图泰山X8大湾区登场!粤港澳迎来8系唯一四激光全地形SUV

网易汽车 浏览 541

路边停车累计欠费490元 车主拒缴:车被刮花没人管

封面新闻 浏览 9628

调研 | 从陪伴“小巨人”企业A+H股上市,看宁波银行服务硬科技范式转变

券商中国 浏览 1311

牛弹琴:2025年最勇敢的一个动作 背后是全世界的震惊

北京日报客户端 浏览 9813

汕小伙5000元创业,如今3家工厂10家店,“睡地板也要当老板”

电商在线 浏览 4621
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1