爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

宁波84-7...

特朗普拉9国...

继星巴克之后...

缅北四大电诈...

印欧达成自由...

韩庚和妻子与...

图片报：皇萨塔、曼联、拜仁、药厂、多特等球队关注艾希霍恩

【观察】图多尔下课了，但尤文的混乱何时结束？

中国人民大学的研究突破：让AI思考过程更快更省的神奇方法

一针注射，体外控波，科学家研发新型无线神经刺激器重塑疼痛管理

白百何被骂翻了！聊天记录自锤耍大牌难搞？

1000亿美元投资仍处“纸上”？黄仁勋称英伟达尚未支付OpenAI一分钱

美的空界M5空调上市，国补后2499元，还能鸿蒙互联！

企业30年燃气特许权被单方取消两级法院判定政府违法

别克至境L7：新能源赛道，没有人能靠旧身份活下去

郭磊：如何认识最新的出口数据和出口形势

怒批9人摆烂！穆帅不惧球员造反:你爸一直对你好？ 4轮0分非末日

观众对白百何的评价，明白了当年宋丹丹那番话

爸爸是国家一级演员，他36岁靠《四喜》红了

四冠王！南外毕业生所在战队问鼎RoboMaster2025全国总冠军

700万辆之后中国汽车出口的“下一程”

特朗普大规模换大使：涉及30多国均在拜登时期上任

付豪：其实我们比球迷更想赢球，但球队实力与过去不可同日而语

17岁小伙疑陷东南亚骗局家人收其戴手铐跪地照片

给《树影迷宫》演技最好的7位演员排座次：刘琳第3，第1无法超越

岚图泰山X8大湾区登场！粤港澳迎来8系唯一四激光全地形SUV

路边停车累计欠费490元车主拒缴：车被刮花没人管

调研 | 从陪伴“小巨人”企业A+H股上市，看宁波银行服务硬科技范式转变

牛弹琴：2025年最勇敢的一个动作背后是全世界的震惊

汕小伙5000元创业，如今3家工厂10家店，“睡地板也要当老板”