关闭广告

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

科技行者3257人阅读

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

排除乌欧参与引发解读普京与美特使谈了5小时

环球网资讯浏览 2773

吴建豪：一位复古“老餮”的用心律动与生命赤诚

三石一声浏览 2425

沃什问鼎美联储主席前路如何？

21金融圈浏览 2061

精彩推荐

女佣自杀，最贵凶宅诞生！许家印好牌友要吐血

说财猫浏览 3304

纯电续航325km 小鹏P7+增程版申报信息曝光

车质网浏览 3160

海AI实验室团队揭秘：LLM训练新招数让AI学习效率提升36%

科技行者浏览 2131

SRM理工学院发布：文本到视频生成技术演进图谱

科技行者浏览 3028

彭博社：搭载 M5 芯片的新款 Vision Pro 在越南组装

威锋网浏览 3354

离婚4年，42岁佟丽娅高调官宣喜讯

刘森森浏览 3128

宏福苑4小时内火警连升三级：单户最大面积44.9平方米

红星新闻浏览 30158

49岁舒淇终于承认不孕，备孕9年无果一度抑郁

小娱乐悠悠浏览 2987

【年度爱用】她们2025年买得最值的，是这些

黎贝卡的异想世界浏览 2307

中方公布重要证据后日本防卫大臣只得改口但依然狡辩

环球时报国际浏览 7408

牛弹琴：特朗普迎最高兴一天还求以方赦免内塔尼亚胡

映象网浏览 7328

遇到家境好的领导是什么体验？

识局浏览 3175

《我的山与海》遭受痛批，年代剧要的是接地气

娱乐圈笔娱君浏览 1476

《镖人》是奔着武侠票房冠军去的

娱乐圈笔娱君浏览 2283

德天空：法比奥-卡瓦略冬窗会离开布伦特福德，可能永久转会

懂球帝浏览 3224

科创板主题基金规模突破三千亿元 “上新”的指数如何参与创新和成长?

金证研浏览 3239

小马、文远回港上市但自动驾驶还没赢家

虎嗅APP 浏览 3185

黎以停火协议生效一年以军称打死370余名武装人员

国际在线浏览 2777

伊朗民众：伊朗不会屈服于美国霸权

极目新闻浏览 2037

深圳楼市的罕见机会，来了

博闻财经浏览 3361

蚂蚁集团开发的超级机器人大脑：让机器人像人一样学会做任何事

科技行者浏览 2108

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1