关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro1642人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

阿斯:弗拉门戈与菲利佩续约陷入僵局,要求后者周一给出答复

懂球帝 浏览 3612

网传 Stellantis 与东风深化合作,拟以岚图/猛士技术开发新车型

IT之家 浏览 4551

给《树影迷宫》演技最好的7位演员排座次:刘琳第3,第1无法超越

娱乐圈笔娱君 浏览 4179

山西6人上双大胜送福建3连败 邹阳18分新科状元11+9

醉卧浮生 浏览 3422

超频三 RT620Pro TC ARGB 风冷 239 元上市,配备家族化一体顶盖

IT之家 浏览 4541

蜜雪冰城开卖啤酒:价格5.9元至14.9元不等 只能外带

极目新闻 浏览 8612

时间序列也会"说话"?这个突破性AI让数据图表变成了智能分析师

科技行者 浏览 3717

全新Q05/A06/Q07带动 长安启源11月销量46909辆增长31%

网易汽车 浏览 3969

邱毅:两岸统一的脚步越来越近

环球网资讯 浏览 4118

乌迪内斯3-2莱切,布克萨、凯南-戴维斯建功

懂球帝 浏览 4318

今年春夏最火的3个穿搭思路,普通人可以直接照搬吗?

黎贝卡的异想世界 浏览 1150

国庆可提车 吉利银河星耀6先享预售价7.98万元起

网易汽车 浏览 5129

辽宁加时95-82江苏,赵继伟16+7+8,威尔斯21分

懂球帝 浏览 3236

25岁女孩海岛求生赛吃老鼠蜈蚣 35天暴瘦28斤

潇湘晨报 浏览 8764

一下老了30岁?!她真让人认不出

Yuki女人故事 浏览 4415

弗莱彻首战曼联将用四后卫,B费请缨出战!新帝星已撤回转会申请

罗米的曼联博客 浏览 3514

世体:尽管知道需合理分配体能,但莱万不会放弃争夺中锋位置

懂球帝 浏览 3567

迪亚曼蒂:曾有机会加盟国米,但因穆里尼奥没去成

懂球帝 浏览 4964

传祺向往M8宗师上市 补贴价24.99万元起

网易汽车 浏览 4567

我国最“不靠谱”专家,公开在央视“忽悠”人

来科点谱 浏览 3441

伊姐周日热推:电视剧《吴邪私家笔记》;电视剧《灼灼韶华》......

伊周潮流 浏览 5343
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1