关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro277人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

伊姐周日热推:电视剧《御赐小仵作2》;电视剧《偶像疯子》......

伊周潮流 浏览 1958

紫牛头条|小伙用激光把南京夫子庙扫描做成3D游戏 1:1还原精度到厘米,网友:可以赛博旅游了

扬子晚报 浏览 3432

男子称爷爷坟里埋了200万 女友给他272万发现其是老赖

潇湘晨报 浏览 7153

预售31.98万起 吉利银河V900即将上市

网易汽车 浏览 2263

华为Sound X获HarmonyOS 6.0 Beta升级,新增AI搜歌等功能

IT之家 浏览 2694

特朗普:对委内瑞拉发动军事袭击计划"泄密者"已被抓

环球时报国际 浏览 12711

灵鹊150无人机成功首飞

新华社 浏览 2296

吉利ICON巧克力心动紫上市!网友:销量稳了

汽车网评 浏览 3209

北约秘书长斩钉截铁:欧洲永远离不开美国

扬子晚报 浏览 22519

学者:此次"正义使命"演习最大的亮点就是"开局即打"

环球网资讯 浏览 23923

从每天只睡4小时到8小时:一个失眠者的自救指南

黎贝卡的异想世界 浏览 1532

1-8月酒饮料茶行业利润增速19.9%,白酒行业迎来困境反转了吗?

郭施亮 浏览 3966

本田宣布将终止与通用汽车合资公司的燃料电池生产

IT之家 浏览 2200

特朗普或为中国制造三大机遇,中国如何利用?

浏览 26029

这是陈妍希?新剧开播后居然长这样

Yuki女人故事 浏览 2630

今年冬天最时髦保暖的4组搭配,照着穿美出新高度!

LinkFashion 浏览 2181

华为跟广汽搞了个启境,它跟界字辈有啥区别?

差评XPIN 浏览 3499

斯诺克威尔士赛:江俊爆冷逆转塞尔比,吴宜泽4-0完胜晋级

懂球帝 浏览 1727

19人徒步被困河南辉县南太行山悬崖 1人突发疾病遇难

红星新闻 浏览 8573

蒋欣节目中直言自己没人追,理想型竟然是他!

青史楼兰 浏览 3081

“林下生金”,看生态与产业如何共振

海外网 浏览 3254
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1