关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro280人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

爆冷!莫布利29+8骑士崩盘输猛龙 巴特尔三分6中6引3人20+

醉卧浮生 浏览 3193

响应“人工智能+”国家行动,方舟健客(06086)“杏捷大模型”通过国家备案,为AI+慢病管理注入新动能

智通财经 浏览 3090

外媒:马克龙在最后一刻加入反对阵营 "背叛"了默茨

澎湃新闻 浏览 8299

剑指阿里字节!报道:腾讯秘密布局微信AI智能体,年内或向全用户开放

华尔街见闻官方 浏览 1422

储朝晖:应对“入学潮”,推动教育提质增效

环球网资讯 浏览 2694

讲解员回忆杨振宁95岁来访两弹城:他说这个时代特别需要“两弹一星”精神

封面新闻 浏览 3396

这不是危言耸听:最快明年,比亚迪的插混和纯电,就没有区别了

小李车评李建红 浏览 3362

两位省委常委跨省履新 其中一人曾长期在中纪委工作

极目新闻 浏览 9306

香港科技大学突破文本理解难题:让AI模型内部"自我改造"

科技行者 浏览 2268

马筱梅首晒孕肚状态绝佳,新生儿性别已暗示,汪小菲家将有新成员

不八卦会死星人 浏览 2342

西蒙尼:要变得更强,朱利亚诺必须努力、谦虚并保持当前状态

懂球帝 浏览 3177

2天票房3亿,看完《疯狂动物城2》,我想说:好莱坞大片赌对了

娱乐圈笔娱君 浏览 2888

终于来了!山东签约新大外弥补内线隐患,但陈培东感冒将缺席一场

篮球资讯达人 浏览 2310

伊拉克国防部:已全面接管阿萨德空军基地

极目新闻 浏览 2239

有魄力!首次先发的向余望等4人,此前出场时间都小于90分钟

懂球帝 浏览 2292

惨!武术冠军自掏腰包拍武侠片,成本超1500万,4天票房仅169万

靠谱电影君 浏览 3342

陈冰挺孕肚陪男友逛街,陈牧驰一脸络腮胡

黄谋仕 浏览 2260

王欣瑜不敌小白菜生涯首冠继续迟到,中国网球仍成奥克兰最大赢家

网球之家 浏览 2292

北约秘书长吕特:理解特朗普对许多北约盟友感到失望

参考消息 浏览 58761

"富豪"承诺月嫂月薪1万5却1年只发5500 还向她借85万

极目新闻 浏览 5742

安徽小伙辍学卖馒头,今年已赚13亿

创业家 浏览 2482
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1