关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro281人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

59天后的春晚,她必是焦点

Yuki女人故事 浏览 2650

澳网总监:女子赛事若采用五盘三胜,或将在2027年实施

懂球帝 浏览 2032

何超莲再破天花板 让窦骁和豪门圈“沉默”了?

东方不败然多多 浏览 2845

大相径庭,维拉上赛季英超前五轮过后高居第3,本赛季仅第18

直播吧 浏览 4030

力鸿一号未来技术成熟后,可提供亚轨道太空旅游服务

IT之家 浏览 2394

面包界的“隐形冠军”,正在中国闷声发财

虎嗅APP 浏览 2332

U23国足战越南官方阵型: 4-4-2!鲍盛鑫中场,蒯纪闻搭档向余望,胡荷韬可落位边后卫>>

懂球帝 浏览 2279

解码长盈精密的财务忍耐期:利润下滑20%,机器人收入却狂飙8倍,激进扩张能否开花结果?

时代周报 浏览 2700

牛弹琴:特朗普“三个很开心” 让全世界脊背发凉

现代快报 浏览 102703

拥抱变局!2025外滩年会揭幕,聚焦新秩序、新科技

国际金融报 浏览 3358

印度的“真正敌人” 莫迪挑明了

参考消息 浏览 25150

下一部新剧被曝又是大女主!杨紫真要拍不过来了

星寒新影视 浏览 2620

特朗普否认美军将领“反对与伊朗开战”

上观新闻 浏览 1653

25岁女孩海岛求生赛吃老鼠蜈蚣 35天暴瘦28斤

潇湘晨报 浏览 7677

俄外长称俄正与北约和欧洲处于“真正的战争”之中

澎湃新闻 浏览 3915

速览!假期这些大事影响节后市场

Wind万得 浏览 1704

TA夸怀特、哲凯赖什和苏比门迪:各展所长,共同铸就关键胜利

懂球帝 浏览 2210

XREAL 1S AR眼镜发布,全球首搭内容2D→3D自动转换

IT之家 浏览 2815

小川航基:没赢下巴拉圭心有不甘;对阵巴西的机会肯定会更少

懂球帝 浏览 3387

伊朗外长率团抵达巴基斯坦

环球网资讯 浏览 40

孟菲斯·德佩,荷兰射手王+助攻王

体坛周报 浏览 3485
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1