关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3608人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

波音圣路易斯地区罢工持续近三月,谈判陷入僵局

国际金融报 浏览 3241

特朗普自己亲口承认 中国送来的反制清单让他失去理智

头条爆料007 浏览 9067

特朗普称印度将"购买委内瑞拉石油" 印度国内反应强烈

环球时报国际 浏览 5543

纯电续航215km 极狐阿尔法T5增程版官图发布

车质网 浏览 2817

83岁的何享健再度冲击IPO,美的系第十子即将诞生?

BT财经 浏览 4063

S妈含泪手捧小s奖杯,姐姐大S的遗照摆在角落

素素娱乐 浏览 2755

梓渝施洛华官宣预热!5天连更藏着什么破局密码

让生活充满温暖 浏览 2266

特朗普:庞大兵力将很快抵达伊朗

参考消息 浏览 2100

52岁影后自曝交往小20岁男友,二人曾被偶遇逛街

娱乐看阿敞 浏览 3427

贵州茅台打假“飞天开放企业直供通道”等信息:有诈骗风险!

红星资本局 浏览 2276

解密福建舰电磁弹射背后的硬核支撑

上观新闻 浏览 3001

网红版闫学晶!600万粉博主阿爆翻车

萌神木木 浏览 2210

欧洲提交修改版和平计划 涵盖乌克兰安全保障方式

上观新闻 浏览 2818

TA:维拉已与卡什就续约达成原则性协议,将续约至2029年

懂球帝 浏览 3382

女生在马来西亚丢手机 找回后发现相册里多了两段视频

极目新闻 浏览 8896

途经俄罗斯航班坠机38人身亡 机身或被弹片击中

南方都市报 浏览 23949

利民推出 PA140 SE 双塔风冷:158mm 高双风扇六热管,275W 解热

IT之家 浏览 3475

福特总部70年来首次搬家

MOTO 浏览 4022

卡拉格:曼城表现得很好,阿森纳会在英超冠军争夺中感到紧张

懂球帝 浏览 3000

缔造仙女梦的人,去了天堂继续缝制星光✨

黎贝卡的异想世界 浏览 2263

吕焯毅:我们踢得很团结有韧劲,大家都满意这场比赛

懂球帝 浏览 3220
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1