关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3607人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美财长批中国实施稀土出口管制是"对抗世界" 中方驳斥

环球网资讯 浏览 9056

三次联排后,央视春晚越看越悬:分会场像宣传片主会场全是老套路

肆季娱乐 浏览 2040

厂补叠加国补,长安启源全新Q05仅6.6万元起

豆哥不卖车 浏览 2476

年度王炸爽剧,还是烂尾了

独立鱼 浏览 3181

155亿债务压垮豪门?继母长子内斗两年,双双出局!72岁“中国民营船王”拟入主杉杉股份

经理人杂志 浏览 3562

《年少有为》追剧团 41岁叶祖新和31岁彭昱畅同框

往史过眼云烟 浏览 2078

徐正源:以饱满斗志迎接挑战 会对阵容进行调整

体坛周报 浏览 3462

新版《聊斋》杀青,六个单元主演全亮相,林允、宋祖儿倾力加盟

最爱酷影视 浏览 4130

多家房企称已不被要求上报三道红线 仍需提交资产负债率指标

财联社 浏览 2111

售14.98万 方程豹钛3推501km后驱Ultra版

网易汽车 浏览 3182

最高续航430km 五菱缤果S置换补贴价6.38万起

网易汽车 浏览 3938

这些老电影里的穿搭技巧,绝了!

Yuki女人故事 浏览 2870

伊朗高级军官:以色列威胁言论暴露其“动荡和软弱”

上观新闻 浏览 2540

三星:明年的 HBM 内存产能已售罄,考虑扩建生产线

IT之家 浏览 3100

13.18亿大单!国网信通公告:子公司重大经营合同中标

红星资本局 浏览 3123

独家|接盘露笑弃子藏暗雷?美克家居豪赌AI算力,标的实控人控股企业被曝欠税4205万元

时代周报 浏览 2348

范曾与女儿、继子断绝关系 其与妻子新公司本月刚成立

红星新闻 浏览 19487

英法空袭叙利亚中部地区 宣称打击极端组织"伊斯兰国"

环球网资讯 浏览 2341

岚图汽车2025年交付150169辆 同比增87%

网易汽车 浏览 2436

韩国人终于把自己的“国运”给彻底玩没了

浏览 26282

宇树澄清:去年人形机器人出货量超5500台,不含其他产品

南方都市报 浏览 2251
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1