关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro4794人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

高通AI研究团队让图像生成快1.7倍

科技行者 浏览 3555

HuggingFace发布实战指南,从决策到落地手把手教你训练大模型

机器之心Pro 浏览 3469

离婚分走4亿财产,最爽的投行女出现了

金融八卦女 浏览 3473

宁波方正携手山东未来机器人,聚焦深海机器人业务

财闻 浏览 4417

广东晋级决赛杜锋谈辽粤大战:广东后场接过接力棒,传承篮球使命

篮球资讯达人 浏览 4394

OptiScaler发测试版:抢跑AMD为Vulkan游戏开启FSR 4

IT之家 浏览 2928

售35.98万元起 第二代腾势D9正式上市

网易汽车 浏览 1459

章子怡醒醒给汪峰打电话:哈尔滨冷记着多穿衣服

观察鉴娱 浏览 4158

美院硕士在母校附近摆摊卖包子火了 父母也来陪他创业

都市快报橙柿互动 浏览 15245

《秋雪漫过的冬天》首播,不如原版韩剧好看

马庆云的影音娱 浏览 3551

美欲推动加沙停火计划第二阶段 专家:既想占好处又不愿担责

环球网资讯 浏览 4520

反转!曝何超莲婚礼是亲妈出钱,窦骁不愿签婚前协议,所以没领证

萌神木木 浏览 4378

王健林和王思聪同一天上热搜!都是因为欠钱,父子被执行超52亿…

火山诗话 浏览 5054

解密福建舰电磁弹射背后的硬核支撑

上观新闻 浏览 4135

这些才是最接地气的日常穿搭!多穿衬衫、腰线明显,舒适显瘦

静儿时尚达人 浏览 1221

一旦安世半导体分裂,最后谁会哭?

禾颜阅车 浏览 4413

大鹏工业:外购标准件采购占比超七成 自研的被评奖项目背后现客户

金证研 浏览 4481

迪拜大力发展自动驾驶产业

人民网 浏览 5090

业务调整、AI广泛应用,印度IT业“无声裁员”冲击数万岗位

环球网资讯 浏览 4536

上了年纪的女人秋天选“外套”,记住这3上关键点,时髦显瘦

静儿时尚达人 浏览 6480

配置升级 2026款雷克萨斯LS官图正式发布

车质网 浏览 4118
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1