关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3611人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

小鹏汽车11月交付新车36,728台 1-11月累计交付391,937台

网易汽车 浏览 2735

缅北四大电诈头目被押解回国 特写画面首次披露

大风新闻 浏览 7968

乐道推7年超低息金融方案 年化费率低至0.49%

网易汽车 浏览 2205

信用卡汇兑“省一步” 多银行结算币种从美元切换至人民币

21世纪经济报道 浏览 3994

宝利德破产听证后官司缠身 昔日豪车经销商驶向何方

财闻 浏览 3135

比亚迪技术研发人员涨薪,研发人员总数超12万人

红星资本局 浏览 2658

亏了1800万,分红1.3个亿!网红牙膏,凭啥上市?

蓝鲸新闻 浏览 631

大S逝世一周年 S家没通知大S子女惹争议

萌神木木 浏览 2048

女子卷入前夫780余万巨债 诉讼9年均被判"夫妻共债"

红星新闻 浏览 30879

在这场战争中特朗普的致命弱点是什么?

智本社 浏览 1571

闫学晶风波终于落幕,6个男人惨遭牵连

青橘罐头 浏览 2117

29岁女孩感谢蔡磊:使用其团队研发药物后病情没再发展

鲁中晨报 浏览 17743

OPPO Enco Air5 Pro无线蓝牙耳机发布:55dB降噪,329元

IT之家 浏览 1663

媒体:放弃全球霸权 背叛美国的美国已不再自信

南风窗 浏览 7606

NBA球员工会:我们与明州人民站在一起,必须捍卫言论自由的权利

懂球帝 浏览 2279

诋毁蚂蚁集团,粉丝超1亿“专家”被封禁,什么信号?

一见财经 浏览 679

从北京到平壤的火车线路被指将于周四开通 外交部回应

外交部网站 浏览 31672

版博会观察:冰箱贴凭啥成文创顶流?AI+版权如何焕新意?

南方都市报 浏览 3351

中国停购后 美国大豆真"爆仓"了人们四处逃散

澎湃新闻 浏览 11216

亚马逊CEO安迪·贾西:AWS到2027年底将实现电力容量翻倍

IT之家 浏览 669

华东智能无人系统试验测试认证基地全面完工 占地76亩

财闻 浏览 3394
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1