关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3611人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

宁德联手紫金，打得过王传福和他挖矿的表哥吗？

蓝鲸新闻浏览 726

《音乐缘计划2》优秀！各路大咖齐集

你我话娱乐浏览 3335

河北农村老人挨冻，取暖费为何贵上万

深蓝财经浏览 1894

精彩推荐

小鹏汽车11月交付新车36,728台 1-11月累计交付391,937台

网易汽车浏览 2735

缅北四大电诈头目被押解回国特写画面首次披露

大风新闻浏览 7968

乐道推7年超低息金融方案年化费率低至0.49%

网易汽车浏览 2205

信用卡汇兑“省一步” 多银行结算币种从美元切换至人民币

21世纪经济报道浏览 3994

宝利德破产听证后官司缠身昔日豪车经销商驶向何方

财闻浏览 3135

比亚迪技术研发人员涨薪，研发人员总数超12万人

红星资本局浏览 2658

亏了1800万，分红1.3个亿！网红牙膏，凭啥上市？

蓝鲸新闻浏览 631

大S逝世一周年 S家没通知大S子女惹争议

萌神木木浏览 2048

女子卷入前夫780余万巨债诉讼9年均被判＂夫妻共债＂

红星新闻浏览 30879

在这场战争中特朗普的致命弱点是什么？

智本社浏览 1571

闫学晶风波终于落幕，6个男人惨遭牵连

青橘罐头浏览 2117

29岁女孩感谢蔡磊:使用其团队研发药物后病情没再发展

鲁中晨报浏览 17743

OPPO Enco Air5 Pro无线蓝牙耳机发布：55dB降噪，329元

IT之家浏览 1663

媒体：放弃全球霸权背叛美国的美国已不再自信

南风窗浏览 7606

NBA球员工会：我们与明州人民站在一起，必须捍卫言论自由的权利

懂球帝浏览 2279

诋毁蚂蚁集团，粉丝超1亿“专家”被封禁，什么信号？

一见财经浏览 679

从北京到平壤的火车线路被指将于周四开通外交部回应

外交部网站浏览 31672

版博会观察：冰箱贴凭啥成文创顶流？AI+版权如何焕新意？

南方都市报浏览 3351

中国停购后美国大豆真＂爆仓＂了人们四处逃散

澎湃新闻浏览 11216

亚马逊CEO安迪·贾西：AWS到2027年底将实现电力容量翻倍

IT之家浏览 669

华东智能无人系统试验测试认证基地全面完工占地76亩

财闻浏览 3394

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1