关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技3430人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

丰田固态电池预计2027年上车 量产车续航或达1200公里

智车情报局 浏览 3021

4年8000万美元?解析火箭续约伊森前景:最终达成可能性较大

罗说NBA 浏览 3346

“双引擎”再提速:中国资本市场改革释放创新红利

财经众议院 浏览 3084

美的致富路,机器人暂未挑大梁

北京商报 浏览 3181

叙利亚过渡政府宣布延长停火15天

上观新闻 浏览 2129

相恋6年"军官女友"收60余万后消失 警方证实其已落网

红星新闻 浏览 20246

林允儿新剧遭官媒批评!本人社媒喊话我喜欢,来中国捞金还挑衅

萌神木木 浏览 3480

不露腿也想穿好看,最关键的是这一点

黎贝卡的异想世界 浏览 2197

阿迪达斯是雪中飞生产,可你买的雪中飞不一定是雪中飞生产的

红星资本局 浏览 3240

神舟二十号飞船推迟返回 疑似遭空间微小碎片撞击

极目新闻 浏览 8135

媒体:一份非官方的美国就业数据 把美国投资者吓坏了

财联社 浏览 8014

媒体:安世中国第3次硬核回击荷兰 已获国家强势撑腰

看看新闻Knews 浏览 8375

迷雾剧场新剧:超越悬疑,窥见人心

吐槽电影院 浏览 3314

新ES8杀到30万元内!押注纯电大三排SUV市场,李斌:不用担心蔚来不赚钱

时代周报 浏览 4067

特朗普行政令降低大麻管制等级,投资者“卖事实”,大麻股普跌

华尔街见闻官方 浏览 2621

A股公司老总被抓宣布离婚 80后前妻分9.24亿紧急接班

每日经济新闻 浏览 8322

欧洲多国:美国赶紧“还钱”

第一财经资讯 浏览 3128

11月正式上市/五座实用空间 福特探险者昆仑穿越版亮相

网易汽车 浏览 3347

2026款ICON巧克力"心动紫"上市 限时7.98万起

网易汽车 浏览 3269

勇士不敌湖人!波杰统领攻守,替补2将齐爆,库明加格林失误多!

篮球资讯达人 浏览 3435

追觅汽车三款SUV车型外观亮相:星际T08、T08L和D09

IT之家 浏览 1972
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1