关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技4574人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

新势力比传统车企更乐观,2026年车市充斥着哪些挑战?

汽车头条APP 浏览 3277

搭载华为智驾,奥迪「6系」电车上市,售价30.98万元起|最前线

36氪 浏览 1369

德国外长在广州表态:看到与中国建设性合作的机会

环球时报国际 浏览 20421

含奕派007/奕派008等 东风奕派限时权益至高减6000元

网易汽车 浏览 2904

十年间 火箭军武器装备实现跨越式发展

环球网资讯 浏览 3622

杨立昆爆猛料:Meta Llama造假,小扎因此大换血

字母榜 浏览 3537

终于在广州最舒服的季节和你们见面啦

黎贝卡的异想世界 浏览 3751

贾国龙道歉后100天,西贝能否唤回消费者?

懂财帝 浏览 3532

谭松韵,为什么百搭?

温柔娱公子 浏览 3649

女子手机突然预警陌生人在家偷东西 男子看见监控懵了

环球网资讯 浏览 7508

恩里克:我们在23分钟内丢了3个球?那是对手球员的实力所致

懂球帝 浏览 4529

女子出差遭客户强制猥亵致精神创伤:逃卫生间逃过一劫

大风新闻 浏览 14971

徐正源:无法以全主力出战,又存在伤病,输球很遗憾

懂球帝 浏览 4574

今年春天最流行的6件风衣!

LinkFashion 浏览 2792

64岁关之琳现身南京眼镜店,与老板娘喝下午茶

涵豆说娱 浏览 4711

开张了,加纳乔斩获切尔西生涯处子球

懂球帝 浏览 4400

卡萨诺:有九名球员不配在尤文踢球,戴维糟糕到令人难以直视

懂球帝 浏览 4520

年薪180万!众泰汽车副总裁被罢免

经理人杂志 浏览 4714

PPE平台打造 宾利全新纯电SUV测试谍照曝光

车质网 浏览 3846

泰军摧毁6个柬埔寨诈骗基地 称要斩断跨国犯罪根源

扬子晚报 浏览 3795

中日紧张关系升温后 日官员劝渔民:不要去钓鱼岛海域

澎湃新闻 浏览 22773
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1