爆点资讯

当下主流的视觉语言模型（Vision-Language Models, VLM），通常都采用这样一种设计思路：将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌，但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高，不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO，试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题：如果不依赖预训练的视觉编码器，能否构建出与顶级模块化 VLM 相媲美的原生统一架构？

图丨相关论文（来源：arXiv）

在传统方法中，视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型，这些编码器虽然在视觉理解上表现出色，但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是，视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系，后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂，还需要大量的对齐数据来弥合两个模态之间的鸿沟。

高效训练新标杆！华人开源原生VLM-NEO，以少数据追平顶级模型

德媒：德总理...

调查高通，开...

福域架构赋能...

倾家荡产12...

鸿蒙智行顶流...

路易斯破82...

被家暴16次女子得70%共同财产及10万赔偿共140万余元

美政府＂停摆＂破纪录英伟达市值一夜蒸发1.4万亿元

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

丰田固态电池预计2027年上车量产车续航或达1200公里

4年8000万美元？解析火箭续约伊森前景：最终达成可能性较大

“双引擎”再提速：中国资本市场改革释放创新红利

美的致富路，机器人暂未挑大梁

叙利亚过渡政府宣布延长停火15天

相恋6年＂军官女友＂收60余万后消失警方证实其已落网

林允儿新剧遭官媒批评！本人社媒喊话我喜欢，来中国捞金还挑衅

不露腿也想穿好看，最关键的是这一点

阿迪达斯是雪中飞生产，可你买的雪中飞不一定是雪中飞生产的

神舟二十号飞船推迟返回疑似遭空间微小碎片撞击

媒体：一份非官方的美国就业数据把美国投资者吓坏了

媒体：安世中国第3次硬核回击荷兰已获国家强势撑腰

迷雾剧场新剧：超越悬疑，窥见人心

新ES8杀到30万元内！押注纯电大三排SUV市场，李斌：不用担心蔚来不赚钱

特朗普行政令降低大麻管制等级，投资者“卖事实”，大麻股普跌

A股公司老总被抓宣布离婚 80后前妻分9.24亿紧急接班

欧洲多国：美国赶紧“还钱”

11月正式上市/五座实用空间福特探险者昆仑穿越版亮相

2026款ICON巧克力＂心动紫＂上市限时7.98万起

勇士不敌湖人！波杰统领攻守，替补2将齐爆，库明加格林失误多！

追觅汽车三款SUV车型外观亮相：星际T08、T08L和D09