关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元975人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

4年3冠!王牌大比分4-0横扫水星夺冠,阿贾-威尔逊31+9+4

懂球帝 浏览 1036

中国色特别策划 | 故宫技艺与古意新生

时尚COSMO 浏览 685

谷歌IMO金牌级Gemini 3深夜上线!华人大神挂帅,OpenAI无力反击

新智元 浏览 225

304万辆库存压顶,汽车经销商的生死转型!

百姓评车 浏览 878

多个快递企业春节不打烊,顺丰、京东物流将上调价格

南方都市报 浏览 12535

制作粗糙,观众齐刷退钱,成本仅800万,谢孟伟新片首映冲上第一

靠谱电影君 浏览 10675

再见了沈腾,再见了贾玲,再见了沙溢!活得好好的已经被大家怀念

阿雹娱乐 浏览 850

弗神36+9上海27分逆转山东 郭昊文7分老哈空砍两双

网易体育 浏览 26373

广汽功臣肖勇让位,埃安、杨龙能否相互成全?

车友观察 浏览 1686

太牛!迪丽热巴复出连刷八套造型

Fashion地标 浏览 19505

阿奇姆彭遭成都球迷种族歧视,队长王上源发文声援

懂球帝 浏览 811

这篇你一定收藏:可以显瘦的牛仔裤它必须长这样

Yuki女人故事 浏览 13466

“中国建议”在达沃斯受欢迎

环球时报国际 浏览 12671

夸克AI眼镜开售,88VIP叠加9折消费券,最低3329元

海外网 浏览 877

小米汽车上险价格首次曝光,高配版达到36万元

界面新闻 浏览 12424

38岁的陈晓让整个娱乐圈“沉默”了?

包饺子ai剪辑 浏览 393

古尔曼:苹果今年WWDC不会推出类似于ChatGPT的竞品

IT之家 浏览 19088

午评:沪指走高涨1.33% 金融股走势强劲

网易财经 浏览 26001

自然脸和"打针脸"区别有多大?3组高颜值明星对比

小故事娱乐 浏览 19722

北极恐将夏季无冰,更多的城市将被海水淹没

趣看热点 浏览 25674

又1归化国脚有望重返中超:在巴西坐冷板凳,考虑回中国

叶青足球世界 浏览 15624
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1