关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元3424人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普:继续陈兵伊朗及周边

极目新闻 浏览 666

吕焯毅:我们踢得很团结有韧劲,大家都满意这场比赛

懂球帝 浏览 3230

户外赛道竞速,坦博尔、伯希和冲刺港股突围

斑马消费 浏览 3499

昂跑藏了一张底牌

虎嗅APP 浏览 2546

低成本、高锐度布局风口上的创新药

一地基毛 浏览 3130

网传 Stellantis 与东风深化合作,拟以岚图/猛士技术开发新车型

IT之家 浏览 3425

蔚来ET9百万纪念限量版上市 售价81.8万元

车质网 浏览 1833

排除乌欧参与引发解读 普京与美特使谈了5小时

环球网资讯 浏览 2773

阿奇姆彭遭成都球迷种族歧视,队长王上源发文声援

懂球帝 浏览 3268

蔡康永发文缅怀大S,说大S应该被好好疼爱的

素素娱乐 浏览 2027

不尊重中国领土完整!巴萨遭批:中国特供不发外网 甩锅临时工

念洲 浏览 282

方程豹钛3拆车:情绪烘托到这份儿上,你会买单吗?

大飙车 浏览 2589

小米汽车560平米超大商超体验店开业

CAR路里 浏览 3234

AI圈再颠覆!中国AI翻译耳机通话翻译,实测震撼

新智元 浏览 3462

李施嬅和车崇健确认已分手,她值得更好的!

黔乡小姊妹 浏览 2284

杨蓉右脸烫伤后晒自拍:“带疤的脸很酷”

今古深日报 浏览 287

王楚钦抵达海口参加亚洲杯,不愧是穿搭博主

可乐谈情感 浏览 2141

何聪睿剧扑甩锅女主,本人发声道歉

扒虾侃娱 浏览 2229

宗馥莉几乎搞砸了一切

功夫财经 浏览 3311

高市内阁名单出炉 身材火辣的日本知名写真女星入选

红星新闻 浏览 9250

辽宁U18男足点球5-4战胜山东U18男足,夺得全运会冠军

懂球帝 浏览 3096
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1