关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元3421人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

解放军突然亮出大量东风17 竹林起竖画面被央视公开

小涛叨叨 浏览 8760

世体:尽管知道需合理分配体能,但莱万不会放弃争夺中锋位置

懂球帝 浏览 2409

连奕名为老婆过46岁生日 杨若兮素颜照惹争议

小徐讲八卦 浏览 2548

热搜上消失的女明星,正在偷偷养鸡

Yuki女人故事 浏览 3452

"网红罗大美遇害案"新进展:三名被告人均提出上诉

扬子晚报 浏览 9608

美联储主席鲍威尔回应遭刑事调查:将继续履行职责

国际金融报 浏览 2311

兴业消费金融:筑梦美好生活 扎实推进高质量发展

财经众议院 浏览 2476

马拉加71-61击败NBA发展联盟联队!卫冕国际篮联洲际杯冠军!

直播吧 浏览 3538

美方在公海海域扣押悬挂俄罗斯国旗的油轮 外交部回应

澎湃新闻 浏览 13125

42岁暴瘦脱相崩溃大哭的蒋欣,给所有人提了个醒

阿会情感 浏览 3096

懒懒陪王思聪低调过38岁生日,晒甜蜜日常

丁丁鲤史纪 浏览 2339

或2027年发布 全新丰田凌放Harrier谍照曝光

车质网 浏览 2637

TA:曼联今夏额外借贷1.05亿镑用于引援,目前总债务6.37亿镑

直播吧 浏览 4110

资负统筹,多元发展,中国人寿前三季度新业务价值强劲增长41.8%

证券市场周刊 浏览 3208

特朗普暗示谈判如有进展 或改变打击伊朗决定

上观新闻 浏览 660

阿尔巴:对我帮助最关键的是埃梅里;我心中梅西就是历史最佳

懂球帝 浏览 3252

晚点独家丨大定突破今年4万产能上限,新ES8帮蔚来赢得更多机会

晚点LatePost 浏览 4099

迪亚曼蒂:曾有机会加盟国米,但因穆里尼奥没去成

懂球帝 浏览 3909

夏天穿维希格,原来这么好看

Yuki女人故事 浏览 33

美媒评字母哥五大交易方案 联手文班?加盟湖人?

体坛周报 浏览 2763

或命名星光560 五菱宏光侠量产版实车曝光

车质网 浏览 2785
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1