关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元3419人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普:可能接管伊朗的哈梅内伊接班人 在空袭中丧生

扬子晚报 浏览 38822

规模创历史新高 2025浦江创新论坛共议科技未来

看看新闻Knews 浏览 4028

47岁冯绍峰颜值回春,自称是威尼斯影后的朋友

扒虾侃娱 浏览 3084

《共和报》评意大利杯:“是机会还是阻碍?”

绿茵情报局 浏览 2217

刘涛为95花作配,国民女星的资源降级还是新机遇?

八卦三缺一 浏览 4051

潘功胜最新讲话7大要点!涉稳定币,信息量满格

21金融圈 浏览 2659

镁信健康将亮相第八届进博会,发布三大产业级AI应用方案|进距离

上观新闻 浏览 3182

售9.98万起 2026款极狐考拉S正式上市

网易汽车 浏览 2330

打破29个月冠军荒!梅总终于赢了!

网球之家 浏览 3428

福建舰电磁弹射技术处世界先进水平

北京日报客户端 浏览 2961

高市早苗当选首相 日本史上首名"第一先生"信息披露

环球网资讯 浏览 7335

余承东任华为终端公司董事长

雷达财经 浏览 2638

特朗普威胁对欧洲8国加税:直到美"彻底购买格陵兰岛"

红星新闻 浏览 6422

杨幂视后梦碎了?《生万物》除女主之外全员拿奖

萌神木木 浏览 1469

首席炒黄金期货大赚14亿?国海证券前固收首席靳毅辟谣称已报警

深蓝财经 浏览 3210

白色灵动岛:消息称努比亚手机也将“上岛”,可自行选择开关

IT之家 浏览 2609

内需复苏叠加“反内卷” 聚焦两大方向投资机遇

证券时报 浏览 1672

洛杉矶高层:签下孙兴慜是一次冒险,他展现出梅西般的影响力

懂球帝 浏览 3177

媒体:卡尼访华在即 耳边吹风"针对中国"的又来了

澎湃新闻 浏览 7263

女主播被伪装的炸弹包裹炸伤:拿起看了一眼就爆炸了

极目新闻 浏览 7690

外媒发布本田全新一代2027款思域预想图,比以往更高级!

老爷车 浏览 3994
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1