关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元3422人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

首款可折叠iPhone最新消息:或在2026年秋季发布

环球网资讯 浏览 2759

理想汽车下摆臂异响补偿方案发布月余,多位车主投诉称遭区别对待

澎湃新闻 浏览 4261

松弛感穿搭太适合秋冬了,减龄又好看

LinkFashion 浏览 3113

保时捷出事故保险公司让报废 但只赔100万保额的一半

大象新闻 浏览 24074

拉比奥:我在米兰很好地融入了球队,我和迈尼昂的关系很亲近

懂球帝 浏览 3452

打破场景界限,波司登与Kim Jones的合作让冬天更体面

时尚COSMO 浏览 2619

女子被逼嫁给大15岁男子喝农药轻生 钱被母亲拿走买房

大风新闻 浏览 13410

10月份,本田飞度就卖出去3辆,你没看错,就是3辆

凡兮说 浏览 3155

意媒:尤文有意引进拜仁小将利契纳,但尚未与拜仁接触

懂球帝 浏览 3446

300多个APP,想让我和AI谈感情

豹变 浏览 3335

戴向宇曾单方面通知家人要和陈紫函离婚

乡野小珥 浏览 3968

泡椒凤爪“塌房”,有友食品躺枪

斑马消费 浏览 1301

金球奖撒糖、霉霉破纪录与“鲍小强”翻车

粉红冻奶的观影日记 浏览 2346

商务部:2026年优化消费品以旧换新政策实施

央视财经 浏览 2279

美报告罕见承认中国电子战有优势

北京日报 浏览 1755

一加 15 / Ace6“双舰齐发”,新机发布定档 10 月 17 日

IT之家 浏览 3309

委代总统称遭美威胁:马杜罗已死

每日经济新闻 浏览 2139

质疑公牛集团广告语存误导被索赔420万 涉事公司反诉

澎湃新闻 浏览 20371

曝国际巨头拟裁员3万人,多家美银行停止相关项目贷款;老外吐槽国产手机:为了像苹果,3个摄像头里1个是假的;闻泰业绩变脸:巨亏135亿元

雷峰网 浏览 2091

临危受命18个月,横琴人寿董事长或“功成身退”!

独角金融 浏览 2074

被拐25年的解清帅大婚 婚礼现场有主播直播带货

半岛官网 浏览 3422
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1