关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者3140人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

TA:德罗认为自己在巴萨没有清晰的发展路径,巴萨对此很无奈

懂球帝 浏览 2164

终于!Windows 11迎来蓝牙音频共享功能:可惜还是有限制

快科技 浏览 3170

张子宇加盟首次未登场:前两场正负值均最差 山东女篮加时胜江苏

醉卧浮生 浏览 2358

深度解读“碱基编辑技术”:首个定制基因编辑疗法案例获成功

DeepTech深科技 浏览 2191

日本宣布从南鸟岛海域采掘到含稀土的淤泥 外交部回应

环球网资讯 浏览 5521

清华REMA框架:透视AI推理错误根源

科技行者 浏览 3419

2026款firefly萤火虫上市 售11.98-12.58万

车质网 浏览 708

特朗普大规模换大使:涉及30多国 均在拜登时期上任

齐鲁壹点 浏览 7690

秋到没边的氛围感美甲,一眼心动

时尚COSMO 浏览 3232

黄仁勋,亲赴台积电“要产能”

华尔街见闻官方 浏览 3189

国家级射击教练因走私武器罪获刑10年:多省射击队购买

中国新闻周刊 浏览 12861

金鸡国产电影展|片单发布:百廿回眸,新程再启

幕味儿 浏览 3189

或2027年发布 全新丰田凌放Harrier谍照曝光

车质网 浏览 2642

科学家刊文称:发现影响癌症进展的关键细胞

新华社 浏览 2225

特朗普:一支舰队正在向伊朗方向航行

界面新闻 浏览 2133

全智贤与《暴风圈》剧方仍未发文道歉

韩小娱 浏览 4103

跟大北农一起过个丰收节!今年的丰收味儿有点“新”

一点财经 浏览 4016

沈伯洋被指到处寻求"保护" 邱毅:"台独"分子们都慌了

环球网资讯 浏览 8640

泰柬冲突急转直下,世界三个没想到

牛弹琴 浏览 2536

比亚迪、奇瑞出口北美迎来转机!!!

极速车情speed 浏览 2239

650km续航 广汽埃安AION RT焕新款9月22日上市

网易汽车 浏览 4128
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1