关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者3137人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

国产英伟达88天闯关IPO!

诗与星空 浏览 3901

“豆腐靴”火了! 比马丁靴还好看, 早冬必穿!

Yuki女人故事 浏览 2320

思想实验成真!量子江湖百年对决见分晓,中科大勘破波粒玄机笑傲江湖|光锥读论文

未来光锥 浏览 2684

致态 TiPlus 7100s 固态硬盘发布:长江存储新一代颗粒,659 元起

IT之家 浏览 3079

以总理办公室:已确定加沙“和平委员会”总干事人选

国际在线 浏览 2421

中企在拉美花22个月建成的铜矿无法投产:总统换人了

每日经济新闻 浏览 9754

何聪睿剧扑甩锅女主,本人发声道歉

扒虾侃娱 浏览 2224

郑丽文出席联合祭祖大典:盼未来中华儿女不再自相残杀

海峡导报社 浏览 17914

美航母连坠两机原因引猜测

环球网资讯 浏览 3305

苗圩:保障安全的前提下,科学有序推进人工智能技术落地

红星资本局 浏览 3516

汽车“换道超车”,伪命题or真理?

汽车公社 浏览 3011

2026,什么样的企业家还能留在牌桌上?

雪豹财经社 浏览 2063

马卡:桑托斯与内马尔将合作,制定平衡俱乐部与国家队的计划

懂球帝 浏览 2596

硬刚资本!这一次,我要为陈思诚起立鼓掌

皮皮电影 浏览 34

舒淇哽咽表白冯德伦:谢谢你娶一个不常在家的女人

Yuki女人故事 浏览 5099

空姐穿毛衣上班,被吐槽“很土”?

正解局 浏览 2534

特朗普:对委内瑞拉发动军事袭击计划"泄密者"已被抓

环球时报国际 浏览 12714

北美夺冠,中国票房从7.8亿跌到6400万,这块金字招牌算砸了?

靠谱电影君 浏览 3019

上市15天,摩尔线程剑指英伟达腹地

虎嗅APP 浏览 2570

清华团队破解:大模型训练崩溃之谜

科技行者 浏览 3129

黄绮珊在何晴去世首发,10年悄悄祈福

新金牌娱乐观察家 浏览 2717
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1