关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者4263人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

爆笑佳作入围戛纳,这是真正属于影迷的电影

幕味儿 浏览 4172

小S久违晒自拍美照,容光焕发状态超好

扒虾侃娱 浏览 2580

俄主动向美通报:核动力巡航导弹上天 射程"几乎无限"

上观新闻 浏览 9858

发投入同比“八连增”,贝壳Q3财报研发投入增长13.2%

市值Observation 浏览 4177

包钢板材厂爆炸工人被气浪掀飞 一铁球飞射砸塌二层楼

上游新闻 浏览 7980

市值26亿豪掷32亿跨界“钠电”,环保企业“同兴科技”胜算几何?

时代周报 浏览 3726

消息称小米汽车部分门店将开放端到端辅助驾驶体验

IT之家 浏览 4266

在都市里种下一颗自然的种子 欧拉5设计解析

网易汽车 浏览 5070

舒淇哽咽表白冯德伦:谢谢你娶一个不常在家的女人

Yuki女人故事 浏览 6537

马杜罗:愿在相互尊重基础上同美国进行对话

澎湃新闻 浏览 3621

高市早苗曾叫嚣台湾有事日本必入

极目新闻 浏览 4329

真爱大牌 || 这些被抢空的好物又回来了,这次破价100+

黎贝卡的异想世界 浏览 3940

49岁梁咏琪拼命吸金,打扮朴素逛超市

秋枫凋零 浏览 3665

荣耀MagicOS 10升级设备数突破1000万 力争春节前都能升

快科技 浏览 3716

史上最大IPO前夕,Space X的财务数据部分流出,利润率相当高

华尔街见闻官方 浏览 1616

寒风中南京数十名民工扒在桥栏上吃午饭 附近摊主发声

扬子晚报 浏览 9281

足球报:国安并非没考虑过土帅,针对今年问题已做长远规划

懂球帝 浏览 4521

30岁男子如厕时猝死 妻子回忆事发前5天丈夫疼痛细节

红星新闻 浏览 7789

刘嘉玲好敢说!问柯淳不谈恋爱生理没需求么?柯淳回答堪称教科书

娱乐圈笔娱君 浏览 4199

激光雷达/全面焕新 全新一代传祺向往 E8 PHEV开启预订

网易汽车 浏览 1444

达利欧:AI热潮处于泡沫初期,美联储或进一步吹大泡沫

华尔街见闻官方 浏览 3585
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1