关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者3138人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

沙特,一部活色生香的《一千零一夜》

时尚COSMO 浏览 3313

300万以内无敌手 莲花首款插混SUV定名For Me

网易汽车 浏览 2729

林俊杰跟七七又被偶遇了!贴心帮女友提包,曝女方父亲是经济犯

萌神木木 浏览 2282

离婚7个月,霸总杨子又给内娱上了一课

老吴教育课堂 浏览 2966

杜锋:希望大家能保持整场的强度,为年轻球员登场争取机会

懂球帝 浏览 2116

警方通报小米成都车祸: 驾驶员涉嫌酒后驾驶

网易汽车 浏览 3484

熊园:“十五五”大方向已定,如何跟踪?

首席经济学家论坛 浏览 3326

谢孟伟拘留期满被释放,连发两条视频召集粉丝

娱慧 浏览 3781

天呐!汇丰银行一主任为了1.3万,获刑半年

财通社 浏览 2366

40余名高二学生被强收7500元网课费 两地教育局调查

大风新闻 浏览 16725

美联储,重磅来袭!降息传出大消息

券商中国 浏览 3994

OpenAI:人类打字速度将成通用人工智能发展瓶颈

IT之家 浏览 2600

同比翻倍:美国“造车新势力”Lucid 2025全年生产18378辆汽车

IT之家 浏览 2431

蜜雪冰城开到公交站乘车享折扣 执法局的人却上门了

每日经济新闻 浏览 33269

拉加德暗示欧央行不急行动:政策处于有利位置,未预设利率路径,任何选项都应考虑

华尔街见闻官方 浏览 2679

回击特朗普 印度与欧盟达成"史上最大规模协议"

中国基金报 浏览 6040

南部战区107编队演训影响几何 专家解读

上观新闻 浏览 28

上天的小鼠为何更瘦?这场跨年科学对话透露了很多航天趣事|科学家·马上回答

封面新闻 浏览 2499

美官员:已收到伊朗通过巴基斯坦转交的谈判新方案

界面新闻 浏览 35

美国喊停"毒计":会就相关问题跟中国谈判

澎湃新闻 浏览 8683

北约:将考虑对俄罗斯发动“先发制人”的打击

环球网资讯 浏览 16160
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1