关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者796人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

小波特:我们需要所有人都能出战 这样化学反应才能达到最佳

直播吧 浏览 19139

11月新车申报爆冷!车企们要集体“躺平”?误会了!

雷科技 浏览 613

努比亚Z60 Ultra正式发布 售价3999元起

网易科技报道 浏览 13229

一位基金经理的真情告白

金石杂谈 浏览 12577

王菲没想到女儿窦靖童,会以头秃理由嫌弃亲爹

千言娱乐记 浏览 848

普京接见朝鲜外务相 双方讨论了"敏感领域"合作问题

参考消息 浏览 78210

内饰配置再提升 新款极氪X内饰官图发布

车质网 浏览 668

火遍全网的这件外套太好穿,我总结了几个实用搭配公式

黎贝卡的异想世界 浏览 665

上月7只新基金有效认购仅为1户

每日经济新闻 浏览 12730

芯片巨头又有大动作

中国基金报 浏览 10760

年龄没写反?!38岁的鲁尼和45岁的费迪南德...

直播吧 浏览 11642

多地又掀购车补贴潮,汽车新一轮价格战会不会卷土重来?

第一财经资讯 浏览 15928

台外事人员被指烧瑙鲁国旗"泄愤" 台外事部门回应

环球时报新闻 浏览 12517

科学家发现世界最大蜘蛛网 面积约106平方米

极目新闻 浏览 6037

工信部:将会同有关部门加强养老服务机器人研发

IT之家 浏览 369

米兰1-0恩波利全场数据对比:射门15-5,射正5-2,角球11-4

直播吧 浏览 11603

泰国拿到中国071登陆舰没几天 里里外外全拍给网友看了

沙盘上的战争 浏览 92635

多项智能体验优化,魏牌高山首次、蓝山第四次OTA正式推送

天天汽车 浏览 12788

赖斯:想和杰拉德一起踢球,我觉得我们可以互补

懂球帝 浏览 12610

"北大女生自杀案"宣判:男友犯虐待罪被判三年二个月

京法网事 浏览 91263

数十位外地购车人陷河北"低价购车"骗局 受损超百万

上游新闻 浏览 91045
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1