关闭广告

南洋理工、腾讯等机构联手突破:让AI像人一样"指点"图片中的东西

科技行者621人阅读


你有没有试过这样的体验:跟朋友聊天时,你想让他看看照片里的某个东西,但又不知道怎么准确描述它的位置?你可能会说"就是那个红色的杯子",朋友却问"哪个红色杯子?"这种沟通障碍在人工智能领域同样存在,而且更加复杂。

由南洋理工大学、腾讯微信视觉团队、新加坡科技研究局等多家知名机构组成的国际研究团队,最近在这个问题上取得了重要突破。他们的研究成果发表在了计算机视觉领域的顶级学术平台上,论文题目是"PATCH-AS-DECODABLE-TOKEN: TOWARDS UNIFIED MULTI-MODAL VISION TASKS IN MLLMS"(arXiv:2510.01954v1),感兴趣的读者可以通过这个编号查阅完整论文。

这项研究解决的核心问题可以用一个简单场景来理解:当你问AI"这张照片里有什么?"时,传统AI只能告诉你"有一只猫、一个杯子、一张桌子",但它无法像人一样直接"指出"这些东西的具体位置。更糟糕的是,当你要求AI找到"桌子上那个蓝色杯子"时,它往往会给出一串看起来很专业但实际上并不准确的数字坐标,比如"[245, 156, 378, 298]",普通人根本无法理解这些数字代表什么。

<
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

哈登愿意被交易至76人哈登的下家是哪?火箭老板表态

趣看热点 浏览 25504

西方媒体称卢卡申科访华为疏远俄罗斯 向中国求助

新民晚报 浏览 19554

英伟达独霸时代结束?ChatGPT引爆谷歌微软芯片大战,亚马逊也入局

新智元 浏览 18492

普里戈任坠机身亡 俄学者:这是乌克兰今年的主要成就

新京报外事儿 浏览 84721

兰博基尼 CEO 温科尔曼称至少十年内不会放弃内燃机

IT之家 浏览 904

封印解除!奎克利全面发挥拿下9分5板10助 助攻创赛季新高

直播吧 浏览 12702

打服了!记者:当时觉得凯恩太贵不值当,现在我愿为他铺毛巾

直播吧 浏览 1694

媒体人评阿利森:一个半月两次低级失误,有点影响江湖地位了

直播吧 浏览 18701

德云社郭德纲发文喜提4个新身份,含金量都不低

素衣读史 浏览 706

乐华娱乐大涨近13% 回应称公司运营正常

网易财经 浏览 12262

博时基金“换帅”

国际金融报 浏览 997

“小米系”再撤退,大股东们为何抛弃“扫地茅”石头科技?

野马财经 浏览 15755

趁换代前“捡漏”30万豪华中型SUV之选

网易汽车 浏览 1702

短期资金配置如何选?中银中短债基金正在发行

中国基金报 浏览 19104

黄奕在了不起的姐姐中谈到女儿曾被前夫诱导拍对话视频

趣看热点 浏览 27804

Shams:班巴或缺席常规赛剩余比赛 而今天湖人试训TT和布拉德利

直播吧 浏览 19529

标配激光雷达 新款领克07EM-P限时13.98万起

网易汽车 浏览 1503

特朗普又想打电话调停泰柬冲突 泰方强硬表态

澎湃新闻 浏览 4900

微软豪掷79亿美元投资阿联酋AI企业G42,加速中东AI设施建设

IT之家 浏览 748

胡杏儿曝肚中宝宝现重为4.5斤 有机会将回TVB拍剧

网易娱乐 浏览 26822

得州与美政府武装对峙 特朗普呼吁“兵援得州”

红星新闻 浏览 12469
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1