关闭广告

GUI自动化的新突破:ServiceNow让AI更准确定位屏幕界面元素

科技行者4436人阅读


这项由ServiceNow、魁北克人工智能研究院、蒙特利尔大学、约克大学、蒙特利尔理工学院和麦吉尔大学联合进行的研究发表于2025年10月,论文编号为arXiv:2510.03230v1。研究团队由王苏宇辰、张天宇、Ahmed Masry、Christopher Pal、Spandana Gella、刘邦和Perouz Taslakian等学者组成,他们致力于解决人工智能在GUI(图形用户界面)自动化中面临的核心难题。有兴趣深入了解的读者可以通过论文编号arXiv:2510.03230v1查询完整论文。

现代生活中,我们每天都要与各种软件界面打交道——从手机应用到电脑程序,从网页浏览到办公软件。如果能让人工智能像人类一样准确地识别和操作这些界面元素,将会极大提升工作效率。然而,要让AI准确找到屏幕上的按钮、文本框或菜单项,就像要求一个从未见过地图的人在陌生城市中找到特定建筑物一样困难。

这项研究的核心贡献在于解决了当前视觉语言模型在GUI定位任务中的一个根本性问题:如何将自然语言指令准确转换为屏幕上的像素坐标。研究团队发现,现有方法就像让一个盲人通过触摸来画地图一样效率低下,因为AI模型需要在没有明确参照物的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

2026年度流行色怎么搭最好看?看这篇就够了

LinkFashion 浏览 3866

特朗普失去耐心 给泽连斯基下最后通牒

华西都市报 浏览 8829

1.2亿辆车被召回,超半数源于监管调查,车企自查缺陷就这么难?

DearAuto 浏览 4308

男子在悬崖边请人拍照滑倒坠下 遗体在水潭底部被找到

封面新闻 浏览 10073

杨振宁在京逝世死因披露 与妻子翁帆最后合影流出

乌娱子酱 浏览 7925

一年中最不能错过的推送,超适合过年看!

黎贝卡的异想世界 浏览 2838

这6款发色居然这么火?50张图可以直接给tony

Yuki女人故事 浏览 2670

巴勒斯坦多派别谴责以方持续违反停火协议

国际在线 浏览 3275

13.99万元起 深度解读深蓝L06三大黑科技

第五冲程 浏览 4350

小米SU7凌晨突发撞击事故 车辆爆燃施救人员未打开车门

网易汽车 浏览 4617

彩虹-7高空高速隐身无人机成功首飞 实现重大突破

新京报 浏览 9450

宾夕法尼亚大学提出分子设计新方法:如何让药物既有效又安全?

科技行者 浏览 4440

缅甸突袭KK园区后引发"招聘潮" 有人被7万美元"转卖"

红星新闻 浏览 17048

牛弹琴:“可怜”的泽连斯基 又被特朗普“戏弄”了

上游新闻 浏览 10306

理想基地获评2025汽车制造超级工厂 AI驱动智造新范式

智车情报局 浏览 3875

《阿嬷》票房破10亿只是开始,吴京、沈腾、谢霆锋要掀起新高潮了

皮皮电影 浏览 644

始祖鸟“烟花秀”争议背后:母公司亚玛芬营销费用增长,两个月前大中华区换帅

红星资本局 浏览 5145

注射后48小时有知觉,6人重新行走!巴西科学家破解脊髓损伤难题

DeepTech深科技 浏览 3147

美国国会的监督机构对联邦住房金融管理局局长Pulte展开调查

华尔街见闻官方 浏览 3749

长和:董事会对巴拿马之裁定及相应行动表示强烈反对

每日经济新闻 浏览 5518

好久没对一双鞋这么心动了!

黎贝卡的异想世界 浏览 4746
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1