关闭广告

GUI自动化的新突破:ServiceNow让AI更准确定位屏幕界面元素

科技行者4438人阅读


这项由ServiceNow、魁北克人工智能研究院、蒙特利尔大学、约克大学、蒙特利尔理工学院和麦吉尔大学联合进行的研究发表于2025年10月,论文编号为arXiv:2510.03230v1。研究团队由王苏宇辰、张天宇、Ahmed Masry、Christopher Pal、Spandana Gella、刘邦和Perouz Taslakian等学者组成,他们致力于解决人工智能在GUI(图形用户界面)自动化中面临的核心难题。有兴趣深入了解的读者可以通过论文编号arXiv:2510.03230v1查询完整论文。

现代生活中,我们每天都要与各种软件界面打交道——从手机应用到电脑程序,从网页浏览到办公软件。如果能让人工智能像人类一样准确地识别和操作这些界面元素,将会极大提升工作效率。然而,要让AI准确找到屏幕上的按钮、文本框或菜单项,就像要求一个从未见过地图的人在陌生城市中找到特定建筑物一样困难。

这项研究的核心贡献在于解决了当前视觉语言模型在GUI定位任务中的一个根本性问题:如何将自然语言指令准确转换为屏幕上的像素坐标。研究团队发现,现有方法就像让一个盲人通过触摸来画地图一样效率低下,因为AI模型需要在没有明确参照物的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

克媒:托利奇加盟浙江已达协议,等待替代者加盟就将前往中国

懂球帝 浏览 3233

郭磊:如何认识最新的出口数据和出口形势

首席经济学家论坛 浏览 4629

央视这波选剧真是绝了!整部剧均是整容脸,能看下去的都是能人!

肆季娱乐 浏览 3318

医院人满为患 加沙患者焦急等待救治

国际在线 浏览 4230

“恐龙院士”徐星:在朝阳,孩子们可以近距离与化石对话

新华社 浏览 4658

咖啡万店新王诞生:挪瓦如何以“寄生模式”隐秘扩张?

虎嗅APP 浏览 3802

E句话|福原爱,再婚怀孕

仙女事件簿 浏览 3693

广汽启动自主品牌BU改革 昊铂埃安渠道统筹运营

网易汽车 浏览 3696

今年秋冬流行“漏斗领外套”,时髦又高级!

LinkFashion 浏览 3691

消息称苹果计划2026年底进军智能眼镜市场,重塑全球AR光学供应链

IT之家 浏览 3357

离婚5年,她真的面相大变

江湖人称艾掌门 浏览 3694

天汽模五年四谋易主 陷增长瓶颈中期扣非降90%

长江商报 浏览 5087

戴奇:阿森纳不只靠定位球得分;与津琴科沟通过提前结束租借

懂球帝 浏览 3412

媒体:高市早苗想见中国领导人 也未必是特别难的事

新民周刊 浏览 16323

上年纪的女人别乱买衣服!有这3件单品就够了,温暖体面一冬

静儿时尚达人 浏览 3586

库尼亚:我们知道这场比赛的重要性,在丢球后进球非常重要

懂球帝 浏览 3595

英伟达CES亮出新牌

北京商报 浏览 3544

遍布全国的连锁餐饮,为何进不了江西?

BT财经 浏览 5125

看大疆做全景相机,不要只看两份报告

连线Insight 浏览 4212

百度再战高德,还拉来了两大“帮手”

螺旋实验室 浏览 4587

德切利:尤文永远是我的家,我40年人生中有30年都在尤文

懂球帝 浏览 1409
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1