关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者4327人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

U17世界杯吉祥物灵感来自前国足主帅米卢,米卢:感谢这个创意

懂球帝 浏览 4343

获皮奥利称赞!小法回应:很感谢他,去年曾联系他并聊了两个小时

直播吧 浏览 5252

蓄发哥开始重新等待五连胜,阿莫林:希望他能尽快剪掉头发

懂球帝 浏览 4220

保姆机器人来做饭!全国人大代表、海尔集团董事局主席周云杰:机器人会成为新的家电

时代周报 浏览 2688

你的“龙虾”是否“遵规守纪”?“养虾人”速查风险

环球网资讯 浏览 2497

三种动力配置 星光560将于1月15日上市

网易汽车 浏览 3432

春天穿“黑色”太沉闷?学会这些搭配小技巧,显瘦减龄还洋气

静儿时尚达人 浏览 1235

美AI裁员潮,大厂慌不慌?

每日资本论 浏览 4200

具身智能开启汽车产业万亿新赛道

车质网 浏览 4357

扎堆递表 智驾企业的进与困

北京商报 浏览 3630

“石墨烯云绒”保暖媲美羽绒?专家:远达不到

看看新闻Knews 浏览 4060

于正怒了!状告百万网红大V索赔50万

裕丰娱间说 浏览 3928

马斯克3小时高能量访谈,信息量大到爆炸

深蓝财经 浏览 3524

新一代理想L9电池加码体型加大 重夺高端话语权

网易汽车 浏览 3384

美军曾复刻马杜罗住宅进行破门演练 动手第一步是断电

红星新闻 浏览 11079

马斯克SpaceX太空能源计划浮出水面,中国光伏产业或成关键一环

DeepTech深科技 浏览 3222

穿冰淇淋色裙子,凉快!

Yuki女人故事 浏览 471

伊姐周日热推:电视剧《三人行》;电视剧《棕眼之谜》......

伊周潮流 浏览 3512

面包界的“隐形冠军”,正在中国闷声发财

虎嗅APP 浏览 3497

“打不开的车门”为何成致命陷阱?

国际金融报 浏览 4459

美伊在阿巴斯港附近短暂交火 交战过程披露

每日经济新闻 浏览 618
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1