关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者3145人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

消息称LPDDR5X内存价格持续飙升,涨幅可抵2亿像素潜望镜

IT之家 浏览 3299

小鹏汽车正式登陆卡塔尔 多款产品亮相

网易汽车 浏览 2489

村支书逆袭:如何把集体的“包袱”变成个人的“聚宝盆”?

壹只灰鸽子 浏览 2073

以军再袭约旦河西岸 巴方谴责以“吞并”企图

国际在线 浏览 2767

李施嬅和车崇健确认已分手,她值得更好的!

黔乡小姊妹 浏览 2279

巴尔韦德:皇马有我信任的理疗师,我都听他的

懂球帝 浏览 1369

万科开启了第二笔中票展期

国际金融报 浏览 2691

撒贝宁随李白回加拿大探亲,俩人带着龙凤胎闲逛

二妹扯娱 浏览 3409

内塔尼亚胡遭遇“全球孤立” 联大发言多国代表离席

环球网资讯 浏览 3957

这届双十一,充满了“AI味”与“本地生活味”

连线Insight 浏览 3202

"女首相梦"悬了的高市公开支持赖清德 日本亲华派翻脸

梁讯 浏览 7195

17年的双十一底层逻辑变了?“小时达”来了,AI帮你选品

时代周报 浏览 3097

全球首创!西安造创新医疗器械获批上市

上游新闻 浏览 3424

特朗普:对委内瑞拉发动军事袭击计划"泄密者"已被抓

环球时报国际 浏览 12712

民调显示:相较美国,加、德、法、英四国民众更信赖中国

环球网资讯 浏览 1294

波士顿动力人形机器人亮相CES 拟2028年进厂造车

网易汽车 浏览 2401

辛芷蕾这部新片被好莱坞大片打懵了

娱乐圈笔娱君 浏览 2978

万元损失仅补两千?国投瑞银的补偿,没能让大额投资者“和解”

拾盐士 浏览 1668

粉色涂装 雷克萨斯Glam LX概念车发布

车质网 浏览 3358

日本太空航母野心披露 被指正谋划“太空珍珠港事件”

极目新闻 浏览 2577

苹果公司在印度反垄断案中可能面临高达380亿美元罚款

华尔街见闻官方 浏览 2961
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1