关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者3149人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

比利亚雷亚尔下赛季预算达到2.15亿欧,创下俱乐部纪录

懂球帝 浏览 2598

星际之门计划捧红了这家公司,化废弃能源为AI算力,估值达百亿

DeepTech深科技 浏览 3440

美股三大指数集体高开 理想汽车涨超5%

证券时报 浏览 2292

牛弹琴:特朗普没想到 抓马杜罗后西方情绪总体很稳定

现代快报 浏览 7353

富勒姆怒斥曼联第一球不应存在,炮轰天大误判!英超官方解释原因

罗米的曼联博客 浏览 2078

蔚来新年换电站大扩张

大象新闻 浏览 2396

今日热点:匠妹因太漂亮没能出演长发公主;时代峰峻回应朱志鑫见面会……

伊周潮流 浏览 2970

朱孝天回应阿信感谢,自曝没再收到邀约

萌神木木 浏览 2225

张柏芝某宝购物带到澳洲,谢振轩提一要求引热议

念得小柔 浏览 2056

德天空:法比奥-卡瓦略冬窗会离开布伦特福德,可能永久转会

懂球帝 浏览 3226

奇才120-103尼克斯,巴格利18+11,亚布塞莱11分,克拉克森12分

懂球帝 浏览 3362

安东尼怒批菲尔-杰克逊:你坚持打不适合的三角进攻,却又说我毁了战术

懂球帝 浏览 3164

继女子吃辣条中一根金条后 又有人吃泡面中1克黄金

上观新闻 浏览 3869

媒体:泽连斯基妥协 刚冻结俄资产的欧洲"惊觉一场空"

上观新闻 浏览 19384

中国女主管跳海逃生:豪华邮轮上,多的是你不知道的事

她刊 浏览 1261

可磁吸绝配iPhone!长江存储致态灵潮流版移动SSD 2TB图赏

快科技 浏览 2613

机械师Mini GTR迷你主机上新:锐龙AI 9 HX 370配置,性能释放70W

IT之家 浏览 3193

做好服务的老国货们,率先进入顺风局

财经无忌 浏览 2244

买手机前必看!安兔兔1月性能排行更新:第一名甩开垫底近40万分

快科技 浏览 2119

牛弹琴:中国的强烈愤怒还在继续 日本有三个没想到

北京日报客户端 浏览 43338

俄议员:美国扣押油轮是"21世纪的海盗行为"

极目新闻 浏览 13021
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1