关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位11170人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

四轮干不过两轮,谁偷走了电动车的利润?

汽车公社 浏览 12731

印度迎来最重要的一位客人

牛弹琴 浏览 221

数据显示苹果已俘获美国 Z 世代,市场份额持续扩大

IT之家 浏览 19922

冬天避开花花绿绿!试试低饱和度的搭配 简约高级耐看

静儿时尚达人 浏览 13404

印度各地发现240种变异新冠病毒,实际感染人数或已经超过3亿

趣看热点 浏览 125231

特朗普暗示将参加2024大选,其支持者或再度冲击美国国会

趣看热点 浏览 167186

21-14,21-17!雅思组合两局横扫过关,强势跻身印尼公开赛八强

ALL体育 浏览 16743

媒体:马克龙因"法国18年来最严重骚乱"面临严峻危机

上观新闻 浏览 93903

63.3度电池+60L油箱 小鹏X9增程版续航1602公里

网易汽车 浏览 904

现场直击|神舟21号升空前6小时,带你沉浸式追火箭!

上观新闻 浏览 760

财经作家、大V吴晓波被禁言

每日经济新闻 浏览 15744

2025蔚来日在杭州成功举办

财经无忌 浏览 1680

TimeSeriesScientist:AI首个实现全自动时间序列分析

科技行者 浏览 823

10年换一代,奥迪全新Q7测试谍照公布 | 酷乐汽车

CLauto酷乐汽车 浏览 10871

邓炳强称火势蔓延过快不寻常 事发楼栋居民发声

经济观察报 浏览 29234

可盐可甜 风行T5 EVO女神版亮相成都车展

网易汽车 浏览 21138

内外设计焕新 大众朗逸Pro将于11月17日上市

车质网 浏览 711

网友曝WPS会员免费升级却被扣时长,WPS致歉:规则说明确实不明显

澎湃新闻 浏览 15413

瑞信被"5折"收购 压力来到美国这家银行!

每日经济新闻 浏览 19082

2.5万元的苹果Vision Pro能拯救吗?中国VR/AR销量惨不忍睹

快科技 浏览 16680

俄军抵达坠毁地点 美媒讨论“参战可能”

环球网资讯 浏览 19253
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1