首页 > 实用技巧 > 干货教程 > 谷歌革新大模型记忆!反馈注意力机制引领无限记忆新时代

谷歌革新大模型记忆!反馈注意力机制引领无限记忆新时代

发布时间:2024-04-17 23:13:18来源: 15210273549

谷歌终于出手了!我们将不再忍受大模型的“健忘症”。

TransformerFAM横空出世,放话要让大模型拥有无限记忆力!

话不多说,先来看看TransformerFAM的“疗效”:


大模型在处理长上下文任务时的性能得到了显著提升!

上图中,Isabelle、NarrativeQA等任务要求模型理解和处理大量上下文信息,并对特定问题给出准确的回答或摘要。在所有任务中,FAM配置的模型都优于所有其他BSWA配置,并且能看到当超过某个点时,BSWA记忆段数量的增加已经无法继续提升其记忆能力。

看来,在卷长文本、长对话的路上,FAM这颗大模型的“忘不了”确实有点东西。

Google 的研究人员介绍,FAM这种新颖的 Transformer 架构——Feedback Attention Memory,它利用反馈循环使网络能够关注其自身的潜在表示,促进 Transformer 内部工作记忆的出现,并使其能够处理无限长的序列。

简单点说,这个策略有点像我们人工对抗大模型“失忆”的策略:每次和大模型对话前都再输入一次prompt。只不过FAM的做法更高阶一些,在模型处理新的数据块时,它会将之前处理过的信息(即FAM)作为一个动态更新的上下文,再次整合到当前的处理过程中。

这样就能很好地应对“爱忘事”的问题了。更妙的是,尽管引入了反馈机制来维持长期的工作记忆,但FAM的设计旨在保持与预训练模型的兼容性,不需要额外的权重。所以理论上说,大模型的强大记忆力,没有使其变得迟钝或者消耗更多的算力资源。

那么,这么妙的TransformerFAM是如何被探索出来的?相关技术又是啥?


从挑战中来,

TransformerFAM为何能帮助大模型“记住更多”?

 

滑动窗口注意力(Sliding Window Attention, SWA)这个概念,对TransformerFAM的设计至关重要。

在传统的Transformer模型中,自注意力(Self-Attention)的复杂度随着序列长度的增加而呈二次方增长,这限制了模型处理长序列的能力。

“在电影《记忆碎片》(2000 年)中,主角患有顺行性遗忘症,这意味着他无法记住过去 10 分钟发生的事情,但他的长期记忆是完好的,他不得不将重要信息纹在身上以记住它们。这与当前大型语言模型(LLMs)的状态类似,”论文中这样写道。


《记忆碎片》电影截图,图片源于网络

滑动窗口注意力(Sliding Window Attention),它是一种改进的注意力机制,用于处理长序列数据。它受到了计算机科学中滑动窗口技术(sliding window technique)的启发。在处理自然语言处理(NLP)任务时,SWA允许模型在每个时间步骤上只关注输入序列的一个固定大小的窗口,而不是整个序列。因此,SWA的优点在于它可以显著减少计算量。


但是SWA有局限性,因为它的注意力范围受限于窗口大小,这导致模型无法考虑到窗口之外的重要信息。

TransformerFAM通过添加反馈激活,将上下文表示重新输入到滑动窗口注意力的每个区块中,从而实现了集成注意力、区块级更新、信息压缩和全局上下文存储。

在TransformerFAM中,改进通过反馈循环实现。具体来说,模型在处理当前序列块时,不仅关注当前窗口内的元素,还会将之前处理过的上下文信息(即之前的“反馈激活”)作为额外的输入重新引入到注意力机制中。这样,即使模型的注意力窗口在序列上滑动,它也能够保持对之前信息的记忆和理解。

于是,经过这番改进,TransformerFAM就给了LLMs能够处理无限长度序列的潜力!


有了工作记忆的大模型,继续向AGI迈进

 

TransformerFAM在研究中展现出了积极的前景,这将毫无疑问地提升AI在理解和生成长文本任务中的性能,例如处理文档摘要、故事生成、问答等工作。

 

干货教程更多>>

《我们生活在南京》获科幻星球奖,网文科幻广获主流认可 崖州湾国家实验室联合发布首个种业大语言模型:100道题得分是本科生4.87倍 人类在前机器智能社会,在精神领域的最后冲刺 许纪霖致青年:像萤火虫一样,有一分微光,发一分热 一篇看懂!2024年手机购买最强攻略! iQOO Z9/Turbo系列手机开售:骁龙7 Gen3/8s Gen3,1499元起 iPhone真有高级感吗,还是被过度神化 一加Nord 4手机搭载高通骁龙7+Gen 3,配备5000毫安时电池 PS5日报:索尼审核被吐槽区别对待!庄园领主PS5版本尚未确定​ 红米不要利润了?4nm旗舰芯+12GB+256GB才1199元,144Hz+5080mAh 疑似魅族21 Note外观曝光 这也太像iPhone了 小米13——为什么能封神? 国家统计局:一季度全国规上文化及相关产业企业营收增8.5% 特斯拉“畅行无阻”,中国的大门越开越大 “世纪火种”阅读嘉年华举行,讲书人现场登台荐书 《承欢记》同款,上海徐汇这家医院自带文艺气息 实力占优,中国蹦床队目标金牌“保一争二” 53岁文化学者谢青桐辞世,曾参与大运河申遗 中国男排新主帅海宁:我感觉自己来得正是时候 发布权威榜单,海岛高峰论坛在三亚举办 周鸿祎二手迈巴赫拍出990万元,买家称“就是要蹭流量” 5月起这些新规将施行,涉及出入境、非银支付、公积金等 华为Pura 70海外首拆来了:日媒拆解华为手机5年,得出一个结论 OPPO公布ColorOS 14全新动效 11款机型优先体验 百公里加速4秒内,起亚EV9 GT能否突破重危 上汽大众北京车展放福利,途观L Pro定义油车智能化新标杆 “众启新境”大众汽车展现硬实力,加速推进中国战略 勾勒未来愿景 兰博基尼全新Urus SE公众首秀,品牌首款插电式混合动力超级SUV “至美”轿跑,“内蕴”几何?|动力试驾·上汽名爵MG7 探界者Plus:引领插混SUV新纪元的全能悍将