谷歌推出基于Transformer的Infini-Attention 可处理无限序列数据

据AIGC开放社区报道,谷歌最近推出了一种基于Transformer的革新性技术,名为Infini-Attention(无限注意力),它通过整合压缩记忆、局部遮蔽注意力等先进模块到传统的自注意力机制中,能够无缝地处理无限序列数据,同时确保内存和计算资源的有限使用。

Infini-Attention

Infini-Attention的主要特性:

1、压缩记忆

压缩记忆是Infini-Attention的核心组件之一,它允许大型模型以固定数量的参数来存储和回忆信息,从而实现对长篇文本的有效处理。这一机制与传统的注意力机制有所区别,其优势在于,随着输入序列长度的增加,压缩记忆并不会增加参数的数量,而是通过调整现有参数来吸收新信息,从而提升推理和计算的效率,并降低内存的使用。

在处理新的输入序列时,大型模型会在压缩记忆中结合新的key和value对。这个过程通过一个简单的关联绑定操作完成,将新的key和value对与记忆中已有的信息结合起来。这种更新机制确保了即使在处理极长的序列时,大模型也能以较低的内存需求完成处理并保持稳定。

Infini-Attention

此外,为了提高大模型的检索效率,在处理每个新的输入序列时,Infini-Attention会利用当前的查询从压缩记忆中检索相关信息。这个过程主要通过线性注意力机制实现,将查询与记忆中的键进行匹配并返回相应的值。这种检索机制使得大模型在处理长篇文本时,能够有效利用之前序列中的信息。

2、记忆更新

记忆更新主要负责在处理新的输入序列时,更新压缩记忆模块中的key和value对,这样做旨在保持大模型的性能,同时减少内存占用和节约计算资源。

记忆更新借鉴了神经科学中的“Hebbian学习原则”。即当两个神经元同时被激活时,它们之间的连接会变得更强。这种机制支持学习和记忆的过程,使神经网络能够根据经验调整其内部连接。

Infini-Attention

在Infini-Attention中,新的输入信息通过注意力查询与现有的记忆键进行匹配,并将匹配结果直接更新到记忆中。每次更新过程中,记忆参数(通常是关联矩阵)会根据新的输入信息进行调整,通过计算新的key和value对与当前记忆状态的差值,然后将这个差值应用到关联矩阵上来实现。

策略方面,记忆更新模块采用的是“增量式更新策略”,每次只更新与当前输入相关的部分记忆。这种策略不仅提高了更新过程的效率,还减少了因大规模参数更新带来的不稳定性。

3、局部遮蔽注意力

Transformer的自注意力机制允许大模型在序列的任何位置查找信息,这在处理短文本时效果显著。然而,当输入序列变得非常长时,会导致计算成本呈指数级增长。

Infini-Attention的遮蔽机制主要用于限制大模型的注意力范围,使其只能关注当前处理的局部上下文,而不是无限制的全序列检索,从而节省计算资源。

对于每个输入序列,模型会创建一个与序列维度相同的遮蔽矩阵。遮蔽矩阵中的元素是一个二值矩阵,其中1表示允许注意力聚焦的标记,而0表示需要遮蔽的标记。

Infini-Attention

在计算自注意力分数时,大模型会将遮蔽矩阵与注意力分数矩阵相乘。这样,被遮蔽的标记对应的注意力分数会被设置为一个很小的值。通过遮蔽注意力分数,大模型可以计算加权和,即每个标记的上下文表示。这个加权和只包括未被遮蔽的标记,确保模型的输出集中在当前的局部上下文上,从而更好地捕捉和理解序列的连贯性。这对于生成长篇文本和处理复杂的语言结构至关重要。

Infini-Attention

开发人员在长篇上下文语言建模、密钥检索任务和书籍摘要任务中对Infini-Attention进行了全面测试。结果显示,Infini-Attention模型在这些基准测试中的表现优于Transformer-XL和Memorizing Transformers等基础模型。尤其是在使用100K序列长度进行训练时,Infini-Attention的困惑度得分显著降低。

广告合作
QQ群号:707632017
标签:

温馨提示:

1、本网站发布的内容(图片、视频和文字)以原创、转载和分享网络内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。邮箱:2942802716#qq.com(#改为@)。

2、本站原创内容未经允许不得转裁,转载请注明出处“站长百科”和原文地址。

热门教程

  • Z-Blog教程
    Z-Blog教程
    ZBlog教程分享ZBlog安装教程、ZBlog建站教程和ZBlog使用教程等相关教程,包括如何创建...
  • WordPress教程
    WordPress教程
    WordPress教程提供了关于WordPress的基础知识和技巧,包括安装、设置、发布内容、选择主...
  • 宝塔面板教程
    宝塔面板教程
    宝塔面板教程是一个致力于向用户传授宝塔面板的使用技巧和知识的学习资源,旨在帮助用户快速上手和充分利用...
  • Shopify教程
    Shopify教程
    Shopify教程提供了关于Shopify平台的基本知识和操作指南,包括商店设置、商品管理、订单处理...
  • PHP教程
    PHP教程
    PHP教程提供了关于PHP语法、变量、函数、流程控制等概念的详细指导,同时介绍了常见的Web开发技术...

3个月免费VPS

亚马逊云科技

阿里云