DeepMind提出Transformer新变体：∞-former：任意长度上下文！无限长期记忆

2024-06-05 14:59:55

AI/CV重磅干货，第一时间送达

CVer

一个专注侃侃计算机视觉方向的公众号。计算机视觉、图像处理、机器学习、深度学习、C/C++、Python、诗和远方等。

214篇原创内容

Official Account

本文转载自：机器之心

任意长度的上下文都能 hold 住？这里有一个名为∞-former 的新模型。

在过去的几年里，Transformer 几乎统治了整个 NLP 领域，还跨界到计算机视觉等其他领域。但它也有弱点，比如不擅长处理较长上下文，因为计算复杂度会随着上下文长度的增长而增长，这使其难以有效建模长期记忆。为了缓解这一问题，人们提出了多种 Transformer 变体，但它们的记忆容量都是有限的，不得不抛弃较早的信息。

在一篇论文中，来自 DeepMind 等机构的研究者提出了一种名为 ∞-former 的模型，它是一种具备无限长期记忆（LTM）的 Transformer 模型，可以处理任意长度的上下文。

论文链接：https://arxiv.org/abs/2109.00301

通过利用连续空间注意力机制来处理长期记忆，∞-former 的注意力复杂度可以独立于上下文长度。因此，它能够借助一个固定的算力开销建模任意长度的上下文并保持「粘性记忆（sticky memories）」。

在一个综合排序任务上进行的实验证明了∞-former 能够保留来自长序列的信息。此外，研究者还进行了语言建模的实验，包括从头开始训练一个模型以及对一个预训练的语言模型进行微调，这些实验显示了无限长期记忆的优势。

不过，和其他很多 Transformer 变体的论文一样，这篇论文的标题也引发了一些吐槽：

∞-former：一种拥有无限记忆的 Transformer

为了使模型能够处理长程上下文，研究者提出用一个连续 LTM 来扩展原始 transformer，这个 LTM 存储前面步骤的输入嵌入和隐藏状态。他们还考虑了有两种记忆的可能性：LTM 和 STM（短期记忆），类似于 transformer-XL 的记忆。∞-former 的整体架构如下图 1 所示。

为了让新模型的 LTM 达到无限的程度，研究者使用了一个连续空间注意力框架（参见《 Sparse and Continuous Attention Mechanisms 》），它在适用于记忆的信息单元数量（基函数）和这些单元的表示粒度之间进行了权衡。在这一框架中，输入序列被表征为一个连续信号，表示为径向基函数的一个线性组合。这种表征有两个显著的优势：1）上下文可以用 N 个基函数来表示，N 小于上下文中 token 的数量，降低了注意力复杂度；2）N 可以是固定的，这使得在记忆中表征无限长度的上下文成为可能（如图 2 所示），代价是损失 resolution，但不增加其注意力复杂度，O(L^2 + L × N)，其中的 L 对应 transformer 序列长度。

为了缓解损失较早记忆 resolution 的问题。研究者引入了「粘性记忆」的概念，将 LTM 新信号中的较大空间归于之前记忆信号的相关区域。这是一种强制重要信息在 LTM 中持续存在的过程，使得模型可以在不损失相关信息的情况下更好地捕捉长上下文，类似于大脑中的长时程增强和突触可塑性。

实验结果

为了检验∞-former 能否建模长上下文，研究者首先针对一个综合任务进行了实验，包括把 token 按其在一个长序列中的频率进行排序，结果如下：

从图中可以看出，在序列长度为 4000 的时候，transformerXL 的准确率要略高于 compressive transformer 和 ∞-former。这是因为 transformerXL 几乎可以在记忆中保存整个完整序列。但随着序列长度的增加，transformerXL 的准确率迅速下降，compressive transformer 和 ∞-former 变化较小。这表明∞-former 更擅长建模长序列。

接下来，他们又进行了语言建模实验，包括：1）从头训练一个模型；2）微调一个预训练语言模型。

第一个语言建模实验的结果如下表 1 所示。从中可以看出，利用长期记忆扩展模型确实会带来更好的困惑度结果，而且使用粘性记忆也可以在一定程度上降低困惑度。

第二个语言建模实验的结果如下表 2 所示。该结果表明，通过简单地将长期记忆添加至 GPT-2 并进行微调，模型在 Wikitext-103 和 PG19 上的困惑度都会降低。这表明∞-former 具有多种用途：既可以从头开始训练模型，也可以用于改进预训练模型。

ICCV和CVPR 2021论文和代码下载

论文解读：Bert原理深入浅出

Bert 自 Google 于 2018 年发表至今,一直给人们带来惊喜,期间也陆陆续续因为Bert出现的原因多了不少新的岗位,甚至公司 JD 上都明确表明必须懂 Bert. 它在 11 项自然语言处 ...
2021人工智能状况分析报告

人工智能(AI)是一个多学科领域的科学和工程,其目标是创造智能机器. 近期,Nathan Benaich 和 Lan Hogarth博士发布了<2021人工智能状况报告> 该报告试图捕捉近 ...
邱锡鹏，这是Transformer最全综述

机器之心报道自 2017 年 6 月谷歌发布论文<Attention is All You Need>后,Transformer 架构为整个 NLP 领域带来了极大的惊喜.在诞生至今仅仅 ...
2020上半年收集到的优质AI文章 – 开源框架&算法&数据集

2020上半年收集到的优质AI文章 – 开源框架&算法&数据集开源框架/算法/模型/数据集 TensorFlow 和 PyTorch 迎来了"后浪" 2020 年 ...
人类生物学的大突破，就这样被AI做到了

极客公园18小时前关注 Deepmind推动的这个科学界大事件,最终必将影响人类世界的每个人多年之后,当人们总结这些年的 AI 浪潮,最具应用价值突破的会是什么? 不会是 2016 年 Alpha ...
完全图解GPT-2：看完这篇就够了（一）

设为 "星标",重磅干货,第一时间送达! 选自github.io,作者:Jay Alammar 机器之心编译今年涌现出了许多机器学习的精彩应用,令人目不暇接,OpenAI 的 G ...
印度疫情6月22日与十大新闻（印度已出现22例新变体病毒；印度各地的水泥价格均有所上涨；）

2021年6月22日印度中央政府周二通知,印度已记录了 22 例冠状病毒的 Delta plus (德尔塔加强版)变体病例.Delta plus 由 Delta (B.1.617.2) 变体的突变形 ...
致死率高达35%！新变体来了，比Delta还凶悍，抗原漂移，致抗体失效！美国日增病例破10万，今夏疫...

新冠病毒又出来新变体了, 比Delta 变体更凶悍, 出现抗原漂移, 致死率高达35%! 美国日增新病例突破10万, 美国首席传染病专家福奇说: 事情变得更糟糕! 热点新变体抗原漂移,致死高达35% ...
“事情变得更糟”！新变体袭来，比Delta还凶悍，抗原漂移，疫苗抗体失效，致死率高达35%！美国今夏...

新变体抗原漂移,致死高达35% 你还在谈Delta色变吗?你不知道的是,比Delta变体更凶悍的新冠变体将要袭击全球,致死率高达35%,这种新冠病毒的新变体就是刚被命名的SARS-CoV-2变异株. ...
【专治一切任性和不服！】致死率高达35%！新变体来了，比Delta还凶悍，抗原漂移，致抗体失效！

导读综合多家外媒报道,在过去4周内,拉姆达变异毒株已在英国.加拿大.澳大利亚等30多个国家中蔓延,且引起了多国卫生官员的注意. 世界卫生组织(WHO)已将拉姆达变异毒株列为"关注变种&qu ...
冠状病毒新变体感染儿童的风险更大，在全球传播并未失控

据英国科学家称,新发现的冠状病毒突变可能比之前的病毒更具感染力.伦敦帝国学院的病毒专家尼尔·弗格森(Neil Ferguson)说:"有证据表明,儿童感染的可能性更大."确切的机制 ...
研究发现：一种新冠病毒新变体已蔓延整个欧洲

2020-10-30 19:52:42 [研究发现:一种新冠病毒新变体已蔓延整个欧洲 ]西媒称,新冠疫情以来,研究人员一直在对新冠病毒变体的基因组进行测序,以监测病毒的变异情况并预测疫情的演变.本周, ...
YOLOv4一作提出Transformer新架构：DPT！替代卷积网络做密集预测

AI/CV重磅干货,第一时间送达 CVer 一个专注侃侃计算机视觉方向的公众号.计算机视觉.图像处理.机器学习.深度学习.C/C++.Python.诗和远方等. 220篇原创内容 Official A ...
美国放弃新冠疫苗专利保护，以帮助在全球抵抗疫情。辉瑞疫苗对由两种病毒变体引起的严重疾病，有特效！

就在疫情在印度和南美肆虐之际,拜登政府周三表示,放弃对新冠疫苗的知识产权保护. (拜登政府同意暂停新冠疫苗专利限制./路透社) 周三下午,美国贸易代表Katherine Tai在一份声明中宣布了拜登政 ...
Biontech和Moderna疫苗对印度新冠变体仍然有效

印度新冠病毒变种B.1.617已经传播到了全球44个国家和地区.该国另一个新的变种B.1.618在印度也越来越普遍.现在的一项研究已经明确:两款新冠疫苗对它们是有效的. 引发全球新冠大流行的病毒已经发 ...

DeepMind提出Transformer新变体：∞-former：任意长度上下文！无限长期记忆

相关推荐