中科院计算所郭嘉丰:预训练很重要,但「信息检索」怎么用?

【专栏:前沿进展】预训练+微调,这种组合范式在NLP领域已经产生了巨大的影响。如何将这种模式应用到「信息检索」,其中面临一系列的问题。

郭嘉丰,作为信息检索领域的杰出学者,在这方面做了大量研究。在近期举办的智源大会上,他分享了其在「面向信息检索的预训练」这一课题上的思考和研究。

报告:郭嘉丰,中科院计算技术研究所研究员,智源研究员

撰文:任黎明、李明


本文整理自郭嘉丰在「2021北京智源大会 · 信息检索与挖掘专题论坛」上的报告《面向信息检索的预训练模型》。
关注【智源社区】公众号
后台回复【2021智源大会报告】获取《2021北京智源大会 · 观点报告》文集。
视频回放,请扫描二维码:
或复制回放链接:https://2021.baai.ac.cn/schedule

01

优点

预训练和微调作为组合的范式已成功应用于NLP领域,在预训练阶段(任务非独立),通过学习常规的语言模型设计自监督的任务(如掩码语言模型、句子间顺序预测);在微调阶段(任务独立),通过人工标记的自监督方式微调不同下游任务的预训练模型。
图1:研究背景:预训练和微调范式
这种范式的优点是:
1)通过大规模预训练,拥有良好语言表征的大规模预训练模型在下游任务中表现出极佳的性能;
2)one fit all的范式适用于诸多NLP任务,且经济高效。
因此,NLP领域(文本分类、生成式任务、对话、翻译等)涌现出诸多预训练模型。
图2:研究背景:任务独立和任务相关
近期通过学术圈或工业界研究发现,除了研究任务独立的预训练,还可以研究任务相关的预(重)训练模型,在大规模文本语料库中学习与目标任务更相似的面向任务语言模型的自监督目标。

其优点有:
1)以更高的效率达到更好的微调性能且收敛速度更快;
2)对目标任务形成拿来即用的模型,由于任务的差异性使其泛化能力较弱。
在生成式摘要中,预训练模型在12个数据集中表现出优于现有方法,及其强大的零样本性能;在对话中,其优于BERT。

02

面向「信息检索」

预训练的模型在信息检索中价值斐然,信息检索任务需要理解用户的查询及诸多Web网页,因而语言模型的功能可以发挥巨大的价值。
图3:基于预训练的信息检索基本用法
信息检索的过程可分为多个阶段,主要有召回阶段(从文本语料库中召回)和重排序阶段。
预训练模型在召回和重排序阶段都有价值,预训练模型在信息检索中的基本用法主要有两类:
1)将信息检索正则化为匹配问题,以表达为中心的模型,通常可用于召回阶段,使查询进行高效地匹配;
2)重排序阶段以交互为中心的模型。
近年来,基于BERT模型的信息检索任务(如将BERT模型应用于Ad-hoc文档排序中),其性能的提升往往不高。由此引发了预训练模型(为自然语言处理而设计)是否真的可以满足信息检索中语言理解的内在需求问题。
图4:基于预训练模型的信息检索任务分类
基于此问题,可以将预训练任务分为:
1)序列内的任务,如掩码语言模型、排列语言建模等,此类任务主要为学习上下文表征,其良好的上下文表征有益于理解查询和文档,故此类预训练任务适用于信息检索;
2)序列间的任务,如下一句预测、句子顺序预测等,此类任务主要为学习序列间的一致性和平滑性,而信息检索是短查询和长文本的相关性匹配,故此类预训练任务不适用于信息检索。
因此,在上下文中的随机序列做信息检索相关的预训练任务时,其关联关系很弱,研究自监督任务更好地模拟信息检索的相关性匹配任务极其重要。
基于生成理念的假设,查询是从理想文档生成的最有代表性(区别于其他文档)文本的概率,并通过概率进行排序,如果语言模型能够更好地识别文档中最有代表性的词,其就能更好地获得查询和文档的相关性。
图5:基于预训练的信息检索假设
基于此假设,郭嘉丰提出了代表性词预测(ROP)任务,应用预训练Transformer模型预测任意词对的偏好,并对文档代表性的词对做出响应。
首先通过成对的采样或随机采样(效率极低),再通过偏好学习,根据每对词采样概率的大小,使预训练模型预测出词之间的准确关系。
图6:用于Ad-hoc检索代表性词预测任务
基于预训练的代表性词预测模型(PROP)将代表性词预测和掩盖语言模型的目标相结合。
图7:基于预训练的代表性词预测模型(PROP)研究结果
通过PROP预训练模型在下游的数据集上做实验,实验验证结果表明预训练表性词预测任务PROP模型相较于BERT和TransformerICT等模型具有更加优异的性能(5个模型中战胜了4个),并且预训练的数据与下游任务数据在相关领域语料库中进行预训练更高效及资源消耗较低的优点。
图8:基于预训练的代表性词预测模型(PROP)的低资源优点
此外,郭嘉丰在文档语言模型的随机采样研究中发现其找到代表性词的效率和效果都极低。
因此,基于预训练的代表性词预测模型(PROP)的建立严重依赖于采样的代表性词,而随机采样得到代表性词的概率特别小,基于Unigram模型的方法得到代表性词的概率更大和效率更高。
图9:基于对比采样的文档语言模型 v.s. 随机对比采样研究结果
郭嘉丰通过研究基于文档语言模型(Unigram模型)是否最佳时发现该模型假设术语之间是独立的,其忽略了词和词之间的相关性,因而难以完全捕捉文档语义。其倾向于对文档中可能不代表文档语义的罕见词进行采样,但未必是相关的词。
针对能否设计一个文档语言模型以提高代表词采样质量的问题,郭嘉丰应用BERT 代替经典的unigram语言模型进行代表性词预测ROP任务的构建,并对BERT自身进行训练,使其适应信息检索的定制目标。
而基于特殊分类标记CLS的采样方法,其能够产生代表性也非常常见的词,其试图采集整个文本的信息,即文本语义的分布,文本语义不是一种具有代表性信息量的分布。
针对此难题,郭嘉丰根据随机性偏差理论,通过计算文档中真实术语和随机术语分布的差距以确定术语的重要性,提出了基于BERT对比式采样代表性词预测方法,计算文档中术语和随机术语分布的交叉熵进行采样,首先应用BERT的CLS标记计算基于BERT语言模型中的注意力权重,再计算所有文档的术语分布期望,以确定随机文档的术语分布,最终计算真实术语和随机术语文档的交叉熵。研究结果表明该方法相较于BERT的方法性能更优,其可以对代表性词进行采样。
图10:基于BERT对比式采样代表性词预测方法
郭嘉丰将该方法称为基于自举预训练代表性词预测B-PROP,其通过BERT的语言模型建立预训练任务,又再次训练BERT。
图11:B-PROP方法
此方法的两个目标与前文方法一致,只是其构造方式为BERT。下游实验研究结果表明,该方法相较于PROP方法和其他预训练模型在小数据集上性能更优。
图12:B-PROP方法研究结果
此外,郭嘉丰将该模型应用于MS MARCO文档排行榜,其在MRR指标的结果超最早超过0.4,并且保持在榜首(源代码和预训练模型见https://github.com/Albert-Ma/PROP)。
郭嘉丰指出基于信息检索的预训练模型,如针对代表性的预训练任务,关键在于设计具有代表性而非相关性的自监督学习目标,并且信息检索不同于大多数自然语言处理任务,其允许在现有数据集中预训练、重新训练模型,无需关注过拟合。

03

展望

郭嘉丰提出两点展望,简要概述如下:
图13:研究展望1
1)合作式Games的预(重)训练方法。现有方法大多数可理解为生成代表性词预测任务以训练下游transformer,transformer由生成器的质量决定,因而可研究识别器帮助提升生成代表性词的任务,以设计一种合作式的预(重)训练方法;
图14:研究展望2
2)构建通用神经信息检索系统。在应用方面,基于神经网络的召回和排序形成拿来即用的模型做预训练任务。

智源社区

【智源社区】是北京智源人工智能研究院打造的一个内行、开放的 AI 实名社区,致力于促进 AI 交流。
278篇原创内容
公众号
(0)

相关推荐

  • 【ACL 2019】基于单句和双句打分的生成式摘要

    在生成摘要的过程中,除了需要对单个代表性句子进行压缩或改写,还需要考虑多个句子的信息融合,尤其是两个句子(即 Sentence Pair)的信息融合.本文提出了一种对单个句子和句子进行联合打分的方法, ...

  • 论文解读:Bert原理深入浅出

    Bert 自 Google 于 2018 年发表至今,一直给人们带来惊喜,期间也陆陆续续因为Bert出现的原因多了不少新的岗位,甚至公司 JD 上都明确表明必须懂 Bert. 它在 11 项自然语言处 ...

  • 【NLP】 深入浅出解析BERT原理及其表征的内容

    本篇介绍目前NLP领域里影响力最大的预训练模型BERT.首先,大致介绍了BERT里有什么:接着,介绍了BERT的结构和其预训练的方式:最后,再总结BERT的表征的内容和分布. 作者&编辑 | ...

  • 最近很火的「许愿」朋友圈,快去秀一波

    如果没有去看日历,都没有意识到2019 年已经快一周了.今年你的开年愿望是什么呢? 今天分享一下最近很火的朋友圈许愿图,让你秀翻朋友圈~ 虽然春节还没来,但是提前学会,提前在朋友圈秀一把也未尝不可噢! ...

  • 技术 | 步伐训练很重要 打好网球全靠它

    网球是名副其实的脚下运动,没有好的步法,你的网球就没有灵魂.要想正确地击球,必须首先移动到正确的位置,步法(场上的覆盖范围)是打网球的第一步.当练习时能够多拍相持,但在比赛中却无法做到这一点,你有没有 ...

  • 预训练语言模型关系图 必读论文列表,清华荣誉出品

    项目作者:王晓智.张正 预训练语言模型(PLM)是 NLP 领域的一大热门话题.从 BERT 到 GPT2 再到 XLNet,各种预训练模型层出不穷,不少同学感叹,「大佬慢点,跟不上了--」那么,这么 ...

  • 百度生物计算平台螺旋桨负责人:预训练技术在生物计算中的新应用

    日前,由中国首家生物计算技术驱动的生命科学公司百图生科,与致力于 IT 和 BT 交叉融合的创新孵化中心播禾创新共同主办的 "首届中国生物计算大会" 刚刚落下了帷幕. 会上,围绕 ...

  • 帕金森病不只手抖那么简单,医生:这5个康复训练很重要!

     你有没有出现过手抖的情况: 紧张.发火时,手会抖 用筷子夹菜时,手会抖 拿相机拍照时,手会抖 ... .... 不少人手抖会怀疑自己得了什么病?因为一说到'抖'.'震颤'为症状的病,大家经常会想到- ...

  • 【作者解读】ERNIE-GEN : 原来你是这样的生成预训练框架!

    写在前面 文本生成作为自然语言处理非常重要的一环,百度发布了全新的生成式预训练模型ERNIE-GEN,一起看看来自paper作者对ERNIE-GEN的解读. 『ERNIE-GEN』主要针对: 生成训练 ...

  • 春暖花开,三界的训练很“嗨”!

    文图丨史国豪.刘德 春暖花开,万物复苏 正是练兵备战的"黄金期" 这不,三界训练场 有了最新"战况"-- 近日,第72集团军某旅 组织多个分队赴三界野外驻训 贴 ...

  • ICLR 2020 谷歌使用预训练技术来改进向量召回

    Take away 因为我之前也经常在知乎看别人的论文阅读笔记,其实不喜欢那种整篇顺一遍几乎没有翻译或提炼的笔记.但会议通货膨胀,很容易遇到水文,我想每篇阅读笔记最前面都写一些take away,大家 ...

  • 预训练语言模型fine-tuning近期进展概述

    近年来,迁移学习改变了自然语言处理领域的范式,对预训练语言模型(PLM)进行微调(fine-tuning)已经成为了新的范式.本文主要梳理了近期的预训练语言模型做fine-tuning的进展. 另外, ...