中科院计算所郭嘉丰：预训练很重要，但「信息检索」怎么用？ / 开普饭

【专栏：前沿进展】预训练+微调，这种组合范式在NLP领域已经产生了巨大的影响。如何将这种模式应用到「信息检索」，其中面临一系列的问题。

郭嘉丰，作为信息检索领域的杰出学者，在这方面做了大量研究。在近期举办的智源大会上，他分享了其在「面向信息检索的预训练」这一课题上的思考和研究。

报告：郭嘉丰，中科院计算技术研究所研究员，智源研究员

撰文：任黎明、李明

本文整理自郭嘉丰在「2021北京智源大会 · 信息检索与挖掘专题论坛」上的报告《面向信息检索的预训练模型》。

关注【智源社区】公众号

后台回复【2021智源大会报告】获取《2021北京智源大会 · 观点报告》文集。

视频回放，请扫描二维码：

或复制回放链接：https://2021.baai.ac.cn/schedule

优点

预训练和微调作为组合的范式已成功应用于NLP领域，在预训练阶段（任务非独立），通过学习常规的语言模型设计自监督的任务（如掩码语言模型、句子间顺序预测）；在微调阶段（任务独立），通过人工标记的自监督方式微调不同下游任务的预训练模型。

图1：研究背景：预训练和微调范式

这种范式的优点是：

1）通过大规模预训练，拥有良好语言表征的大规模预训练模型在下游任务中表现出极佳的性能；

2）one fit all的范式适用于诸多NLP任务，且经济高效。

因此，NLP领域（文本分类、生成式任务、对话、翻译等）涌现出诸多预训练模型。

图2：研究背景：任务独立和任务相关

近期通过学术圈或工业界研究发现，除了研究任务独立的预训练，还可以研究任务相关的预（重）训练模型，在大规模文本语料库中学习与目标任务更相似的面向任务语言模型的自监督目标。

其优点有：

1）以更高的效率达到更好的微调性能且收敛速度更快；

2）对目标任务形成拿来即用的模型，由于任务的差异性使其泛化能力较弱。

在生成式摘要中，预训练模型在12个数据集中表现出优于现有方法，及其强大的零样本性能；在对话中，其优于BERT。

面向「信息检索」

预训练的模型在信息检索中价值斐然，信息检索任务需要理解用户的查询及诸多Web网页，因而语言模型的功能可以发挥巨大的价值。

图3：基于预训练的信息检索基本用法

信息检索的过程可分为多个阶段，主要有召回阶段（从文本语料库中召回）和重排序阶段。

预训练模型在召回和重排序阶段都有价值，预训练模型在信息检索中的基本用法主要有两类：

1）将信息检索正则化为匹配问题，以表达为中心的模型，通常可用于召回阶段，使查询进行高效地匹配；

2）重排序阶段以交互为中心的模型。

近年来，基于BERT模型的信息检索任务（如将BERT模型应用于Ad-hoc文档排序中），其性能的提升往往不高。由此引发了预训练模型（为自然语言处理而设计）是否真的可以满足信息检索中语言理解的内在需求问题。

图4：基于预训练模型的信息检索任务分类

基于此问题，可以将预训练任务分为：

1）序列内的任务，如掩码语言模型、排列语言建模等，此类任务主要为学习上下文表征，其良好的上下文表征有益于理解查询和文档，故此类预训练任务适用于信息检索；

2）序列间的任务，如下一句预测、句子顺序预测等，此类任务主要为学习序列间的一致性和平滑性，而信息检索是短查询和长文本的相关性匹配，故此类预训练任务不适用于信息检索。

因此，在上下文中的随机序列做信息检索相关的预训练任务时，其关联关系很弱，研究自监督任务更好地模拟信息检索的相关性匹配任务极其重要。

基于生成理念的假设，查询是从理想文档生成的最有代表性（区别于其他文档）文本的概率，并通过概率进行排序，如果语言模型能够更好地识别文档中最有代表性的词，其就能更好地获得查询和文档的相关性。

图5：基于预训练的信息检索假设

基于此假设，郭嘉丰提出了代表性词预测（ROP）任务，应用预训练Transformer模型预测任意词对的偏好，并对文档代表性的词对做出响应。

首先通过成对的采样或随机采样（效率极低），再通过偏好学习，根据每对词采样概率的大小，使预训练模型预测出词之间的准确关系。

图6：用于Ad-hoc检索代表性词预测任务

基于预训练的代表性词预测模型（PROP）将代表性词预测和掩盖语言模型的目标相结合。

图7：基于预训练的代表性词预测模型（PROP）研究结果

通过PROP预训练模型在下游的数据集上做实验，实验验证结果表明预训练表性词预测任务PROP模型相较于BERT和TransformerICT等模型具有更加优异的性能（5个模型中战胜了4个），并且预训练的数据与下游任务数据在相关领域语料库中进行预训练更高效及资源消耗较低的优点。

图8：基于预训练的代表性词预测模型（PROP）的低资源优点

此外，郭嘉丰在文档语言模型的随机采样研究中发现其找到代表性词的效率和效果都极低。

因此，基于预训练的代表性词预测模型（PROP）的建立严重依赖于采样的代表性词，而随机采样得到代表性词的概率特别小，基于Unigram模型的方法得到代表性词的概率更大和效率更高。

图9：基于对比采样的文档语言模型 v.s. 随机对比采样研究结果

郭嘉丰通过研究基于文档语言模型（Unigram模型）是否最佳时发现该模型假设术语之间是独立的，其忽略了词和词之间的相关性，因而难以完全捕捉文档语义。其倾向于对文档中可能不代表文档语义的罕见词进行采样，但未必是相关的词。

针对能否设计一个文档语言模型以提高代表词采样质量的问题，郭嘉丰应用BERT 代替经典的unigram语言模型进行代表性词预测ROP任务的构建，并对BERT自身进行训练，使其适应信息检索的定制目标。

而基于特殊分类标记CLS的采样方法，其能够产生代表性也非常常见的词，其试图采集整个文本的信息，即文本语义的分布，文本语义不是一种具有代表性信息量的分布。

针对此难题，郭嘉丰根据随机性偏差理论，通过计算文档中真实术语和随机术语分布的差距以确定术语的重要性，提出了基于BERT对比式采样代表性词预测方法，计算文档中术语和随机术语分布的交叉熵进行采样，首先应用BERT的CLS标记计算基于BERT语言模型中的注意力权重，再计算所有文档的术语分布期望，以确定随机文档的术语分布，最终计算真实术语和随机术语文档的交叉熵。研究结果表明该方法相较于BERT的方法性能更优，其可以对代表性词进行采样。