前沿综述 | 神经问题生成
摘要: 问题生成是指机器主动对一段文本进行提问,生成一个自然语言的问题。神经问题生成则是完全采用端到端的训练方式,使用神经网络完成文档和答案到问题的转换,是自然语言处理中一个新兴而又重要的研究方向。文中首先对神经问题生成进行了简单介绍,包括基本概念、主流框架和评价方法。接着介绍了该研究方向的关键问题,包括输入建模、长文本处理、多任务学习、机器学习方法的应用、其他研究问题和改进点。最后,介绍了问题生成和问答系统的关系,以及问题生成的未来研究方向。
http://www.jsjkx.com/CN/10.11896/jsjkx.201100013
问题生成[1]是自然语言处理中一个非常重要的研究方 向,是检验计算机是否真正理解文本的重要途径之一.问题 生成是指机器主动对一段文本进行提问,生成一个自然语言 的问题.具体来说,问题生成任务的输入通常包含文本(文档 或句子,以下均用文档表示)和目标答案,输出是在给定文档 和目标答案的情况下,生成最有可能的问题.
问题生成在学术界和工业界有诸多应用.在学术界,问 题生成可以对许多其他任务起辅助作用,如为机器阅读理解 任务提供数据集、作为辅助任务提升其他生 成 任 务 的 性 能 等;在工业界,问题 生 成 则 可 以 在 许 多 实 际 的 应 用 场 景 中 使用,如引导对话 聊 天 机 器 人 主 动 提 问、在 教 育 辅 导 系 统 中模拟用户提问等.在最近的天池 竞 赛 中,也 展 开 了 以 医疗问题生成为主题的竞赛。
问题生成主要包含两种方法:基于规则和模板的问题生 成,以及基于神经网络的问题生成.最初,基于规则和模板的 问题生成是问题生成的主流研究方法.该方法的好处是可以 保证生成问题的流畅度和相关性,缺点是需要大量人工干预, 同时手工模板的构造也会在很大程度上限制生成问题的多样 性.而在深度学习技术重新焕发生机以后,神经网络开始成 为问题生成的主流研究方法.2017年,Du等[2]和 Zhou等[3] 最先提出神经问题生成,其成功地将最原始的编码器G解码器 模型应用到问题生成.尽管该工作比较简单,但引起了极大 反响,让越来越多的研究人员开始关注神经问题生成这一研 究方向.随后,神 经 问 题 生 成 方 向 涌 现 出 了 大 量 高 质 量 的 研究. 本文将介绍问题生成的相关研究进展,如图1所示.
本文 第 2 节 介 绍 了 问 题 生 成 的 主 流 框 架,包 括 基 于 RNNSearch的模型、基于 Transformer的模型和基于规则和 模板的方法;第3节介绍了问题生成的评价方法,包括其所使 用的数据集和自动化评价指标;第4节介绍了问题生成研究 中的关键问题,包括输入建模、主要改进点、长文本处理、多任 务学习及机器学习方法的应用;第5节介绍了问题生成和问 答系统的关系,包括问题生成和阅读理解的结合、利用问题生 成构建 QA 对;第6节介绍了问题生成的未来研究方向,包括 对话形式的问题生成、多跳形式的问题生成以及其他形式的 问题生成;最后总结全文.
---------♥---------