【NLP-ChatBot】搜索引擎的最终形态之问答系统(FAQ)详述

本篇介绍聊天机器人中出现的比较早的一种:问答系统。问答系统跟检索技术很相似,基本的功能就是,用户可以向系统咨询信息,系统通过“检索”,向用户返回精准、有效的信息。所以,常常有人说,问答系统是搜索引擎的最终形态。

作者&编辑 | 小Dream哥

1 什么是问答系统

我们之前介绍过,按照应用场景的不同,聊天机器人可以分为问答系统,对话系统以及闲聊机器人三类。今天我们就来详细讲一讲其中的问答系统。

问答系统是基于用户的问题,给定一个回答,不涉及到多轮对话。通常用于智能搜索,智能家居中的家电控制等场景。问答系统往往不需要调用业务能力,只需要完成对用户问题的匹配及回答。

我们之前介绍过,问答系统的任务其实就是,对用户的输入进行相似度或者相关性计算,然后在相应的FAQ库里,寻找该用户输入对应的答案,并返回给用户。

2 问答系统(QA)中的语料库

通常,一个问答系统,都是针对某一个领域的。例如,一个淘宝卖家的问答系统,针对的是买家常问的商品类型和价格信息问题作出回答。

因此,要构建一个问答系统第一步就是整理FAQ库。一个FAQ库应该如下的内容:

1.标准问。标准问是问答系统设计者设计的标准问题,例如,“***商品的价格是多少?”。标准问的个数,决定了问答系统的规模,通常由业务专家给定。

2.相似问。一个标准问通常会对应多个相似问,与标准问表达相同的意思,但往往会不那么规范,较口语化,相似问通常要求覆盖面越广越好。例如,“****商品多少钱呀?”。相似问早期由业务专家拟定,数据师扩写,后期会不断修缮、规整和增加。

3.答案。一个标准问对应一个答案,返回给用户。由业务专家拟定。

FAQ库的质量,对于一个问答系统非常的重要,但是FAQ库的建立和维护往往都是一件极其费时费人力的事情。当一个FAQ库规模变大时,相似问之间的界限开始变的迷糊,会给算法带来非常大的挑战;另一方面,当FAQ库规模很大时,后期的维护也变得非常的困难。例如,当系统出现bad case,数据师很难判断bad case出现的原因,无法判断是哪条标准问对应的相似问加错了,从而很难修改。

对于一个问答系统而言,高质量FAQ库需要建立的时候就异常用心,通常需要业务专家和算法工程师通力合作;在使用时也需要倍加用心的维护,这时,需要培养多位既了解算法特性,又熟悉业务场景的数据师。这大概是目前生产中大部分问答系统采用维护方案了。

3 问答系统Q-A的匹配方式

在问答系统中,模型算法的任务其实就根据用户输入的问题匹配到相应的答案。这看起来是个简单的问题,实际上不然。

一方面,一个标准问,用户可能的问法有很多,很多时候都无法预料,需要不断的完善;另一方面,FAQ库的规模通常很大,标问数目可以达到数万,相似问的数据可能就更多了。这么大数目的预料,长度不一,算法难度很大。

模型的训练过程,其实就是让模型能够学习到问题-答案(Q-A)对之间的联系,或者Query集的特征。如下图所示,是QA中匹配用户query的模式。

由此可知,目前QA系统的实现,主要有以下三种方式:

1.计算用户输入Query和Question的相似度。通过计算用户输入Query与FAQ语料集中Question之间的相似度,选出相似度最高的Question,再通过Q-A map找到相应的答案返回给用户。

2.计算用户输入Query和Answer的之间的相关性。通过计算用户输入Query与FAQ语料集中Answer之间的相关度,选出相关度最高的Answer,返回给用户。

3.结合用户输入Query和Answer的之间的相关性以及用户输入Query和Question的相似度。通过结合相关性和相似度,选出最匹配的Answer,返回给用户。

4  问答系统中匹配的算法

由上节可知,问答系统中的匹配可以归结为query与FAQ库中标问和相似问的相似度计算与query与FAQ库中答案的相关性计算。总的来说,目前相似度或相关性计算有下面的几种方式。

1)规则匹配

也许有读者会觉得很惊讶,都9012了,还有人用规则匹配来做机器人?其实不必惊讶,目前,很多机器人都有规则匹配的部分,它可控,高效、易于实现。

我这里介绍一种规则匹配的方式,也有人称为句式法。所谓句式法,就是针对FAQ库中的标问和相似问进行分词、提炼出大量的概念,并将上述概念组合,构成大量的句式,句式再进行组合形成标问。例如,标问“华为mate30现在的价格是多少?”,拆出来“华为mate30”是cellphone概念,“价格是多少”是askMoney概念,“现在”是time概念,那么“华为mate30现在的价格是多少?”就是cellphone+askMoney+time。用户输入"华为mate30现在卖多少钱?"进行分词,可以得到相同的句式和概念组合,就能够命中“华为mate30现在的价格是多少?”这个相似问了。

2)深度学习语义匹配

语义匹配笔者之前有介绍相关的代表性论文,感兴趣的同学可以仔细看看,非常有好处:

【每周NLP论文推荐】 介绍语义匹配中的经典文章

语义匹配的技术,从早期的DSSM,利用词袋模型,计算句之间的相似度;到后面利用LSTM-DSSM来捕捉长时间序列的语义信息;再到现在的基于BERT的语义相似度计算与匹配。本质上,其实都是提取句子的语义特征,再通过数学运算计算相似度。

5 KBQA介绍

Knowledge Based Question&Answer(KBQA),是一种基于知识体系的问答系统,现在知识库更多的是指知识图谱了。

KBQA回答用户问题的方式通常有如下两个步骤组成:

1.利用NLU模块进行语义理解和解析,包括意图识别,实体识别,实体关系识别,实体匹配等。

2.利用知识图谱进行查询、推理得出答案

搭建KBQA中最重要最关键的一步就在于知识图谱的搭建。知识图谱对于绝大部分NLP任务都有极大的加成,个人认为是当前最有价值的NLP方向。

总结

搭建一个问答系统是非常耗费时间和人力的事情,不管是传统的QA,还是近来的KBQA。对传统的QA,FAQ库的建立和维护都异常费事;对于KBQA,知识图谱的搭建,就是一个难度巨大的工程。

近期我们会在知识星球实现问答系统,具体实现和优化,感兴趣扫描下面的二维码了解。

(0)

相关推荐

  • 亲,你的KB会QA吗?

    卷友们好,我是rumor. 今天和大家聊聊我又爱又恨的主线剧情--对话. 除了搜广推之外,NLP最大最核心的落地点就是对话了.对话场景下又可以分为闲聊.任务型和FAQ三类任务.闲聊就不说了,做一个凉一 ...

  • 推荐 10 个经典的 NLP 项目!涉及预训练 Bert、知识图谱、智能问答、机器翻译、对话等

    自然语言处理技术近几年发展非常快,像BERT.GPT-3.图神经网络.知识图谱等技术被大量应用于项目实践中. 今年大厂的NLP面试中对项目方面的考察深度也随之提升了很多,经常会被面试官揪着细节一步一步 ...

  • 文本分类综述 | 迈向NLP大师的第一步(下)

    NewBeeNLP公众号原创出品 公众号专栏作者 @lucy 北航博士在读 · 文本挖掘/事件抽取方向 本系列文章总结自然语言处理(NLP)中最基础最常用的「文本分类」任务,主要包括以下几大部分: 综 ...

  • 如何构建高质量的 QA 问答知识库

    NLP 技术落地最普遍的场景就是智能客服,如阿里的"小蜜",京东的"JIMI"等等.NLP 技术也广泛应用于搜索系统.无论是"智能客服",还 ...

  • 把文本分类任务做成一个系统

    问题和具体场景 说具体方法之前先说下场景吧. 相对开放域的搜索,在有比较初步的物料后,都会选择使用检索的方式快速完成初版本的设计和上线,但是随着逐步迭代发展,要对特定品类或者意图进行更为精准的设计,此 ...

  • 简述对话机器人类型

    对话机器人作为新一代人机交互的入口,近些年成为了各大巨头公司抢占的风口,阿里.百度.腾讯.小米也都纷纷推出了自家的智能音箱,本文将主要介绍一下对话机器人的类型. 一.按照技术实现方式可以分为检索式和生 ...

  • 对话的囧境?

    卷友们好,我是rumor. 人工智能对话系统一直是让我又爱又恨的存在,爱是因为一想到它的终极NB形态就令人兴奋,觉得自己在从事一门可以改变世界的技术,恨是因为现有的技术与期待相差太远,一旦框架搭起来了 ...

  • 谷歌安卓认输吧!华为鸿蒙系统再更新:实现万物互联的最终形态?

    [4月26日讯]相信大家都知道,在过去很长一段时间里,全球手机操作系统一直都被苹果IOS.谷歌Android系统所垄断,其中苹果IOS系统更是因为其独有系统封闭性,让免费.开源的Android系统成为 ...

  • 大量最新渲染图流出:这就是 iPhone 13 Pro 的最终形态?

    转眼间 2021 年就快要过去一半了,苹果 上年秋季推出的 iPhone 12 系列的热度也渐渐被快将要发布的 iPhone 13 系列压下去了,喜新厌旧是人之常情,大家最关注的仍是 9 月份的新 i ...

  • 可能是8770W的最终形态了

    编辑 编辑 编辑 编辑 从入手8770到折腾到现在已经经历了九九八十一难,CPU从最初的2720QM升级到3840QM,再到最后的3940XM,显卡一路折腾,K2200M->K3100M-> ...

  • ​营销数字化案例100篇之40:资生堂“心链接”的最终形态,竟是社交云店?

    资生堂营销数字化的需求: 近日,这场从种草体验.社群运营.直播促单三大维度考量店员"尽心"服务能力的BA竞争决赛完美谢幕,这是资生堂自2018年开启"心链接"活 ...

  • 狂奔的社区团购:跑赢时间之后,行业的最终形态到底是什么

    "阿里零售通事业部近期正在筹备组建一个新的社区团购部." 作者:苏打 编辑:tuya 出品:财经涂鸦(ID:caijingtuya)   社区团购领域最近有点忙. 被生鲜赛道催生的 ...

  • 手机中安装APP的最终形态,只留微信就够了?

    昨日晚间,2021微信公开课Pro在广州举行.而在这场活动开始不久,官方就昭告了自家各项表现优异的成绩,例如小程序年均DAU已破4亿,全年累计交易额同比增长超100%:微信支付分上线两年,用户数突破2 ...

  • 成立43个月,零融资,卖出23亿美元,互联网保险推荐平台的最终形态?

    保观 | 聚焦保险创新 写 在 前 面 Assurance IQ 成立于2016年2月,是一家美国的互联网保险销售平台.通过与20余家保险公司合作,Assurance能为其客户提供个性化的保险方案,其 ...

  • 跟手机卡说再见!“无卡上网”才是未来的最终形态

    一提起手机SIM卡,相信很多人都熟悉它,从「小灵通」时期就已经沿用至今的科技产物,确实极大的改变了我们的生活方式.   其实SIM卡是「Subscriber Identity Module」(客户识别 ...

  • 烟斗丝的裁切方式,烟斗丝有几种最终形态?

    我们经常可以看到烟斗用烟草有各种分类,其中的一种叫做裁切方式,也就是说到达我们手中的时候它是什么样子的. 一些很少见的种类我们就不在新手教学文章中讨论了,这里我们只谈到经常可以见到的几种裁切方式. 他 ...