开源｜qa_match更新啦——新增知识库半自动挖掘模块

2024-05-28 15:19:53

qa_match是58同城推出的一款基于深度学习的轻量级问答匹配工具，V1.0版本于2020年3月9日发布，2020年6月更新v1.1版本。可参见：开源｜qa_match：一款基于深度学习的层级问答匹配工具、开源｜qa_match更新啦——支持轻量级预训练、提高问答通用性。2020年12月份，qa_match进行再次升级，更新至v1.3。

项目信息开源项目名称：qa_matchgithub地址：https://github.com/wuba/qa_match开源协议：Apache License 2.0我们在2020年12月份对qa_match进行再次升级，更新至v1.3。新增如下Features：1.新增知识库半自动挖掘流程，支持问答匹配在冷启动和上线后的问题挖掘：冷启动时，基于SPTM预训练结果，引入DEC进行知识挖掘，构建知识库；上线后，基于自定义聚类中心，挖掘扩展问法，完善扩充知识库。2.轻量级预训练语言模型（SPTM，Simple Pre-trained Model）增加基于Transformer的特征表征。为什么要升级到V1.3在之前的版本中我们支持了一层结构知识库问答、开源了基于Bi-LSTM的预训练语言模型，以提升基于知识库的问答等下游任务的效果；而在新版本中，我们主要进行了两方面改进：一是新增知识库半自动挖掘模块。模型离线训练数据大部分来自知识库，所以知识库的质量和规模会直接影响模型效果，进而影响场景的问答效果。我们从实践中总结出一套知识库半自动挖掘流程，在冷启动以及模型上线后持续提升知识库的规模和质量；二是在SPTM中增加了基于Transformer特征表征的预训练语言模型，以进一步提升下游任务的效果。知识库半自动挖掘模块知识库半自动挖掘流程，是在qa match自动问答流程（参考qa match 基于一层知识库结构的自动问答[1]）的基础上构建的一套知识库半自动挖掘方案，可以帮助提升知识库规模与知识库质量，一方面增强线上匹配的能力，另一方面提高离线模型训练数据的质量，进而提升模型性能。知识库半自动挖掘流程可用于冷启动和问答匹配上线后的问题挖掘两个场景，两个场景依赖的核心算法都是基于SPTM预训练模型[2]的深度聚类DEC挖掘算法（也可以使用其他预训练模型的结果），区别在于：在冷启动时的问题挖掘场景下，知识库没有标准问题，需要通过机器挖掘结合人工标注的方式提供初始标准问题；而在问答匹配上线后的问题挖掘场景下，知识库已经有标准问题，可以使用自定义聚类中心，来挖掘扩展问法（utterance）。基于SPTM的DEC挖掘算法DEC（Deep Embedding Cluster）算法是ICML2016上发表的关于无监督聚类的文章[3]，传统聚类的方法例如K-means、 GMM、谱聚类已经在工业界有广泛的使用，但是这些算法里少有考虑到学习适合聚类的特征表征，DEC算法正是将特征的表征与聚类中心分配一同学习。DEC详细算法原理参考深度文本表征与深度文本聚类在小样本场景中的探索与实践文章中关于DEC算法描述的部分。考虑到静态聚类方法表征能力不足的问题，我们在2019年9月在问答场景实现了DEC算法应用于知识库的挖掘，并结合场景特点对DEC算法做出了两点改进：1、使用SPTM替换原始论文中的auto-encoder表征，进一步增强在问答场景下的表征能力。2、传入自定义聚类中心替代K-means生成的聚类中心，给出初始监督信号，消除聚类中心的随机性。第一个场景：冷启动时的问题挖掘冷启动时的问题挖掘场景具体指在新业务接入自动问答时，存在一定量的历史无监督数据，但是没有形成知识，此时需要通过挖掘总结出标准问和扩展问。冷启动问题挖掘流程图如下：

第二个场景：问答匹配上线后的问题挖掘问答匹配上线后的问题挖掘场景具体指问答匹配模型已经上线后，知识库中有了一定数量的标准问题和扩展问题，但是由于线上数据是动态变化的，所以存在模型覆盖不到的标准问题和扩展问法，这时需要及时地将它们挖掘出来，增加线上样本覆盖度，从而提高模型准召。问答匹配上线后问题挖掘流程图如下：

效果示例聚类算法的评估一般分为外部评估和内部评估，外部评估是指数据集有ground truth label 时通过有监督标签进行评估；内部评估是不借助外部可信标签，单纯从无监督数据集内部评估，内部评估的原则是类内距小，类间距大，这里我们使用轮廓系数（silhouette）来评估，详细数据如下表格。具体使用方法请参见 dec_mining/README 文档中的运行示例。数据集模型SilhourtteRuntimeInference Time1wDEC0.796230min52s10wDEC0.93023h5min5min55s100wDEC0.84911h30min15min28sSPTM增加基于共享参数的Transformer特征表征为了增加语言模型的泛化能力，我们对SPTM进行了改进，增加了基于Transformer的特征表征，模型原理如下：

基于Transformer的SPTM与基于Bi-LSTM的SPTM不同，该网络的输入由两部分构成：基于Word Aware的Token Embedding特征和基于Position Aware的Position Embedding特征。其中Word Aware是为了学习基于词共现的语义特征，Position Aware是为了学习句子中词之间的序列特征。经过输入层后，为了保证模型的表达能力，同时减少参数量，我们引入了共享参数的Transformer Encoder结构作为模型主体。该网络通过Multi-Head Attention扩展了模型专注于不同位置的能力，增加了Attention层的表征空间。通过Attention层和FFN层的残差连接，加深了网络深度，一定程度解决了深度网络的退化问题。预训练模型耗时示例如下表所示：

未来规划未来我们会继续优化扩展qa_match的能力，计划开源如下：1 目前tensorflow已发版到2.4版本，后续我们会根据需求发布tensorflow2.X版本或pytorch版本的qa_match。如何贡献&问题反馈我们诚挚地希望开发者继续向我们提出宝贵的意见。您可以挑选以下方式向我们反馈建议和问题：（1）在 https://github.com/wuba/qa_match.git提交 PR 或者 Issue（2）邮件发送至 ailab-opensource@58.com参考文献：[1] https://github.com/wuba/qa_match#基于一层结构知识库的自动问答[2] https://github.com/wuba/qa_match/tree/v1.1#基于sptm模型的自动问答[3] Xie, Junyuan, Ross Girshick, and Ali Farhadi. 'Unsupervised deep embedding for clustering analysis.' International conference on machine learning. 2016.作者简介吕媛媛，58同城 AI Lab 资深算法工程师，主要负责58智能问答相关算法研发工作。王勇，58同城 AI Lab 算法架构师，主要负责58智能问答相关算法研发工作。贺睿，58同城 AI Lab 资深算法工程师，主要负责58智能问答相关算法研发工作。

基于MRI医学图像的脑肿瘤分级

本文对近年来脑磁共振(MR)图像分割和肿瘤分级分类技术进行概述.文章强调了早期发现脑肿瘤及其分级的必要性.在磁共振成像(MRI)中,肿瘤可能看起来很清楚,但医生需要对肿瘤区域进行量化,以便进一步治疗. ...
ACL 2019 | 利用不完全知识库结合文本阅读提高问答系统效果

论文题目:Improving Question Answering over Incomplete KBs with Knowledge-Aware Reader 论文作者:WenhanXiong,M ...
应用空间统计学分析空间表达数据

男, 一个长大了才会遇到的帅哥, 稳健,潇洒,大方,靠谱. 一段生信缘,一棵技能树. 生信技能树核心成员,单细胞天地特约撰稿人,简书创作者,单细胞数据科学家. 空间信息在空间转录组中的运用 Giott ...
知识图谱应用研究

同济大学 zhou xiaohan对知识图谱的应用情况进行了系统性研究,发表在CCEAI2020的会议上,这里是个简单的翻译. 摘要: 知识图谱,将信息表示为语义图,已经引起了工业界和学术界的广泛关注 ...
机器学习专题

随着人工智能的火热,机器学习和深度学习技术再一次进入了大众的视野.python的scikit-learn模块专注于机器学习领域,提供了数据集构建,数据预处理,模型算法,效果评估等各个环节的接口,是入门 ...
数据挖掘主要方法有哪些？

一般来说无论是数据分析还是数据挖掘,可用的方法有很多,而数据分析师常用的数据挖掘方法包括:预测模型方法.数据分割方法.关联分析法和偏离分析法.接下来小编带你深入了解下这些数据挖掘方法: 预测模型方法 ...
苹果ios14.4正式版更新，新增4大功能，还没升级的再等等

苹果ios 14.4版本陆陆续续推出了不少测试版本的更新,这周也终于迎来了正式版. 使用下来,发现ios 14.4版本更新了4个功能,还有一个问题存在,还没升级的可以再等等. 1.音乐智能接力播放更 ...
QQ更新！新增3个新功能，第一个又强又暴力

还贴心地附上内测申请链接,在此对这位热心的小伙伴表示谢谢. 其实早在内测推送的当天,哔哥已经申请参加内测了. 微信团队下午就发来了TestFlight(苹果App内测平台)的下载链接. 奈何老年人手速 ...
2020版《中国肠易激综合征专家共识》更新！新增5条诊治关键

时隔五年,大家期待已久的<2020年中国肠易激综合征专家共识意见>终于新鲜出炉了! 学组专家经过多轮讨论及投票,结合中国目前IBS疾病的患病情况和治疗现状,在前一版的基础上做了更新以及新增 ...
手机QQ最新版更新，新增5大功能，最后一个很实用

近日手机QQ的安卓版和iOS版双双迎来更新,最新版本为V8.2.6,新增5大功能,最后一个很实用.按照QQ官方给出的新版特性,更新的主要内容有群聊新增互动标识.语音通话支持文字互动.全新语音表情包.图 ...
Studio One5序列号更新及新增功能介绍

Studio One5是一款强大的编曲和音频后期制作软件,它为用户提供了"工作室"概念的服务,从乐曲制作.音频录制,到至关重要的后期混音制作,都可以在这里完成. Studio On ...
《明日方舟》4月1日更新：新增干员“海猫”

文丨陆叁伍排版丨Arc翼执泠 4月1日,有媒体发现,由玩家自行构筑的明日方舟Wiki百科--PRTS中更新了制作人海猫络合物的干员档案.据"海猫"词条的版本历史显示,它是今天刚刚 ...
unc0ver更新，新增支持iOS13.0-13.3系统的A9-A11设备

在最新的 unc0ver 4.2.0 版本中,开发者 Pwn20wnd 已经将 A9-A11 设备加入了支持的列表,这意味着运行 iOS 13.0-13.3 的 A9-A13 设备目前都可以越狱. 支 ...
Facebook 推 VR 设备 Oculus Quest 系统更新：新增多任务处理等

IT之家 6 月 21 日消息据外媒 The Verge 报道,Facebook 目前正在向其 VR 虚拟现实头戴设备 Oculus Quest 和 Quest 2 推出 V30 版本更新.此版本新 ...
微信 3.3.0 for windows正式版更新，新增“摸鱼”神器！

微信 3.3.0 for windows正式版更新，新增“摸鱼”神器！

开源｜qa_match更新啦——新增知识库半自动挖掘模块

相关推荐