搜索系统中的纠错问题

2024-06-18 17:06:50

纠错是搜索引擎中一个非常有特色的模块，对用户输入的内容进行改写从而让用户得到正确的结果，有的时候也会带有一些惊喜度，所以纠错技术是一个搜索体验的加分项，近期突然对这块有兴趣，所以就了解了一下。（学习周报本周停，学习内容都在这了）

纠错技术的背景

人非圣贤，孰能无过，别说是搜索的时候，哪怕是我们打字、写作文的时候，都会出现错字，一般的错别字不会对最终目标带来很大影响，且出现频率很低，不拘小节的我们常常会忽略这样的小问题，但是，在搜索场景下，错别字意味着可能就搜不到内容了，对于用户而言，就是需求无法满足，造成了很差的体验，因此在搜索场景中，就很有必要去纠错。

错误是如何产生的

要去纠错，先要去看看错误是怎么产生的。

首先是误操作类型，这种类型可以从输入法角度去看。

拼音输入法。常会出现同音异形字，例如周节伦等。
笔画输入法或者手写输入法。常会出现形似字，例如博和傅。

然后是用户的主观理解，有的时候用户只是听说过而没见过，或者就是理解问题，导致主动地出入了错误的内容，例如飞扬拔（跋）扈，然后有一些名词，例如小说、音乐、电影等，写错字是非常容易的。

当然，也有用户图方便，或者输入问题，导致直接输入拼音或者拼音前缀，或者就是因为记忆的原因，输错了。

当然这里也要补充一些常见的问题举例：

谐音。深圳-森圳。
别字。师傅-师博。
中英文。Taylor swift-泰勒斯威夫特。
近义词。爱情呼叫转移-恋爱呼叫转移。
形近字。高粱-高梁。
全拼。深圳-shenzhen。
拼音前缀。北京-bj。
内容不完整。唐人街探案-唐人。

总之错误千奇百怪。理解错误产生的机理，我们就可以尝试去处理这些问题。

词典与规则方法

词典是搜索系统中非常常用的方法，词典具有高速、高准的优点，如果词典的覆盖度高，甚至可以达到高召回的效果，因此词典基本是搜索系统中的核心存在，我们不应该小看他，而是尽可能挖掘他的潜能。

词典方法，说白了就是对query找对应词典里有没有，如果有就改写过去，这种方法的优点在于速度快，而难点在于怎么去挖掘这个词典。

至于怎么挖掘这个词典，方法有很多底层数据库抽取，用户日志等，都有很多构建起这样的词典，能够大大降低耗时，复杂度至于query和单词长度有关。那么一般都有什么词典呢，我们来一个一个看看。

拼音和拼音前缀词典。先将query或者单词转为拼音，然后通过通过拼音召回对应的结果，完成纠错。
别字词典，记录一些常见的错别字，例如百度的形近词表就很不错（就在百度百科里面）。
其他改写字典。一般基于具体业务来改写，例如用户输入唐人街探案，其实唐人街探案有3部，我们应该给那个，需要基于热度等方面去改写到具体最合适的一部。

词典只是能够匹配到合适的结果，但是我们需要知道的是，改写的内容不能和原来差距太远，否则会出现很多意料之外的结果，因此改写不能大改，只能改微调，否则出来的结果会让用户感到很懵逼。控制的方法主要是编辑距离。

所谓的编辑距离，就是改写前到改写后，需要经过的操作多少，说人话就是两句话的不同点有几个，精确到字级别。深圳-森圳的编辑距离就是1。通过编辑距离的约束，一般能够让两者的差距不是很大。

我知道很多人热衷于用语义相似度之类的操作，不管别的什么方法，编辑距离一定要约束，用户强调的是直观感受，语义相近与否不是他们第一个关心的，只有当字相近的结果不好的时候考虑语义相近才是用户的实际反映，且错别字带来的语义变化非常大，此处用予以相似度其实不完全合适。

模型类方法

说是词典和规则好处很多，但是在泛化能力上，模型还是很强的。那么在模型视角下，其实会分为下面3个步骤进行分析处理。

错误诊断。即判断有没有错。
修正召回。召回可能的修改项。保证召回率
修正确认。判断最终需要的修改项。保证准确率。

当然，如果模型足够强力，召回和确认两个步骤也可以合并，具体看准招和耗时了。

其实这个思路最广泛的应用就是推荐系统，召回和排序分离，这个我在大概是去年很早的一篇文章里谈到在这个，这是推荐系统里面非常重要的思想，这个思想其实在很多地方可以迁移

至于模型层面，有下面的思路。

kenlm统计语言工具。运用统计学方法进行语言建模从而检测和修正错误。
rnn_attention。RNN加上attention还是一个非常有意思的方法。
rnn_crf模型：说起来你们可能不信，这个思路来自阿里2016参赛中文语法纠错比赛的第一名的方法。
seq2seq_attention模型：比RNN强一些，长文本效果不错，但是容易过拟合。
transformer：线性优秀的序列表征模型，大家懂的。
bert：中文微调，最妙的是mask可协助纠正错别字。
conv_seq2seq模型：基于Facebook出品的fairseq，在NLPCC-2018的中文语法纠错比赛中，是唯一使用单模型并取得第三名的成绩。

小结

怎么说呢，目前我还只是在探索，深度不是很够，后面有所补充，再和大家交流，参考文献放这里吧：

中文文本纠错算法--错别字纠正的二三事：https://zhuanlan.zhihu.com/p/40806718
pycorrector：https://github.com/shibing624/pycorrector
中文文本纠错算法走到多远了？：https://blog.csdn.net/sinat_26917383/article/details/86737361

重磅|一文彻底读懂智能对话系统！当前研究综述和未来趋势

选择"星标"公众号重磅干货,第一时间送达! 笔者在最近的研究中发现了一篇非常好的有关对话系统的论文,<A Survey on Dialogue Systems:Recent ...
硬核 | TKDE2020-时空图数据挖掘深度学习技术全面综述

点击上方蓝字关注我们 Deep learning for Spatio-Temporal Data Mining: A Survey Senzhang Wang, Nanjing Universit ...
【学术论文】基于Transformer模型的中文文本自动校对研究

摘要 : 提出将Transformer模型应用于中文文本自动校对领域.Transformer模型与传统的基于概率.统计.规则或引入BiLSTM的Seq2Seq模型不同,该深度学习模型通过对Se ...
【NLP-ChatBot】能闲聊的端到端生成型聊天机器人背后都有哪些技术？

我们之前介绍过,按照应用场景的不同,聊天机器人可以分为问答系统,对话系统以及闲聊机器人三类.今天我们就来详细讲一讲其中的生成型闲聊机器人. 作者&编辑 | 小Dream哥 1 什么是生成式聊天 ...
拼写、常识、语法、推理错误都能纠正，云从提出基于BART的语义纠错方法

机器之心发布机器之心编辑部云从科技语音组提出了一种基于 BART 预训练模型的语义纠错技术方案,它不仅可以对 ASR 数据中常见的拼写错误进行纠正,还可以对一些常识错误.语法错误,甚至一些需要推理 ...
经常写错别字的学生，只要掌握3个练习方法，就能利用暑假专项纠错，提高书写准确率……

小学阶段,语文学习过程中,有的学生经常写错别字.这是普遍现象,但也是需要注意的学习问题,尽管暑假作业再三减量,但是基础的生字词如果不把握熟练的话,语文学习是很难有量的积累.生字词是最基础的知识点,平时 ...
搜索系统中的召回

对召回的理解重申,此时召回的目标在于从海量数据中找到可能可以出的结果,这种情况下,要求的是能找到的东西能尽可能找到,因为召回找不到的东西,是不可能在后面的结果里面出现了. 但值得强调的是,很多系统, ...
空气源热泵采暖系统中到底要不要加缓冲水箱

缓冲水箱是系统的必需品,不能缺少,因为它对整个系统的作用是至关重要的,下面重点说一下: 第一个,如果不使用缓冲水箱,由于环路中的循环水量有限,那么就会引起主机在很短的时间内达到设计温度,主机就会停止工 ...
导弹防御系统中红外光电识别技术分析

目标识别问题是弹道导弹防御系统中的核心难题之一,针对弹道导弹突防中威胁目标群飞行各阶段呈现出的不同红外特性,介绍了天基红外系统和拦截弹的最新研究进展及其红外目标识别技术手段.在温度测量.测辐射强度.红 ...
当你掏出手机那一刻，你就可以被人肉搜索！揭秘人肉搜索（中）

欢迎大家来到校尉说!我是发丘校尉发丘校尉前言:这两天我通过对上一篇文章"仅仅通过一个网名就找到了一个人所有的隐私信息!人肉搜索(上)"评论区的分析可以看出:有许多朋友对自己的网 ...
苹果iOS 14系统中，可能被你忽视的6个小技巧，真的很实用

相信很多人都将手中iPhone,升级到了iOS 14版本,对比上一个版本,在功能和使用感受上,都有了很大提升. 当然也有很多朋友用的是老机型,不敢乱升级.我给的建议是,iPhone X以上机型还是值得 ...
中小学的正高级教师是什么概念？相当于公务员系统中的正县级吗？

前几天听到一个说法,讲"中小学的正高级教师待遇与正处级公务员相当".这种说法究竟有没有道理?搞清楚这个问题就要先弄明白中小学的正高级教师是一个什么样的概念. 国内的中小学教师职称制 ...
简述溢流阀在系统中的应用

液压面授课时间地点: 5月18-22日上海(液压设计) 5月25-28日成都 6月22-25日上海(液压系统比例/伺服控制技术与智能原件应用) 微信:18001326538. 来源:腾讯视频.上 ...
[视频]C2000 DSP 在电力电子系统中的应用

[视频]C2000 DSP 在电力电子系统中的应用
汽机系统中均压箱原理及其作用

一.均压箱及其均压箱的作用 1.均压箱实际上是一个由一个管理制定的箱体一样的压力容器,通常由进汽及出汽管理相互连接,常用于小型汽轮机组汽轮机轴封系统.均压箱就是均衡压力将前轴封漏出的蒸汽导入后轴封,既 ...

搜索系统中的纠错问题

纠错技术的背景

错误是如何产生的

词典与规则方法

模型类方法

小结

相关推荐