地理文本处理技术在高德的演进(上)

2024-05-10 10:14:23

一、背景

地图App的功能可以简单概括为定位，搜索，导航三部分，分别解决在哪里，去哪里，和怎么去的问题。高德地图的搜索场景下，输入的是，地理相关的检索query，用户位置，App图面等信息，输出的是，用户想要的POI。如何能够更加精准地找到用户想要的POI，提高满意度，是评价搜索效果的最关键指标。

一个搜索引擎通常可以拆分成query分析、召回、排序三个部分，query分析主要是尝试理解query表达的含义，为召回和排序给予指导。

地图搜索的query分析不仅包括通用搜索下的分词，成分分析，同义词，纠错等通用NLP技术，还包括城市分析，wherewhat分析，路径规划分析等特定的意图理解方式。

常见的一些地图场景下的query意图表达如下：

query分析是搜索引擎中策略密集的场景，通常会应用NLP领域的各种技术。地图场景下的query分析，只需要处理地理相关的文本，多样性不如网页搜索，看起来会简单一些。但是，地理文本通常比较短，并且用户大部分的需求是唯一少量结果，要求精准度非常高，如何能够做好地图场景下的文本分析，并提升搜索结果的质量，是充满挑战的。

二、整体技术架构

搜索架构

类似于通用检索的架构，地图的检索架构包括query分析，召回，排序三个主要部分。先验的，用户的输入信息可以理解为多种意图的表达，同时下发请求尝试获取检索结果。后验的，拿到每种意图的检索结果时，进行综合判断，选择效果最好的那个。

query分析流程

具体的意图理解可分为基础query分析和应用query分析两部分，基础query分析主要是使用一些通用的NLP技术对query进行理解，包括分析，成分分析，省略，同义词，纠错等。应用query分析主要是针对地图场景里的特定问题，包括分析用户目标城市，是否是where+what表达，是否是从A到B的路径规划需求表达等。

整体技术演进

在地里文本处理上整体的技术演进经历了规则为主，到逐步引入机器学习，到机器学习全面应用的过程。由于搜索模块是一个高并发的线上服务，对于深度模型的引入有比较苛刻的条件，但随着性能问题逐渐被解决，我们从各个子方向逐步引入深度学习的技术，进行新一轮的效果提升。

NLP领域技术在最近几年取得了日新月异的发展，bert，XLNet等模型相继霸榜，我们逐步统一化各个query分析子任务，使用统一的向量表示对进行用户需求进行表达，同时进行seq2seq的多任务学习，在效果进一步提升的基础上，也能够保证系统不会过于臃肿。

本文就高德地图搜索的地理文本处理，介绍相关的技术在过去几年的演进。我们将选取一些点分上下两篇进行介绍，上篇主要介绍搜索引擎中一些通用的query分析技术，包括纠错，改写和省略。下篇着重介绍地图场景中特有query分析技术，包括城市分析，wherewhat分析，路径规划。

三、通用query分析技术演进

3.1 纠错

在搜索引擎中，用户输入的检索词（query）经常会出现拼写错误。如果直接对错误的query进行检索，往往不会得到用户想要的结果。因此不管是通用搜索引擎还是垂直搜索引擎，都会对用户的query进行纠错，最大概率获得用户想搜的query。

在目前的地图搜索中，约有6%-10%的用户请求会输入错误，所以query纠错在地图搜索中是一个很重要的模块，能够极大的提升用户搜索体验。

在搜索引擎中，低频和中长尾问题往往比较难解决，也是纠错模块面临的主要问题。另外，地图搜索和通用搜索，存在一个明显的差异，地图搜索query结构化比较突出，query中的片段往往包含一定的位置信息，如何利用好query中的结构化信息，更好地识别用户意图，是地图纠错独有的挑战。

常见错误分类

(1) 拼音相同或者相近，例如: 盘桥物流园-潘桥物流园

(2) 字形相近，例如: 河北冒黎-河北昌黎

(3) 多字或者漏字，例如: 泉州州顶街-泉州顶街

纠错现状

原始纠错模块包括多种召回方式，如：

拼音纠错：主要解决短query的拼音纠错问题，拼音完全相同或者模糊音作为纠错候选。

拼写纠错：也叫形近字纠错，通过遍历替换形近字，用query热度过滤，加入候选。

组合纠错：通过翻译模型进行纠错替换，资源主要是通过query对齐挖掘的各种替换资源。

组合纠错翻译模型计算公式：

其中p(f)是语言模型，p(f|e)是替换模型。

问题1：召回方式存在缺陷。目前query纠错模块主要召回策略包括拼音召回、形近字召回，以及替换资源召回。对于低频case，解决能力有限。

问题2：排序方式不合理。纠错按照召回方式分为几个独立的模块，分别完成相应的召回和排序，不合理。

技术改造

改造1：基于空间关系的实体纠错

原始的纠错主要是基于用户session挖掘片段替换资源，所以对于低频问题解决能力有限。但是长尾问题往往集中在低频，所以低频问题是当前的痛点。

地图搜索与通用搜索引擎有个很大的区别在于，地图搜索query比较结构化，例如北京市朝阳区阜荣街10号首开广场。我们可以对query进行结构化切分（也就是地图中成分分析的工作），得到这样一种带有类别的结构化描述，北京市【城市】朝阳区【区县】阜荣街【道路】10号【门址后缀】首开广场【通用实体】。

同时，我们拥有权威的地理知识数据，利用权威化的地理实体库进行前缀树+后缀树的索引建库，提取疑似纠错的部分在索引库中进行拉链召回，同时利用实体库中的逻辑隶属关系对纠错结果进行过滤。实践表明，这种方式对低频的区划或者实体的错误有着明显的作用。

基于字根的字形相似度计算

上文提到的排序策略里面通过字形的编辑距离作为排序的重要特征，这里我们开发了一个基于字根的字形相似度计算策略，对于编辑距离的计算更为细化和准确。汉字信息有汉字的字根拆分词表和汉字的笔画数。

将一个汉字拆分成多个字根，寻找两个字的公共字根，根据公共字根笔画数来计算连个字的相似度。

改造2：排序策略重构

原始的策略召回和排序策略耦合，导致不同的召回链路，存在顾此失彼的情况。为了能够充分发挥各种召回方式的优势，急需要对召回和排序进行解耦并进行全局排序优化。为此我们增加了排序模块，将流程分为召回和排序两阶段。

模型选择

对于这个排序问题，这里我们参考业界的实践，使用了基于pair-wise的gbrank进行模型训练。

样本建设

通过线上输出结合人工review的方式构造样本。

特征建设

(1) 语义特征。如统计语言模型。

(2) 热度特征。pv，点击等。

(3) 基础特征。编辑距离，切词和成分特征，累积分布特征等。

这里解决了纠错模块两个痛点问题，一个是在地图场景下的大部分低频纠错问题。另一个是重构了模块流程，将召回和排序解耦，充分发挥各个召回链路的作用，召回方式更新后只需要重训排序模型即可，使得模块更加合理，为后面的深度模型升级打下良好的基础。后面在这个框架下，我们通过深度模型进行seq2seq的纠错召回，取得了进一步的收益。

3.2 改写

纠错作为query变换的一种方式的召回策略存在诸多限制，对于一些非典型的query变换表达，存在策略的空白。比如query=永城市新农合办，目标POI是永城市新农合服务大厅。用户的低频query，往往得不到较好搜索效果，但其实用户描述的语义与主poi的高频query是相似的。

这里我们提出一种query改写的思路，可以将低频query改写成语义相似的高频query，以更好地满足用户需求多样性的表达。

这是一个从无到有的实现。用户表达的query是多样的，使用规则表达显然是难以穷尽的，直观的思路是通过向量的方式召回，但是向量召回的方式很可能出现泛化过多，不适应地图场景的检索的问题，这些都是要在实践过程中需要考虑的问题。

方案

整体看，方案包括召回，排序，过滤，三个阶段。

召回阶段

我们调研了句子向量表示的几种方法，选择了算法简单，效果和性能可以和CNN，RNN媲美的SIF（Smooth Inverse Frequency）。向量召回可以使用开源的Faiss向量搜索引擎，这里我们使用了阿里内部的性能更好的的向量检索引擎。

排序阶段

样本构建

原query与高频query候选集合，计算语义相似度，选取语义相似度的TOPK，人工标注的训练样本。

特征建设

1.基础文本特征

2.编辑距离

3.组合特征

模型选择

使用xgboost进行分数回归

过滤阶段

通过向量召回的query过度泛化非常严重，为了能够在地图场景下进行应用，增加了对齐模型。使用了两种统计对齐模型giza和fastalign，实验证明二者效果几乎一致，但fastalign在性能上好于giza，所以选择fastalign。

通过对齐概率和非对齐概率，对召回的结果进行进一步过滤，得到精度比较高的结果。

query改写填补了原始query分析模块中一些低频表达无法满足的空白，区别于同义词或者纠错的显式query变换表达，句子的向量表示是相似query的一种隐式的表达，有其相应的优势。

向量表示和召回也是深度学习模型逐步开始应用的尝试。同义词，改写，纠错，作为地图中query变换主要的三种方式，以往在地图模块里比较分散，各司其职，也会有互相重叠的部分。在后续的迭代升级中，我们引入了统一的query变换模型进行改造，在取得收益的同时，也摆脱掉了过去很多规则以及模型耦合造成的历史包袱。

3.2 省略

在地图搜索场景里，有很多query包含无效词，如果用全部query尝试去召回很可能不能召回有效结果。如厦门市搜'湖里区县后高新技术园新捷创运营中心11楼1101室县后brt站'。这就需要一种检索意图，在不明显转义下，使用核心term进行召回目标poi候选集合，当搜索结果无果或者召回较差时起到补充召回的作用。

在省略判断的过程中存在先验后验平衡的问题。省略意图是一个先验的判断，但是期望的结果是能够进行POI有效召回，和POI的召回字段的现状密切相关。如何能够在策略设计的过程中保持先验的一致性，同时能够在后验POI中拿到相对好的效果，是做好省略模块比较困难的地方。

原始的省略模块主要是基于规则进行的，规则依赖的主要特征是上游的成分分析特征。由于基于规则拟合，模型效果存在比较大的优化空间。另外，由于强依赖成分分析，模型的鲁棒性并不好。

技术改造

省略模块的改造主要完成了规则到crf模型的升级，其中也离线应用了深度学习模型辅助样本生成。

模型选择

识别出来query哪些部分是核心哪些部分是可以省略的，是一个序列标注问题。在浅层模型的选型中，显而易见地，我们使用了crf模型。

特征建设

term特征。使用了赋权特征，词性，先验词典特征等。

成分特征。仍然使用成分分析的特征。

统计特征。统计片段的左右边界熵，城市分布熵等，通过分箱进行离散化。

样本建设

项目一期我们使用了使用线上策略粗标，外包细标的方式，构造了万级的样本供crf模型训练。

但是省略query的多样性很高，使用万级的样本是不够的，在线上模型无法快速应用深度模型的情况下，我们使用了boostraping的方式，借助深度模型的泛化能力，离线构造了大量样本。

使用了这种方式，样本从万级很容易扩充到百万级，我们仍然使用crf模型进行训练和线上应用。

在省略模块，我们完成了规则到机器学习的升级，引入了成分以外的其他特征，提升了模型的鲁棒性。同时并且利用离线深度学习的方式进行样本构造的循环，提升了样本的多样性，使得模型能够更加接近crf的天花板。

在后续深度模型的建模中，我们逐步摆脱了对成分分析特征的依赖，对query到命中poi核心直接进行建模，构建大量样本，取得了进一步的收益。

电商搜索：召回篇

文章作者:阿里CBU技术部内容来源:<阿里巴巴B2B电商算法实战> 导读:搜索引擎已经广泛应用于电商网站,我们为什么需要搜索引擎?搜索引擎又是如何工作的呢?电商网站中存在着上亿的商品,想 ...
【NLP-语义匹配】详解深度语义匹配模型DSSM

所谓语义匹配,就是在语义上衡量文本的相似度,在产业界有很多的应用需求.例如,在FAQ场景中需要计算用户输入与标问之间的相似度来寻找合适的答案.本文介绍一种经典的语义匹配技术,DSSM,主要用于语料的召 ...
ICCV 2021 | Transformer再助力！用CWT进行小样本语义分割

作者 | 卢治合编辑 | 王晔本文转载自:AI科技评论本文是对发表于计算机视觉领域的顶级会议 ICCV 2021的论文"Simpler is Better: Few-shot Sem ...
负样本的艺术，再读Facebook双塔向量召回算法

炼丹笔记干货作者:九羽 Facebook这篇Embedding召回的论文,之前已经有几篇文章涉及过了,分别是<Embeding-based Retrieval in FaceBook Sear ...
EBR: Facebook在向量检索上的探索

Overall 开始之前,先简单了解下Facebook的搜索业务,如下有三种,用过社交网络的大概都能理解. People Search: 找人 Groups Search: 找组 Events Sea ...
任务方案思考：句子相似度和匹配

来自:CS的陋室 0 小系列初衷自己接触的项目大都是初创,没开始多久的项目,从0到1的不少,2020年快结束,感觉这个具有一定个人特色的技术经验可以在和大家分享一下. 计划篇章: (已完成)文本分类 ...
阿里飞猪搜索技术的应用与创新

编辑整理:杜正海.Hoh 出品平台:DataFunTalk 导读:旅行场景的搜索起初是为了满足用户某种特定的强需求而出现的,如机票.火车票.酒店等搜索.这些需求有着各自不同的特点,传统的旅行搜索往往会 ...
归纳记忆：让机器像人一样从小样本中学习

作者|耿瑞莹,黎槟华,武玉川,李永彬单位|阿里巴巴达摩院Conversational AI 团队近年来,对话式 AI(Conversational AI)无论在学术界还是在工业界都在迅猛发展,背后 ...
KDD'21 | 揭秘Facebook升级版语义搜索技术

NewBeeNLP 永远有料,永远有趣 215篇原创内容公众号 KDD'21 | 揭秘Facebook升级版语义搜索技术 KDD'21 | 淘宝搜索中语义向量检索技术 KDD'20| Faceboo ...
地理文本处理技术在高德的演进(下)

在[上篇]里,我们介绍了地理文本处理技术在高德的整体演进,选取了几个通用query分析的点进行了介绍.下篇中,我们会选取几个地图搜索文本处理中特有的文本分析技术做出分析,包括城市分析,wherewha ...
地理科普 | 冻干技术成为农民经济收入新的增长点？

[导读:冻干水果已被公认为高档脱水水果.近年来,冻干水果在欧.美.日本等国家和地区的消费量迅速增加,在国内市场也展现广阔前景.] 冻干水果已被公认为高档脱水水果.近年来,冻干水果在欧.美.日本等国家和 ...
【OCR技术系列之五】自然场景文本检测技术综述（CTPN, SegLink, EAST）

文字识别分为两个具体步骤:文字的检测和文字的识别,两者缺一不可,尤其是文字检测,是识别的前提条件,若文字都找不到,那何谈文字识别.今天我们首先来谈一下当今流行的文字检测技术有哪些. 文本检测不是一件简 ...
【追一科技】NLG技术：文本生成技术多样化应用的探索之路

来自:追一科技自然语言处理(NLP)技术通常可以分为两大类,分别是自然语言理解(NLU)和自然语言生成(NLG).其中NLU主要指常见的文本分类.序列标注.信息抽取等任务,而NLG则包括机器翻译.对 ...
NLG技术：文本生成技术多样化应用的探索之路

自然语言处理(NLP)技术通常可以分为两大类,分别是自然语言理解(NLU)和自然语言生成(NLG).其中NLU主要指常见的文本分类.序列标注.信息抽取等任务,而NLG则包括机器翻译.对话系统.自动摘要 ...
【微专题】高考地理农业覆盖技术

农业覆盖技术要点精讲在农业生产中,常会用到塑料薄膜.地膜覆盖栽培又叫护根栽培,就是将一层薄膜铺设在地表以促使作物生长的一项现代农业技术,能起到保温.保墒.防止土壤板结和肥料流失.灭草.防虫等综合作用, ...
UI自动化技术在高德的实践

一.背景汽车导航作为ToB业务,需要满足不同汽车厂商在功能和风格上体现各自特色的需求.针对这种情况,传统的UI开发方式,基本上是一对一的特别定制.但是这种方式动辄就要500~600人日的工作量投入, ...
自动驾驶中高精地图的大规模生产：视觉惯导技术在高德的应用

导读:导航.驾驶辅助.自动驾驶等技术的不断发展对地图的精细程度提出了更高的要求.常规的道路级地图对于智能交通系统存在很多不足,针对自动驾驶应用的需求,我们提出了利用视觉惯导技术制作高精地图的方法. 本 ...
高中地理万能模板，你一定用得上！

俗话说:得地理者,得文综天下! 地理是文综中对思维要求最高的一科,算得上文综里的理科,一定要好好把握,不能失分. ........................................... ...

地理文本处理技术在高德的演进(上)

相关推荐