搜索引擎是如何进行页面分析的

在页面收录过程中,搜索引擎已经抓取并存储了网站上的URL,接下来,搜索引擎会对所抓取的页面内容进行分析,如图2-21所示。

图2-21 页面分析流程

在这个过程中,我们看到了两个“网页”。第一个“网页”指的是刚才搜索引擎已经收录的URL资源(即搜索蜘蛛抓取的原始页面),第二个“网页”指的是搜索引擎对关键词进行重组之后所对应的网页。搜索引擎对页面的分析由该原始页面正式开始。

第一步:提取正文信息

这里所提取的正文信息除了包含页面内容外,还包含页面的头部标签信息(Title、Keywords、Description)等。

第二步:分词/拆词

提取完信息后,搜索引擎按照机械分词法和统计分词法将正文信息切分为若干关键词,这些关键词组成了关键词列表。我们大家在搜索引擎里查找内容时往往会输入关键词查找,这里搜索引擎的工作就是按照一定的规则将内容划分为词,以便以后大家搜索。

第三步:建立关键字索引

上一步搜索引擎已经将正文内容切分为了若干关键词,这些关键词出现的位置、频率等是不同的,在这一步,搜索引擎会将关键词逐一记录、归类、建立索引,比如关键词出现的频率(建议2%~8%是比较合理的)。

第四步:关键词重组

搜索引擎为页面关键词建立索引后,再将这些关键词重新组合,以关键词的形式重新组建一个新的网页,这个网页上的关键词是唯一的,全部不重复。比如,我们刚才在第三步时,A关键词出现了三次,在第四步,我们只记录A关键词1次,在重组网页后,A关键词再无重复。

至此,搜索引擎对页面的分析完成,在这一环节,搜索引擎完成了对页面正文信息的提取、关键词的切分、关键词的索引以及搜索引擎角度上的网页重组。

(0)

相关推荐