如何分辨百度搜索引擎爬行蜘蛛IP的真假

作为一名SEOer不仅要知道百度搜素引擎有哪些爬行的爬行IP,而且还要学会分辨真假蜘蛛,很多网站和第三方工具会冒充百度的IP地址进行爬行网站,如果只是从IP来分析的话,大多数SEOer会误以为是百度来爬行了,其实并不是百度来了。

在讨论百度蜘蛛话题的时候被讨论最多的就是蜘蛛来的太频繁或者是蜘蛛很久都没来了,蜘蛛抓取太频繁的话会造成服务器爆炸不稳定,所以很多SEOer都想把那些不是真正的蜘蛛IP加入黑名单进行屏蔽掉,但是奈何百度官方平没有公布蜘蛛的IP地址,根据官方的说法是IP不固定,因为采用的是动态IP地址库,所以每次访问的IP都不是同一个(博主之前发布的百度蜘蛛IP大全是其他站长进行反复测试得出来的结果,并未官方发布的IP地址)。

如果蜘蛛爬行抓取的周期慢,或者长期不来的话又会对网站的收录排名产生影响,所以很多SEOer在屏蔽那些假蜘蛛IP的时候经常会误把真蜘蛛当成假蜘蛛给屏蔽掉,所以就造成了蜘蛛无法抓取的原因,下面博主就给大家介绍几种分辨百度真假蜘蛛IP的方法。

查看UA信息

查看UA信息,UA信息是蜘蛛爬行后留下的签名信息,百度虽然没有公布过蜘蛛的IP地址,但是公布过蜘蛛的UA信息,如果UA信息和百度公布的相同,那么久代表是真蜘蛛来过,反之则是假蜘蛛。

移动UA:Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

PC UA:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

新增渲染UA:

移动UA:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

PC UA:Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

小程序UA:

Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;Smartapp; +http://www.baidu.com/search/spider.html)

把你的网站日志下载下来,通过记事本的方式打开,把百度的UA信息复制一下,然后再日志信息里面使用CTRL+F调出查找工具,把复制的UA信息粘贴进去进行查找,如果找到对应的UA信息那就代表是真蜘蛛来过,如果没找到则代表真蜘蛛没来过。

DNS反查IP

通过DNS反查IP指的是根据蜘蛛留下来的IP地址去反查对方IP的信息,如果是百度的真蜘蛛,那么反查的IP名称(hostname)就会是以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。而且还会出现baiduspider的字样(如下方百度官方给出的参考)。

通过DNS反查IP用的是一种代码指令,不同的操作平台使用的指令也是不同的,比如:linux、windows、Mac OS这三个操作平台,使用的指令为host、nslookup、dig,查询的格式为:host ip(ip=ip地址)、nslookupip(ip=ip地址)、digip(ip=ip地址)。例如:host 220.181.XXX.XXX 或 nslookup 220.181.XXX.XXX 或 dig host 220.181.XXX.XXX

Windows通过DNS反查IP

下面是博主使用DNS反查IP的过程,博主使用的电脑系统是Windows 7,所以使用的查询命令为nslookup。

第一步:使用win+R打开调出运行窗口,输入CMD进入管理界面。

第二步:输入nslookup+ip,按回车键后就可以看到对应的IP信息

说明:因为博主的电脑没有设置反向查询,使用nslookp查询的时候会返回服务器Unkown,所以查询IP的时候要先更换本地DNS的IP地址。

站长工具-百度真假蜘蛛查询

如果你不想一条一条的去查,那么你还可以使用站长工具里面的百度真假蜘蛛查询工具,虽然这不是官方给出的查询方法,但是也可以做一个参考,站长工具里面的真假蜘蛛查询每次可批量查询20个IP地址,比起单个查询的效率要高一点。

版权声明:若无特殊注明,本站文章皆为王金亮博客原创,转载请保留文章出处。

(0)

相关推荐

  • 百度蜘蛛如何更好的抓取和识别网站

    互联网信息爆发式增长,如何有效的获取并利用这些信息是百度搜索引擎工作中的首要环节.数据抓取系统作为整个搜索系统中的上游,是百度搜索的重点,也是网站优化的重要突破口.Spider从一些重要的种子 URL ...

  • 百度和360搜索的蜘蛛ip段(官方版本)

    360搜索引擎的抓取蜘蛛如下(360搜索站长官方公布): 需要说明,目前360搜索蜘蛛暂时不支持nslookup命令的查询,因此建议大家以本页面查询到的IP为准,结合本页提供的信息进行比对,以确认是否 ...

  • 百度搜索引擎爬行蜘蛛IP大全及详解

    作为一名合格的SEO站长,不仅要具备SEO优化技术,同时还要学会分析网站日志,了解百度搜素引擎的爬行痕迹. 百度搜素引擎的蜘蛛每爬行一次都会留下他的足迹,而这个足迹就是蜘蛛爬行过来的IP地址,据了解, ...

  • 360搜索引擎爬行蜘蛛IP大全及解析

    与百度一样,作为国内的三大搜索引擎之一的360搜索也有着自己的蜘蛛IP,在爬行抓取网站或者网页的时候都会留下自己的足迹,为了满足各位站长或者SEOer人员的需要,博主在这里把360搜素引擎的蜘蛛IP整 ...

  • 百度搜索引擎的十大算法

    随着互联网的不断发展,百度搜索引擎的算法也在不断的调整和更新,这也要求网站SEO优化的策略也要随之不断的改变.那么,百度搜索引擎的算法都有哪些呢?接下来就带大家一起了解一下吧! 1.绿萝算法 这种算法 ...

  • 搜索引擎爬行抓取的规律是什么?

    当今两大最受欢迎的搜索引擎是Google和百度.大多数人都知道搜索引擎收录页面是靠蜘蛛爬行来收录的,所以了解搜索引擎的变化是必需的.搜索引擎蜘蛛是人们编写出来的机器,肯定存在着某种规律. 一般情况下, ...

  • 百度搜索引擎排名规则那些会影响网站权重?

    运营的小事,用心听运营 百度为搜索制定大量的算法来规定这块庞大的市场,排名在前面的厂家或者信息经过规则的刷选会更加的有价值.都有哪些算法规则? 1.当我们的文章放入了复制的其他内容,这个时候我们发现文 ...

  • 西峡县招教信息技术面试答辩在中国,我们只能使用百度搜索引擎,无法使用其它的搜索引擎。

    在中国,我们只能使用百度搜索引擎,无法使用其它的搜索引擎.       西峡县招教信息技术面试答辩

  • 百度搜索引擎优化和熊掌号:从站到号的变化

    对熊掌号,也就是说百度不会再对一个又一个网站进行排名,而是一个个熊掌号.这种转变会对搜索引擎优化的未来产生什么影响还不清楚,但在百度的移动搜索结果中已经很明显了,熊掌号在很多搜索结果中占有相当高的比例 ...

  • 百度-搜索引擎排名规则

    运营的小事,用心听运营   百度早就已经制定了名为百度与站长的建站指南,公布了如何让网站被百度收录,什么样的网站会被百度拒绝收录或抛弃等相关条款.百度相关规则的全文见于<百度与站长>,仔细 ...