百度的好日子来了?

且不说后两者,我一直觉得公众号才是那个撑起微信生态的顶梁柱,但众所周知,公众号作为微信的禁脔,上面的信息除了那个已成自家兄弟的搜狗外,是任何一个搜索引擎都不可察的存在。

这并不奇怪,搜索引擎作为旧时代的流量入口,如果把内容开放给搜索引擎,就意味着某种程度的「让利」,虽然增加了内容曝光,却在移动互联网这个新时代的背景下,损失了更为重要的用户习惯。

直白点说,这么做得不偿失。

所以就有了 2007 年的淘宝,用一句「百度搜索没有带来直接的交易量」,直接屏蔽了百度的收录,影响嘛,我们也都能看到——

淘宝成为了后 10 年 PC、移动电商双赢家。

有了淘宝的「成功经」在前,2012 年上线的公众号平台从一开始就被微信死死地攥在手心。

起初公众号的文章还能通过暴露链接的方式被百度爬虫所收录,但自从 2014 年微信和搜狗达成合作,没过多久,你在百度上就再也搜不到任何公众号文章了。

我们可以从公众号平台的 robots 协议中一窥究竟,两行代码,意味着所有爬虫机器人皆不允许爬取网站内容,其中自然包括百度的 Baiduspider。

到了淘宝就更直接了,在 robots 协议里指名道姓的单点了 Baiduspider。

爬虫是什么不用多介绍了吧,泛指的是抓取网站内容的程序,在搜索引擎收录信息时,就是通过爬虫 copy 了网页链接及其内容。

而作为主角的 robots,是一个网站与爬虫之间默认的口头协议。

它以简单直接的 txt 文本告知爬虫,网站的哪一部分是允许你爬的,哪一部分又是不允许你爬的。

正常情况下,程序访问链接时,都会先访问 robots.txt 这个文件,然后根据文本内容规规矩矩地获取信息。

如果网站没有这个文件,那就意味着对于各路爬虫而言,网站内容处在裸奔状态。

当然,到底按不按 robots 协议里的规矩行事,取决于爬虫方有没有关掉优先访问 robots.txt 的开关,换句话说,这是个公认的君子协议,没有任何技术约束。

如果不按规矩行事,对个人来说意味着越来越有判头,对大厂来说更是要吃罚款的,这事对于搜索起家的百度而言肯定不陌生。

2013 年的时候就因为 360 违反商业道德,无视 robots 协议爬取百度禁爬的内容,被百度一纸诉状告至法院,一审判了 360 整整 70 万元,360 不服上诉,7 年后二审驳回请求。

所以说,robots 协议和网站运营、搜索引擎收录规则是息息相关的,重要程度不言而喻。

(0)

相关推荐