公众号可被搜索引擎抓取，微信或将更加“互联互通”

2024-04-25 17:53:04

微信公众号的内容只能在微信中看，这可以说早在多年前就已经成为用户的共识。不过最近有消息显示，微信公众号的内容可以被谷歌和必应等搜索引擎搜索到，难道这意味着微信公众号要冲出国门，走向世界？

但腾讯方面很快就给出了回应，并表示是因为近期平台技术升级，公众号的robots协议出现了漏洞，致使外部爬虫技术可抓取部分公众号内容，但目前漏洞已修复。按照这一说法，这一次的情况只是技术操作失误。

那么，导致公众号内容出现在海外搜索引擎山上的“元凶”robots协议是什么呢？事实上，robots协议也叫robots.txt，是一种存放于网站根目录下的ASCII编码文本文件，它的唯一作用就是告诉搜索引擎的user-agent（网络蜘蛛），网站中的哪些内容是不对搜索引擎蜘蛛开放，哪些内容又可以被抓取的。

作为控制网站被搜索引擎抓取内容的一种策略，该文件一般会放在网站的根目录里，也就是/robots.txt。因此可以直接在网站域名后加上/robots.txt，就能访问到该网站的robots协议页面。

我们以淘宝的“https://www.taobao.com/robots.txt”为例可以看到，这家电商网站采用的robots协议其实非常简单，“User-agent”主要作用是告诉网站服务器，访问者是通过什么工具来请求的，而后面的“Baiduspider”就是大名鼎鼎的百度搜索引擎蜘蛛，而最后的“Disallow: /”，按照robots协议的规则，是禁止被描述的搜索引擎蜘蛛（百度）访问网站的任何部分。

其实早在2008年9月百度搜索引擎就已经被淘宝屏蔽，而这几行简简单单的代码，也让淘宝在战略层面掌握了竞争的主动权，避免了流量被百度搜索引擎拿走，同时也避免了平台内的商家要给百度竞价排名付费的可能，更是间接催生了淘宝的竞价排名体系。

而对于微信来说同样也是如此，此前微信公众号的内容只支持在该应用的搜一搜功能，或是腾讯旗下的搜狗搜索引擎中搜索到。这主要要因为用户上网冲浪的最终目地往往是消费内容，而内容、特别是高质量的原创内容更是天然的流量来源，这些内容可以帮助微信形成封闭的商业生态。所以让用户只能在体系内访问微信公众号的内容，也就成为了微信保护私域流量的关键。

那么问题就来了，robots协议会出现漏洞吗？答案是肯定的。robots协议从本质上来说就是网站运营方提供的规则，然而是规则就免不了出现漏洞。不过robots协议也很难出现问题，因为它的书写非常简单、逻辑也很直白，允许什么搜索引擎爬虫访问什么内容都可以清晰地表述出来。特别是微信这种协议非常简单的规则，仅面向自己的应用内搜索和搜狗搜索开放的robots协议，基本也不会有什么多余的内容。

更为重要的一点是，robots协议本身其实是一个“君子协议”，是一个搜索引擎与网站之间的共识，并没有任何法律效力，也没有任何技术约束。所以换句话来说，这也意味着robots协议从技术层面是无法与搜索引擎爬虫对抗的。

例如，一些网站如果不想让爬虫占据自家宝贵的服务器资源，往往就会直接在robots.txt文件中写上这样的规则，“User-agent: Googlebot，Allow: / User-agent: *，Disallow: /”，意思是本网站仅允许谷歌爬虫抓取，拒绝其他任何搜索引擎。

然而有意思的事情来了，苹果方面在官网的“Applebot”页面声明中写道，“如果robots.txt中没有提到Applebot，而是提到了Googlebot，那么Applebot将遵循Googlebot的指令“，言下之意就是Applebot也是Googlebot。

事实上，robots协议并不会经常修改，毕竟它的内容是与内容运营策略息息相关的。而微信的robots协议在平稳运行了多年后，却在此前监管部门要求互联网厂商互联互通的时候出现“漏洞”，这个件事就可以说或非常“巧”了。

9月17日在监管机构的要求之下，在过去数年间各大互联网厂商建立的以邻为壑的“高墙”已经开始逐步坍塌。尽管在要求“互联互通”一个月后，各大互联网厂商之间的藩篱虽然还没有一夜之间倒塌，但也逐渐有了消融的迹象。

对于微信来说，公众号内容开放给外界，或许是腾讯分阶段分步骤实施互联互通中的一个环节。而如今微信公众号的内容出现在谷歌和必应上，也更像是微信在测试新的robots协议。毕竟，此前他们的robots协议协议可以说是非常简单，只需要允许搜狗搜索一家即可，但现在却需要对外界开放。

要知道，国内的搜索引擎蜘蛛可不仅仅是百度、搜狗、360这些大家比较熟悉的，还有包括网易有道的YoudaoBot、宜搜的EasouSpider、一搜的YisouSpider、微软的Bingbot和Msnbot，以及其他大大小小不知名的爬虫。所以有观点认为，这也就得微信robots协议的编写难度将会陡然上升，而忙中出错忘记屏蔽了谷歌可能会是大概率事件。

【本文图片来自网络】

推荐阅读：

谷歌Pixel 6的招牌AI功能，几乎全部“撞脸”国内厂商

谷歌在谷歌Pixel 6系列发布会上介绍的这些AI功能，是不是有些眼熟。

联发科携手AMD造芯，或让苹果M1迎来挑战者

继苹果M1系列芯片取得成功后，其他芯片厂商也坐不住了。

抓取数据可能会吃官司？请看好你家的爬虫！

如果您不方面阅读文章,可收听通过人工智能技术自动生成的语音.此语音技术由百度广播开放平台(内测)提供,欢迎将收听后的意见反馈给我. 历时两年的微博与脉脉之争终于有了结果:法院认定脉脉非法抓取.使用微博 ...
百度的好日子来了？

且不说后两者,我一直觉得公众号才是那个撑起微信生态的顶梁柱,但众所周知,公众号作为微信的禁脔,上面的信息除了那个已成自家兄弟的搜狗外,是任何一个搜索引擎都不可察的存在. 这并不奇怪,搜索引擎作为旧时代 ...
Python网络爬虫相关基础概念！

网络爬虫是Python应用领域之一,也是很多学生比较关注的问题,今天就为大家介绍一下Python网络爬虫相关基础概念. 之前在授课过程中,好多同学都问过我这样的一个问题:为什么要学习爬虫,学习爬虫能够 ...
robots.txt文件写法

表白:黑白圣堂血天使,天剑鬼刀阿修罗. 讲解对象:/robots.txt文件写法作者:融水公子 rsgz 搜索引擎教程搜索引擎教程 http://www.rsgz.top/post/391.ht ...
用了二十多年了，Google终于开始推进这个互联网基石之一的协议标准化

Google于今天早些时候宣布了要推动机器人例外协议标准化.可能用正式名称叫它大家都有些陌生,但是一定有很多人听过robots.txt这个文件,robos.txt这个文件存在于几乎所有网站的根目录下, ...
网络爬虫是什么

网络爬虫又称网络蜘蛛.网络机器人,它是一种按照一定的规则自动浏览.检索网页信息的程序或者脚本.网络爬虫能够自动请求网页,并将所需要的数据抓取下来.通过对抓取的数据进行处理,从而提取出有价值的信息. 认 ...
使用 MitmProxy 自动抓取微信公众号阅读数、点赞和再看数据

来源:Python 技术「ID: pythonall」某天接到一个需要抓取某某微信公众的所有历史文章的阅读数.点赞和再看数据的需求. 为了解放双手,就用 Python 代码撸一个,选择 MitmPr ...
白杨SEO：公众号、小程序怎么做微信服务搜索？搜一搜服务搜索排名规则解析

作者:白杨SEO 全文3913字预计阅6分钟前言:这是白杨SEO公众号第246篇.为什么想到写这个?因为之前我写过8000字公众号排名原理后,又有很多人问我微信搜索那个服务怎么做的?那个服务排名 ...
50个高价值公众号，9篇10w ，微信收藏价值榜单发布！

我们常常会面临这三个问题:如何在信息消费中快速甄别有效内容?如何让思维更加"系统化"?如何更全面.更深入地思考问题? 在碎片化信息时代中养成系统化思维,往往需要通过广泛收藏.整合思 ...
微信动手了！今后公众号软文投放可通过微信官方

昨晚,"微信广告助手"推送了一则消息:<公众号互选广告开放自助投放>.主要内容是去年10月开放内测的微信互选广告,在昨日正式开放自助投放了.(相关阅读:微信互选广告内测 ...
SEO技术大师-网站搜索引擎抓取策略

SEO优化的目的是让网站在搜索引擎中获得好的排名,获得流量,产生转化率.为了得到一个好的排名,我们需要吸引Spider和爬虫来抓取网站中的每一页. 至于网站,如果网站中的链接没有被屏蔽,那么Spide ...
搜狐肆意抓取公众号作者的稿件，这事有没有人管了？

其实,搜狐网的这种抓取行为,是对微信公众号作者利益的极大侵害,自媒体作者辛辛苦苦构思题材.查找资料.原创撰写,应当是有自己的著作权的,理应得到国家法律的保护.另外,搜狐网还会恶意抢注今日头条作者的同名 ...
第 129 天：爬取微信公众号文章内容

有时候我们遇到一个好的公众号,里面的每篇都是值得反复阅读的,这时就可以使用公众号爬虫将内容抓取保存下来慢慢赏析. 安装 Fiddler Fiddler 的下载地址为:https://www.teler ...
Python爬虫实战练习：爬取微信公众号文章

前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:徐洲更为了实现该爬虫我们需要用到如下工具 Chrome浏览器 Py ...
爬虫如何爬取微信公众号文章

因为最近在法院实习,需要一些公众号的数据,然后做成网页展示出来便于查看,之前我倒是写过一些爬虫,但都是爬取网站数据,这次本来以为也会很容易,然而却遇到了不少麻烦,这里和大家分享一下. 1.利用爬虫爬取 ...

公众号可被搜索引擎抓取，微信或将更加“互联互通”

相关推荐