用了二十多年了,Google终于开始推进这个互联网基石之一的协议标准化

Google于今天早些时候宣布了要推动机器人例外协议标准化。可能用正式名称叫它大家都有些陌生,但是一定有很多人听过robots.txt这个文件,robos.txt这个文件存在于几乎所有网站的根目录下,它规定了网络爬虫可以爬取的目录地址,但它一直都不是一个标准的文件。

25年前,Martijn Koster,这位互联网最早的搜索引擎创始人,在他的网站被爬虫频繁光顾到无法访问之后,编写了这个文件,制定了一个叫做机器人例外的协议(Robots Exclusion Protocol),在文件中规定了爬虫不能读取的网站目录。REP目前已经成为了互联网最基础的协议之一,搜索引擎的爬虫通过分析这个文件了解网站所有者的规定,更规范地来爬取网站内容。

然而至今为止,这个协议都只是一个非官方、非标准化的协议,robots.txt的内容怎么写完全是随网站管理者的性子来,这对于互联网长远的发展是不利的。同时Google开源了他们使用了二十年之久的robots.txt解析库,没有一个确定标准的robots.txt对于要解析它的爬虫也是一件麻烦的事情,往往会因为内容太复杂太多而解析失败,致使爬虫没能遵守该网站的规定爬取了敏感信息,发生各种信息泄露事件,影响到网站的正常运行与安全。

而Google制定出来的REP协议草案反应了20多年来互联网世界的发展与变迁,它没有改变从1994年以来规定的条条框框,但是更清晰地描述了爬虫可能会遇到的场景,并使协议更为现代化。Google表示,目前的草案已经接近向IETF组织提交,但是还需要一些改进。毫无疑问,这是对互联网总体有利的一件好事,未来在标准化之后的REP协议加持下,我们可能可以获得更好的搜索结果。

(0)

相关推荐

  • robots.txt文件写法

    表白:黑白圣堂血天使,天剑鬼刀阿修罗.  讲解对象:/robots.txt文件写法 作者:融水公子 rsgz 搜索引擎教程 搜索引擎教程 http://www.rsgz.top/post/391.ht ...

  • 百度的好日子来了?

    且不说后两者,我一直觉得公众号才是那个撑起微信生态的顶梁柱,但众所周知,公众号作为微信的禁脔,上面的信息除了那个已成自家兄弟的搜狗外,是任何一个搜索引擎都不可察的存在. 这并不奇怪,搜索引擎作为旧时代 ...

  • 网络爬虫无处不在,侵权边界在哪?

    刚和朋友聊天提起某款商品,打开购物App后,首页随即出现同类产品的推送广告:家人商量打算去某地旅游后,某旅游App马上"奉上"该地最佳旅游攻略-- 如今,很多人都有类似这样的经历, ...

  • 抓取数据可能会吃官司?请看好你家的爬虫!

    如果您不方面阅读文章,可收听通过人工智能技术自动生成的语音.此语音技术由百度广播开放平台(内测)提供,欢迎将收听后的意见反馈给我. 历时两年的微博与脉脉之争终于有了结果:法院认定脉脉非法抓取.使用微博 ...

  • 常州SEO姜东:搜索引擎的工作原理抓取、索引和排名-搜索引擎如何工作

    搜索引擎的工作原理:抓取.索引和排名 首先,出现. 正如我们在第 1 章中中提到的,搜索引擎是应答机.它们的存在是为了发现.理解和组织互联网内容,以便为搜索者提出的问题提供最相关的结果. 为了出现在搜 ...

  • 公众号可被搜索引擎抓取,微信或将更加“互联互通”

    微信公众号的内容只能在微信中看,这可以说早在多年前就已经成为用户的共识.不过最近有消息显示,微信公众号的内容可以被谷歌和必应等搜索引擎搜索到,难道这意味着微信公众号要冲出国门,走向世界? 但腾讯方面很 ...

  • Python网络爬虫相关基础概念!

    网络爬虫是Python应用领域之一,也是很多学生比较关注的问题,今天就为大家介绍一下Python网络爬虫相关基础概念. 之前在授课过程中,好多同学都问过我这样的一个问题:为什么要学习爬虫,学习爬虫能够 ...

  • 腿痒痒到骨头里,忍了二十多年的我终于崩溃了

    2020年真是魔幻的一年.除了让全球动荡不安的新冠肺炎,我也终于知晓了一个困扰我二十多年的真相,并经历了人生中的第一次手术. 这痒,一忍就是二十多年 一切要从两个月前说起. 五月上旬,我开始出现睡眠困 ...

  • 【灵璧救助】流浪二十多年,游集镇这位李先生终于回来了。您还记得他吗?

    友情播发一条寻物启事:昨晚21点左右,在灵璧县罗河西路金水湾洗浴中心附近丢失一个钱包,钱包内有身份证.医保卡及几张银行卡,身份证户名:刘军.有捡到的朋友请及时拨打13956888899,与失主联系,失 ...

  • 十多年的鼻窦炎终于治愈

    鼻炎.鼻窦炎一类的病,西医是没法治疗的,他们认为问题出在鼻子,其实从中医的角度,多数问题出在脾胃,当然也有问题出在肝肾的. 2020年11月12日,南方还很暖和,一位53岁的男性患者求诊,自述鼻窦炎1 ...

  • 二十多年头痛、口唇周围起干皮奇痒、眼花奇...

    二十多年头痛.口唇周围起干皮奇痒.眼花奇痒怕见阳光.面颊和手掌通红,从上小学时开始经常头痛,发作时躺歪倒在路边--每一个疑难症的治疗就是一个传奇. 那些中医黑.认为本医是在做广告或靠赚流量混饭吃的趁早 ...

  • 命运好差真的天注定?资深命理师二十多年算命感悟,值得收藏!

    泽海从事算命数十余年,分享下自己的感悟,希望对大家有所启发.祸福同根,吉凶同门,自古天道,吞恨者多,世事如水上泛舟,顺逆皆身不由己.命运极好,人生得意,一帆风顺,如履平途,和穷愁坎壈,命途多舛,遍地荆 ...

  • 算命二十多年,资深命理师感悟到的人生真谛!值得收藏

    一命二运三风水四积阴德五读书,泽海从事算命几十余年,总结下命理感悟: 一,每个人都希望自己人生是光明的,但每个人都是在走夜路.对于不懂命理的人来说,完全是靠运势.运势好了走得顺畅,运势不好就摔跟头,然 ...

  • 一个人的命运轨迹能算准?二十多年算命经验的命理师告诉你答案

    泽海从事算命二十余年,命理跟心理,很多地方是相通的,特别是在性格倾向,处事风格,婚姻危机处理等这些偏主观性的方面,命局是有某些强烈信息的.说感受到一个人的大致命运趋向,"感受"一词 ...

  • 命运真的存在吗?算命二十多年的命理师告诉你答案,值得收藏!

    大千世界,芸芸众生,上至达官贵人,庙堂显贵,皇亲国戚,下至凡夫俗子,无名小卒,贩夫走卒,皆有命运.一贵一贱,一盛一衰,一丰一耗,一贤一愚,一善一恶,一福一祸,一寿一夭,一生一死,死生有命,富贵在天,人 ...

  • 八字算命如何入门?资深命理师二十多年经验倾囊相授,值得收藏!

    泽海从事算命二十余年,仅从我个人来谈下学习命理的经验,欢迎各位多多指点. 命理的学习和任何一门科目在本质上都是一样的,即通过科目的核心经典+各流派的文献及笔记,再结合自己的思想归纳及统一,并在运用中, ...