抓取数据可能会吃官司？请看好你家的爬虫！

2024-06-08 03:05:27

如果您不方面阅读文章，可收听通过人工智能技术自动生成的语音。此语音技术由百度广播开放平台（内测）提供，欢迎将收听后的意见反馈给我。

历时两年的微博与脉脉之争终于有了结果：法院认定脉脉非法抓取、使用微博用户信息行为构成不正当竞争，一审判决脉脉停止不正当竞争行为，并赔偿原告经济损失等220余万元。两年前我有关注到微博与脉脉的数据之争，这在口水战每天都发生的互联网圈本来不算什么大事。但这次法院判决结果，还是挺出人意料的。毫不夸张地说，这一事件给互联网公司敲响了关于用户数据保护的警钟。

一个常规的数据抓取纠纷

先简单说一下微博和脉脉之争的来龙去脉。

2014年8月公开闹掰：微博宣布停止脉脉使用的微博开放平台所有接口，理由是“脉脉通过恶意抓取行为获得并使用了未经微博用户授权的档案数据，违反微博开放平台的开发者协议”。与此同时，脉脉宣布终止支持微博登录，并通过一些邮件截图曝光微博此举，是因其投资脉脉不成，索要脉脉用户关系数据受阻后的报复。就像所有口水战一样，双方各执一词、真相扑朔迷离。

2015年3月对簿公堂：微博主体公司于2015年3月将脉脉主体公司告上法庭，微博脉脉之争升级。

微博起诉理由主要有脉脉非法获取和使用微博信息，商业诋毁等。

在用户微博登录脉脉并上传个人通讯录之后，大量非脉脉用户的微博头条、昵称、职业、教育等信息出现在脉脉上，这些信息并不在微博OPEN API之中，并且在微博停止脉脉所有接口权限之后，脉脉依然进行了相关数据抓取，微博认为脉脉通过非法手段获取信息。除此之外，微博认为在双方“闹掰”之后脉脉发表的公开言论对微博商誉构成了诋毁，脉脉采取了类似于微博加V认证的机制和界面设计，构成不正当竞争。

法院认定，脉脉绕过OPENAPI抓取数据的行为，危害到微博用户信息安全，损害了微博合法竞争利益，对其构成不正当竞争，商业诋毁成立，判决脉脉停止不正当竞争行为，并赔偿原告经济损失等220余万元。

类似诉讼在互联网行业屡见不鲜。

2013年，百度因奇虎360违背Robots协议抓取复制百科等内容构成不正当竞争，起诉后者并索赔1亿元。
2016年2月，因认为百度视频通过抓取播放窗口的方式，嵌套乐视网视频资源到百度视频客户端，屏蔽了乐视网网页、网址、广告，造成公众混淆，构成不正当竞争，乐视起诉百度并索赔100万元。
2016年4月，大众点评诉百度旗下的百度地图及百度知道大量复制其用户点评等信息，构成不正当竞争，提出9000万元索赔要求。

这些案例均是某平台因内容被抓取起诉抓取方，在数据为核心资产之一的互联网产业，“数据纠纷”只会越来越多。

平台用户数据受法律保护

从法院一审的判决逻辑来看，是否保护用户信息已成数据纠纷中的法律准绳。

海淀法院在“世界知识产权日”公开宣判这一案件，或许不是巧合。其明确表示，“大数据时代，保护用户信息是衡量经营者行为正当性的重要依据，也是反不正当竞争法意义上尊重消费者权益的重要内容。”这表明，用户权益被摆在最优先位置。

在“人肉”这类网络暴力频发、用户资料屡屡泄露的大环境下，这一判决具有示范意义。平台在业务设计上必须充分考虑用户信息保护，确保用户信息不被滥用，隐私数据不遭泄露，同时确保用户对个人信息的使用有知情权。

在保护用户利益之后，才是平台利益。

值得注意的是，用户信息与用户数据并不是一回事，比如你在微信公众账号发的文章，算是用户数据，但你个人微信昵称、头像这些资料，才算是用户信息。但究竟哪些属于用户隐私则很难说，你上传到平台的照片肯定是隐私数据，但你发的公开微博就不一定了。那么，不具备“个人隐私”属性的数据是否受法律保护呢？如果有人绕过接口，抓取用户发的微博而不是个人信息，会有不同的结果吗？

这里有一个案例：百度起诉360违反Robots协议抓取知道、百科等数据的纠纷就是这样的情况，法院尊重Robots协议和平台对UGC数据的权益，360被判赔偿百度70万元。就是说，UGC内容的创建者是谁并不重要，搭建平台网站投入运营、技术和人力成本，拥有对数据的使用权和分发权。如果第三方网站违背意愿进行抓取，就可能被判为不正当竞争。

数据是互联网公司的核心资产，不论是个人信息还是UGC数据（微博、文章、点评等），所有这些平台数据都将受到法律保护，平台对这些数据拥有所有权、使用权和分发权。

互联网公司应提防数据纠纷

互联网公司想要利用别家平台的数据时，必须遵循对方的公共API协议，或Robots爬虫协议，抑或通过正式协议合作。数据受法律保护。互联网公司不能违背某平台意愿抓取其数据——在技术上或许并不难，可通过爬虫等手段绕过限制，实现数据抓取，但这样做很可能会吃官司，并且败诉几率相当高。

因为数据抓取纠纷而对簿公堂的案例还不算多，但数据抓取行为在互联网行业却很常见，比如许多平台都能看到豆瓣电影评分数据，再比如一些导购网站聚合了电商平台的评论，还有平台将微信公众账号所有文章都聚集起来…这些行为理论上来说都有数据纠纷的风险，如果你做得不够大平台一般也没这个精力理你，但万一你某天做到了呢？况且，很多大公司也这样干。

对于数据的获取和使用，不再是一个技术问题、商业问题、道德问题，而是一个法律问题，所以，请看好你家的爬虫。

一文告诉你，爬虫技术到底违不违法，怎么用才合法？

近几年来,因为开发者使用爬虫技术锒铛入狱的案例越来越多. 2015年,某公司授意五名程序员,利用网络爬虫获取一公司服务器的公交车行驶信息.到站信息等数据.这五名程序员需承担连带责任. 2019年,某公 ...
企业间数据竞争规则研究

时至今日,数据已然成为了推动数字经济发展的核心生产要素,但企业间不正当的数据竞争行为却日益增多,严重制约了行业的长远发展.从国内外数据纠纷的现状来看,数据不正当竞争行为集中存在于数据获取和数据利用两个 ...
服务直达用户，百度破局存量竞争

五一假期,人潮汹涌,拥堵非常.根据百度五一搜索大数据显示,今年五一假期超2.5亿人出行,"旅游"相关搜索热度达疫后最高水平,机票.火车票.酒店预订等搜索均大幅上涨,中国铁路1230 ...
理解软件架构：冰点文库下载器原理与百度文库爬虫

理解软件架构本文共1187字,主要探索一下下载器的基本原理和百度文库页面组成. 01 冰点文库下载器违法吗? 在使用各种下载工具时,尤其是这种非官方认可的第三方工具时,我们总是会问这样的问题:这种工 ...
用python爬虫追踪知乎/B站大V排行

最近,我们的实训生清风小筑在学习和实践 python 的数据分析,前几周把知乎.B站.虎扑上的各种信息都抓了个遍,比如粉丝数.关注关系.发布时间.阅读量.回复数.标题关键字.地域分布--然后又对这些数 ...
近12亿条电商用户信息被泄露：数据爬取亟需规范平台又该承担何责？

日前,淘宝近12亿条用户信息被泄露一案引发关注. 河南省商丘市睢阳区人民法院公布的一起案件显示,犯罪分子通过自己开发软件爬取到了淘宝客户的数字ID.淘宝昵称.手机号码等信息近12亿条,用于从事淘宝客推 ...
已收藏：爬虫入狱指南

前不久有好几家数据相关的公司被抓了,再加上一些媒体对爬虫技术相关的 "吃牢饭" 报道,弄得人心惶惶--这...爬虫玩得好,牢饭吃得早?数据玩得 6 ,牢饭吃个够? 因为之前小帅b分 ...
如何利用数据找到粉丝共情点？你是怎么做的

为什么做了很多点赞不错的视频就是不涨粉,今天要给大家分享的技巧是巧用数据运营反补内容,让内容越来越好,流量自然越来越多.但问题来了数据运营是什么?具体要怎么做呢?我教大家三种数据运营技巧. 一．善用大 ...
百度一审被判赔偿字节跳动50万元称还要上诉两巨头纠纷仍未熄火

摘要 [百度一审被判赔偿字节跳动50万元称还要上诉两巨头纠纷仍未熄火]据人民法院报报道,因人为干预搜索结果.在搜索页面诋毁今日头条,百度被北京市海淀区人民法院一审判决构成商业诋毁不正当竞争.法院责 ...
使用golang结合goquery抓取数据的爬虫

简介 goquery是用 Go 语言编写的一个类似于 jQuery 的库.它基于 HTML 解析库net/html和 CSS 库cascadia,提供与 jQuery 相近的接口.Go 著名的爬虫框架 ...
【VBA研究】用XMLHTTP的Post功能抓取数据

作者:iamlaosong 我前一阵子用VBA做了个工具,用XMLHTTP的Get功能抓取城市间距离.现在我想用用XMLHTTP的Post功能抓取邮件轨迹.抓取数据是用Get还是Post,取决于网站提 ...
零基础学RPA丨10分钟学会定时抓取数据（上）

主要讲解4个内容: 1.用条件循环进行无限循环设定 2.使用时间戳命令设定时间 3.设定时间间隔 4.判断元素是否存在真资格零基础.一学就会的教程.甜美小姐姐倾情讲解. END 学会了,点个在看再走 ...
零基础学RPA丨10分钟学会定时抓取数据（下）

真资格零基础.一学就会的教程.甜美小姐姐倾情讲解. 零基础学UiBot实战案例定时抓取数据(下) 真的超级简单易学!男女老少都可以学!看视频就会! 本次教学主要讲解真资格零基础.一学就会.甜美小姐 ...
借7千还36万，各家长请看好你家孩子！

借7千还36万，各家长请看好你家孩子！
借7千还36万，梅河口各家长请看好你家孩子

借7千还36万，梅河口各家长请看好你家孩子
仅用1/10的成本，直接从医院系统中抓取数据，这家大数据公司如何办到的？

"以患者为中心"的新医改,其核心是利用分级诊疗,改善患者看病就医体验.取得"群众满意"."政府满意"."各级医疗机构满意" ...
这家大数据公司能直接从医院信息系统中抓取数据，究竟牛在何处？【AI+大数据案例】

博为软件董事长梁威 "在国内,我们也许是唯一一家无需其他软件厂商配合,就能直接从医院的上百种信息系统中抓取数据的公司."博为软件董事长梁威告诉动脉网. 2009年,梁威从北大硕士 ...
智能硬件厂商，请看好你家的跳蛋

近日,可穿戴设备『双雄』Fitbit和Jawbone之间的窃密纠纷有了新进展:旧金山高等法院的法官下令Fitbit的5名员工归还其离开竞争对手Jawbone时携带的机密信息,这意味着Jawbone在这 ...

抓取数据可能会吃官司？请看好你家的爬虫！

相关推荐