大数据抓嫖把我看笑了

1

昨天朋友圈被一个小道消息刷屏了,大家可以看一看这个内容,先自己感受一下。

这个案例一出来,很多人都在哀嚎大数据让人无所遁形之类的云云,还有人在讲嫖这个行业的种种。

但是作为一个风控从业者,并且真的和多地公安合作过各种神奇项目(包括抓逃)的人,我看到这个新闻的第一反应是离谱。

很多人对于大数据的理解是数据无所不能,没错,但是大数据发挥威力是有很多前提条件的。

套用到这个场景里面,大数据可以做到,但是实现不了。

再感受下这句话,可以做到,但是实现不了。

我先举个简单的例子,核弹牛逼不牛逼?牛逼炸了对不对。

但是想让核弹产生威力,你得先有办法把核弹丢到该丢的地方去,这就要求你有特别强的运载能力,以及定位能力和导航能力。

同时,你还得有非常强的防干扰,防击落,防伪装能力,不然你的东西会被拦下来。

然后,想让核弹爆炸,引爆也是一个非常复杂的专业领域,你以为是拿个锤子砸两下就能把核弹砸爆的?

最后,你以为核弹炸完就完事儿了?事后要怎么处理烂摊子,更考验综合实力。

所以你看,核弹非常牛逼,但是牛逼也是有条件的。

同样的道理,大数据的威力很牛逼,但这个牛逼也是有很多前提条件在里面的。

为啥我说这个案例特别离谱?

因为这里面透露出来的要素都是非常离谱的,因为我自己做过很多公安的数据项目。

你用大数据做任何事情,天字第一件事儿一定是你的数据从哪来。

没数据你做个屁大数据。

那问题来了,数据从哪来,有 4 个问题。

1 - 数据源选择问题

2 - 数据源获取问题

3 - 数据应用(清洗)问题

4 - 数据源合法性问题

大家这时候再看这个截图,你对照一看,就觉得离谱。

数据源选择问题,说的很明白,爬 TM 和 JD 的数据。

这时候看数据源获取。

爬数据,也就是爬虫工程,这里分 2 种。

一种是外部爬取,就是你自己写一堆爬虫,去爬对方暴露在外的界面,一般电商大战的时候,各家都会实时去爬对手的爆品的单价,自己也会有策略动态跟着调价,这块儿数据是暴露在网页端 orAPP 端的,很容易爬,只要有 IP 池就行,这种内容都是暴露在所有公共视野里面的。

一种是内部爬取,就是不暴露在公众视野里面,但是有授权就可以爬取。

例如你 JD 和 TM 的交易记录,只要你愿意授权给他们,他们就爬取你登录后的页面,爬你私人的历史订单,以及收货地址,以及浏览记录的这种信息。

这种内部爬取是必须你自己授权,而且只能授权你自己看到的你自己的信息,这不是公开信息。

那么问题来了,大家自己打开 TM 和 JD 的商品页面,自己看看销售记录,你能看到的所有数据都是脱敏 or 加盐的,还有大量匿名的,你根本看不到这些人的手机号,地址以及邮箱信息,就连 ID 信息都不全,一堆星号,抓一堆这种数据出来,有啥用?你知道谁是谁?

有人说可以用模糊匹配,例如半 **** 佛,可以直接匹配库里的半 **** 佛,这俩大概率是一个人。

那问题来了,你库里的数据哪里来的?合法吗?

就算合法,谁告诉你半 *** 佛就一定等于半 *** 佛?

不同电商平台的数据加盐规则都是不同的,一个空格算一个 * 还是两个 *?字母算几个 *?汉字算几个 *?我们都知道汉字在电脑里是 2 个字符,字母是一个字符。而且,允不允许标点符号的存在?

你有本事破解 TM 和 JD 的规则,你还创个屁业。

就算这个你搞定了,你怎么搞定 * 的具体内容?

两个半 *** 佛,脱敏之后,完全可以是半小胖子佛和半大帅比佛,你能说这俩是一个人?这不闹吗?

就算这俩半 *** 佛,脱敏后都是半大帅比佛,也不能代表是一个人。

为啥?

因为网络又不是 ID 独占的,别人完全可以申请一样的 ID,同理,一个人在不同的平台 ID 本身就不同。

为啥我在知乎叫半佛仙人,在 B 站叫硬核的半佛仙人,在微博叫半佛仙人正在装。

不是我有创意,而是 ID 被别人用了好不好。

同样的,我为啥要在不同平台叫一个 ID 呢?

在淘宝可以叫半淘宝,在拼多多可以叫半拼多多,在京东可以叫半京东,顺丰发件我叫半顺丰,谁把我数据卖了我可以溯源到问题平台。

在这种情况下,你怎么做逻辑匹配呀?这东西根本就不准呀。

还是模糊的逻辑匹配,逻辑网的 Key 如何设计?谁要是能把这个都搞定,建议直接去币圈,还创个屁业,直接去币圈当中本聪的爷爷。

知道为什么我只说了 TM 和 JD,没有去说通话记录么,明明截图里还有说通话记录的事情。

因为如果做不到 TM 和 JD 的身份锁定,你有一堆通话记录你也不知道要咋匹配。

这就和万事俱备,就差一个程序员一样搞笑。

好了,假如现在有个技术天才,真的搞定了这一切。

甚至可以直接从 TM 和 JD 拿到精准的脱敏数据。

那么他将面临的可能是法律的制裁。

你这么去爬大平台的数据,做自己的应用,你在找死吗?

过去两年多少大数据精英因为这个进去捡肥皂了?

而且这里面还有通话记录,运营商让你爬了吗?知道因为这个事情,多少爬虫公司进去了?

还是说这是运营商 or 公安给你的数据?他们给你数据的时候,用户授权了吗?主动授权了吗?

这可和绿码之类的东西不一样,总不能我买东西还授权一个验嫖功能吧。

而且你能不能告诉我,一个 TX 投资(还不是控股)的小公司,会不会被 TM 和 JD 弄死?

TX 自己都不敢做这种事情,南山必胜客真不是浪得虚名。

头条和微信基于用户头像都打了得有 300 个回合了,菜鸟和顺丰前两年因为用户数据打的多难看?

你觉得哪个小公司做了这种事情不会被制裁?

而且别以为大公司的安全团队是摆着看的,人家的盾都是按礼拜升级的,有时候不用升级盾,业务换个命名规则你就凉了。

另外,更重要的是,不说平台让不让你爬,用户允许你爬了吗?

你爬了这么多用户的信息,你侵犯隐私了朋友,现在是法治社会。

我坦率的告诉你,大数据能做的骚事情多了去了,最大的问题就是不合法。

好了,现在又有人说了,这是公安用,公安抓嫖用。

这就是外行对公安模块的不理解了。

十多年前什么开房记录之类的还有人操作,现在口子基本都堵的死死的。

谁告诉你公安用数据不用在意用户隐私的?公安现在受的监管是非常严的。

你知道一个警察在公安系统里面想看任何数据,都必须得有合理合法的缘由吗?而且就这样,还不一定能审批通过。

你知道每个地方的公安,对于数据调取都有严格的限额吗?超过限额要么卡死,要么问询。

你知道公安系统数据有多少人盯着吗?你知道现在追责是无限制追责吗?而且连你上级公安一起追责。

你知道公安数据任何涉外都有一个中转服务器叫警务通吗?警务通不仅仅是那个手持 PDA,更是一套机制。

你知道公安发函想要调取数据的时候,大公司其实都不配合或者打太极拳吗?

公安是真正的带着镣铐跳舞。

我做公安项目的时候,各种审批和限额弄得我头秃。

你幻想中公安无所不能,但是除非你真的有案子或者有重大嫌疑并且被认定了,并且上级审批了,才能用。

例如那个微博骂烈士的 SB。

不然天天跑数据库干嘛,很多地方的公安服务器也顶不住你这么跑。

重器只有在关键的时候才能用。

说真的,抓嫖这点破事儿,根本上升不到这么重要的地位。

要是抓嫖真的这么重要,都不用这么麻烦,直接开房数据做匹配就好了。

根本不用通话记录和网购这些花里胡哨的东西,一个是不准,一个是这年头谁还打电话整嫖,只要用开房数据就好了。

分分钟就把买的多的和卖的多的都抓了。

不需要别的,开房数据做聚合就够了。

要是觉得抓的不够多,再让电商配合把收货地址和外卖做交叉匹配,还能抓一批楼凤和楼少。

再极端点,支付宝和微信支付外加银联的数据做转账勾稽,还能再抓一批二奶和鸭子。

真的毫无限制,能做的事情多了去了。

但还是那句话。

要合法。

公民隐私在现在这个年代,谁敢乱碰这条线,谁也别抓嫖了,自己先进去吧。

别以为我在开玩笑,是真的会进去的。

数据这东西之所以限制多,不是因为没用。

而是太有用了,有用到你不限制住,很快你人就没用了。

来源:半佛仙人(ID:banfoSB)

(0)

相关推荐