大数据抓嫖?我看笑了 2024-05-11 15:30:34 作者:半佛仙人来源:半佛仙人(ID:banfoSB)昨天朋友圈被一个小道消息刷屏了,大家可以看一看这个内容,先自己感受一下。这个案例一出来,很多人都在哀嚎大数据让人无所遁形之类的云云,还有人在讲嫖这个行业的种种。但是作为一个风控从业者,并且真的和多地公安合作过各种神奇项目(包括抓逃)的人,我看到这个新闻的第一反应是离谱。很多人对于大数据的理解是数据无所不能,没错,但是大数据发挥威力是有很多前提条件的。套用到这个场景里面,大数据可以做到,但是实现不了。再感受下这句话,可以做到,但是实现不了。我先举个简单的例子,核弹牛逼不牛逼?牛逼炸了对不对。但是想让核弹产生威力,你得先有办法把核弹丢到该丢的地方去,这就要求你有特别强的运载能力,以及定位能力和导航能力。同时,你还得有非常强的防干扰,防击落,防伪装能力,不然你的东西会被拦下来。然后,想让核弹爆炸,引爆也是一个非常复杂的专业领域,你以为是拿个锤子砸两下就能把核弹砸爆的?最后,你以为核弹炸完就完事儿了?事后要怎么处理烂摊子,更考验综合实力。所以你看,核弹非常牛逼,但是牛逼也是有条件的。同样的道理,大数据的威力很牛逼,但这个牛逼也是有很多前提条件在里面的。为啥我说这个案例特别离谱?因为这里面透露出来的要素都是非常离谱的,因为我自己做过很多公安的数据项目。你用大数据做任何事情,天字第一件事儿一定是你的数据从哪来。没数据你做个屁大数据。那问题来了,数据从哪来,有4个问题。1-数据源选择问题2-数据源获取问题3-数据应用(清洗)问题4-数据源合法性问题大家这时候再看这个截图,你对照一看,就觉得离谱。数据源选择问题,说的很明白,爬TM和JD的数据。这时候看数据源获取。爬数据,也就是爬虫工程,这里分2种。一种是外部爬取,就是你自己写一堆爬虫,去爬对方暴露在外的界面,一般电商大战的时候,各家都会实时去爬对手的爆品的单价,自己也会有策略动态跟着调价,这块儿数据是暴露在网页端orAPP端的,很容易爬,只要有IP池就行,这种内容都是暴露在所有公共视野里面的。一种是内部爬取,就是不暴露在公众视野里面,但是有授权就可以爬取。例如你JD和TM的交易记录,只要你愿意授权给他们,他们就爬取你登录后的页面,爬你私人的历史订单,以及收货地址,以及浏览记录的这种信息。这种内部爬取是必须你自己授权,而且只能授权你自己看到的你自己的信息,这不是公开信息。那么问题来了,大家自己打开TM和JD的商品页面,自己看看销售记录,你能看到的所有数据都是脱敏or加盐的,还有大量匿名的,你根本看不到这些人的手机号,地址以及邮箱信息,就连ID信息都不全,一堆星号,抓一堆这种数据出来,有啥用?你知道谁是谁?有人说可以用模糊匹配,例如半****佛,可以直接匹配库里的半****佛,这俩大概率是一个人。那问题来了,你库里的数据哪里来的?合法吗?就算合法,谁告诉你半***佛就一定等于半***佛?不同电商平台的数据加盐规则都是不同的,一个空格算一个*还是两个*?字母算几个*?汉字算几个*?我们都知道汉字在电脑里是2个字符,字母是一个字符。而且,允不允许标点符号的存在?你有本事破解TM和JD的规则,你还创个屁业。就算这个你搞定了,你怎么搞定*的具体内容?两个半***佛,脱敏之后,完全可以是半小胖子佛和半大帅比佛,你能说这俩是一个人?这不闹吗?就算这俩半***佛,脱敏后都是半大帅比佛,也不能代表是一个人。为啥?因为网络又不是ID独占的,别人完全可以申请一样的ID,同理,一个人在不同的平台ID本身就不同。为啥我在知乎叫半佛仙人,在B站叫硬核的半佛仙人,在微博叫半佛仙人正在装。不是我有创意,而是ID被别人用了好不好。同样的,我为啥要在不同平台叫一个ID呢?在淘宝可以叫半淘宝,在拼多多可以叫半拼多多,在京东可以叫半京东,顺丰发件我叫半顺丰,谁把我数据卖了我可以溯源到问题平台。在这种情况下,你怎么做逻辑匹配呀?这东西根本就不准呀。还是模糊的逻辑匹配,逻辑网的Key如何设计?谁要是能把这个都搞定,建议直接去币圈,还创个屁业,直接去币圈当中本聪的爷爷。知道为什么我只说了TM和JD,没有去说通话记录么,明明截图里还有说通话记录的事情。因为如果做不到TM和JD的身份锁定,你有一堆通话记录你也不知道要咋匹配。这就和万事俱备,就差一个程序员一样搞笑。好了,假如现在有个技术天才,真的搞定了这一切。甚至可以直接从TM和JD拿到精准的脱敏数据。那么他将面临的可能是法律的制裁。你这么去爬大平台的数据,做自己的应用,你在找死吗?过去两年多少大数据精英因为这个进去捡肥皂了?而且这里面还有通话记录,运营商让你爬了吗?知道因为这个事情,多少爬虫公司进去了?还是说这是运营商or公安给你的数据?他们给你数据的时候,用户授权了吗?主动授权了吗?这可和绿码之类的东西不一样,总不能我买东西还授权一个验嫖功能吧。而且你能不能告诉我,一个TX投资(还不是控股)的小公司,会不会被TM和JD弄死?TX自己都不敢做这种事情,南山必胜客真不是浪得虚名。头条和微信基于用户头像都打了得有300个回合了,菜鸟和顺丰前两年因为用户数据打的多难看?你觉得哪个小公司做了这种事情不会被制裁?而且别以为大公司的安全团队是摆着看的,人家的盾都是按礼拜升级的,有时候不用升级盾,业务换个命名规则你就凉了。另外,更重要的是,不说平台让不让你爬,用户允许你爬了吗?你爬了这么多用户的信息,你侵犯隐私了朋友,现在是法治社会。我坦率的告诉你,大数据能做的骚事情多了去了,最大的问题就是不合法。好了,现在又有人说了,这是公安用,公安抓嫖用。这就是外行对公安模块的不理解了。十多年前什么开房记录之类的还有人操作,现在口子基本都堵的死死的。谁告诉你公安用数据不用在意用户隐私的?公安现在受的监管是非常严的。你知道一个警察在公安系统里面想看任何数据,都必须得有合理合法的缘由吗?而且就这样,还不一定能审批通过。你知道每个地方的公安,对于数据调取都有严格的限额吗?超过限额要么卡死,要么问询。你知道公安系统数据有多少人盯着吗?你知道现在追责是无限制追责吗?而且连你上级公安一起追责。你知道公安数据任何涉外都有一个中转服务器叫警务通吗?警务通不仅仅是那个手持PDA,更是一套机制。你知道公安发函想要调取数据的时候,大公司其实都不配合或者打太极拳吗?公安是真正的带着镣铐跳舞。我做公安项目的时候,各种审批和限额弄得我头秃。你幻想中公安无所不能,但是除非你真的有案子或者有重大嫌疑并且被认定了,并且上级审批了,才能用。例如那个微博骂烈士的SB。不然天天跑数据库干嘛,很多地方的公安服务器也顶不住你这么跑。重器只有在关键的时候才能用。说真的,抓嫖这点破事儿,根本上升不到这么重要的地位。要是抓嫖真的这么重要,都不用这么麻烦,直接开房数据做匹配就好了。根本不用通话记录和网购这些花里胡哨的东西,一个是不准,一个是这年头谁还打电话整嫖,只要用开房数据就好了。分分钟就把买的多的和卖的多的都抓了。不需要别的,开房数据做聚合就够了。要是觉得抓的不够多,再让电商配合把收货地址和外卖做交叉匹配,还能抓一批楼凤和楼少。再极端点,支付宝和微信支付外加银联的数据做转账勾稽,还能再抓一批二奶和鸭子。真的毫无限制,能做的事情多了去了。但还是那句话。要合法。公民隐私在现在这个年代,谁敢乱碰这条线,谁也别抓嫖了,自己先进去吧。别以为我在开玩笑,是真的会进去的。数据这东西之所以限制多,不是因为没用。而是太有用了,有用到你不限制住,很快你人就没用了。 赞 (0) 相关推荐 Oracle 查询字段不包含多个字符串方法 开发过程中遇到个需求,用户要提取的数据列中不包含 YF.ZF.JD的字符串, 方法1:select * from table where order_no not like '%YF%' and ... 几个吓尿的公众号 今天为大家推荐几个细分领域中出类拔萃的公众号,它们的每一篇推文都值得你点开! 1 半佛仙人 ID:banfoSB 从风控和黑产的角度思考互联网的时事,毒鸡汤毁灭者,社会达尔文主义硬核玩家,每一篇文章都 ... 大数据抓嫖把我看笑了 大数据抓嫖把我看笑了 高考大数据揭秘,看女生如何“完胜”男生 3月7日,精华教育考试研究院发布高考大数据,揭秘高考中的女生如何"完胜"男生. 新高考更"偏爱"女生 2020年是北京新高考元年,三门选考科目实行等级赋分制,从 ... 【编译】在大数据时代,看渣打银行如何革自己的命? 数据猿导读 随着数据科学和开源数据技术时代的到来,传统银行逐渐形成了两大类:一类是积极拥抱数据革命,另一类则保持原来的状态. 编译 | 郭敏 这是一个信息爆炸的年代,移动.实时社交和物联网产生了海量的 ... 谷歌收购Kaggle布局人工智能领域,嗨球科技与北理工合作共建足球大数据系统 | 大数据周周看 数据猿导读 Google收购最大数据科学社区Kaggle,全面拓宽在AI社区渗透度:嗨球科技与北理工合作,共建校园足球大数据系统:清远市清新区将建粤北大数据交易中心--以下为您奉上更多本周大数据热点事 ... 阿里元老汪海将接任B2B事业部总经理一职,脸书宣布将利用AI识别自杀倾向用户 | 大数据周周看 数据猿导读 传阿里元老级人物汪海或将接任阿里B2B事业部总经理一职:Facebook宣布开启新篇章,要用人工智能识别自杀倾向用户:金融大数据公司"佳锐科技"正式登陆新三板挂牌上市- ... 惠普收购网络安全创企 Niara,康美药业等拟50亿元设立大健康产业基金 | 大数据周周看 数据猿导读 康美药业与深圳瑞元.粤财信托共拟50亿元设立大健康产业基金:惠普收购美国网络安全创企 Niara,增强自身物联网网络安全能力:数字媒体产品开发公司"软众数字"正式挂牌新 ... 谷歌、Uber接连推出大数据产品,贵阳市“牵手”NIIT打造人才培训基地 | 大数据周周看 数据猿导读 贵阳市与印度国家信息学院合作,打造大数据人才培训基地:浪潮集团与兰州市政府达成战略合作,共建兰州大数据产业园:网络营销解决方案服务商"思亿欧"新三板挂牌上市--以下为您 ... 阿里起诉售假网店将“打假”进行到底,天源迪科投资8亿元布局金融大数据 | 大数据周周看 数据猿导读 天源迪科拟7.98亿元收购银行IT服务商维恩贝特,布局金融大数据领域:SaaS 服务提供商 Freshdesk宣布收购数据集成公司Pipemonk:IT解决方案供应商博智科技申请挂牌新三板 ... 信贷科技发起百亿元并购基金,银谷推出大数据风控产品“随心时贷" | 大数据周周看 数据猿导读 山西省宣布成立大数据产业协会:中国信贷科技发起百亿元金融科技并购母基金:山西省宣布成立大数据产业协会--以下为您奉上更多本周大数据热点事件. 作者 | abby 热 点 阿里巴巴专注数 ...