大数据之殇,关于大数据经典案例与谬误的冷思考

【导读】

纸牌屋、啤酒尿布等案例是大数据时代流传最广,也是最经典的案例了。但是,事实是什么呢?

另外一些著名的大数据案例,如:波士顿市“颠簸的街道”失败了,谷歌流感趋势预测也失败了......

其他很多宣称成功运用大数据分析、发现前所未见的规律、取得重大商业成就的案例也都似是而非。

对于大数据的谬误该怎么思考呢?

01

纸牌屋案例

---一个谎言

大数据在互联网视频领域的商业应用,很多人都会想起一个业界曾经流传甚广的案例《纸牌屋》,但这实实在在的是一个谎言!

这个谎言的案例是这样的:数据研究者通过分析3000万北美用户观看视频的行为数据后,发现了三个关键词“凯文.斯派西”、“大卫.芬奇”和“英剧《纸牌屋》”,与这三个关键词有交集的观众占了主要的部分。由此得到一个预测,就是将这三种元素结合在一起的片子将会非常的受欢迎。

由此,成功推出这部剧集。

这听起来很和逻辑,也很有Fashion的噱头。比起漫威也不逊色哦。

可事实是这样的:

翻拍英剧《纸牌屋》的创意来自MRC公司。

MRC电影公司积攒了的大量的电影资源,当时也正准备转型拍摄电视剧,巧合的是,公司的一位实习生在飞机上看了这部英国旧剧。于是就有了《纸牌屋》的诞生。

结论:大数据根本不是《纸牌屋》诞生的决定性因素,起决定作用的还是影视圈里知道目前仍然是的关键词:“资金”和“人脉”。

02

啤酒与尿布案例

---虚构的故事

谈到大数据于营销的作用,不得不提到另一个神话:“啤酒与尿布”案例。

这个神话据称是发生在美国沃尔玛超市的真实案例。

20世纪90年代,美国沃尔玛超市管理人员分析销售数据时,发现了一个令人难以理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品,会经常出现在同一个购物篮中,且大多出现在年轻的父亲身上。

分析背后原因是,在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲去超市买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒。

根据大数据发现的相关性,沃尔玛决定把尿布和啤酒摆在一起出售,这个奇怪的举措使尿布和啤酒的销量双双增加。

这么伟大的发现,其他超市还不赶紧学习效仿?

很遗憾的是:到超市去观察一下,就会发现根本没有类似的物品摆放,甚至相近的都很少。

这个神话的事实是:追溯这宗噱头十足的新闻的根源,调查者已经证明,这个江湖传说只是数据分析公司的经理人虚构出来的故事。

03

怀孕预测指数:怀孕的女高中生案例

---以讹传讹的尴尬故事

这是一个更为识破天惊的预测性的案例:“怀孕的女高中生”。

据说Target百货公司通过大数据模型建立顾客数据分析模型,可通过“怀孕预测指数”在很小的误差范围内预测到顾客的怀孕情况,因此Target就能早早地把孕妇优惠产品的广告寄发给顾客。《纽约时报》甚至报道了Target的优惠广告间接地让一个蒙在鼓里的父亲意外发现他的高中生女儿怀孕了,轰动了全美。

但在这个成功的营销事件的背后,是这些优惠广告只是随机的发送给用户,其中大量收到优惠广告的妇女并非孕妇。

所以事实是:其实是北美BI(商业智能)业者流传的一个尴尬故事,用来说明传统商业智能系统的局限。

“少女怀孕的案例”尽管跟大数据没有什么关系,但是起到了普及作用,故事本身的真实性已经不是那么重要,就让她以讹传讹的流传吧。

04

女同学50%都嫁给了该校的男性老师

---片面的数据造成的危害

某大学年度调查统计显示,本校计算机系的女同学中,50%都嫁给了该校的男性老师。

该消息一经公布,立即引起校内外的巨大反响,人们对师生恋、校园恋议论纷纷,很多人说是某校的炒作。

经几次调查核实,该消息确实是真实有效的。

事实是:该大学计算机系只有两名女生,其中一名女生和计算机系老师相恋结婚,由此得来的50%是真实数据。

这个笑话不但反映了使用片面的数据造成的危害,而且揭露出一部分人过于迷信数据的心理。

数据虽然是客观和科学的,但怎么使用和看待数据却是人的问题。如果有些别有用心的人利用大众对于大数据盲目迷信的心理来误导大家,那么这种披着权威外衣的欺骗甚至要比不用大数据更能导致严重后果。

05 

认识大数据的谬误

1 “数据”概念谬误

对数据概念理解的错误反映了大数据专家们思维的混乱。

数据概念有两种含义。

第一种数据在历史上早就在使用,这是人们拿来比较、衡量大小、多少的概念,即量值、数值。

另一种是道20世纪才诞生的比特数据,是信息科技的独特产物。这种数据是比特的集合,这是我们当今社会真正重要的一种数据的含义。比特形态数量有限,只有两种,具体的数据对象则千姿百态,是比特的无穷无尽的排列组合。

2 “量化”谬误:大数据是全量数据,能够预知未来

基于量值统计的大数据成为红得发紫的显学。大数据把“量化”研究方法拔高到了无以复加的地位。以至于形成一种传染病---“数字崇拜症”。

大数据是全量数据,源于事实,也是事实,它并非既有经济理论变量性的函数分析,并不能在时间轴上理所应当地延展开去。在时间轴上,大数据终归是局部的,远非全量,它是实然的,是已发生的,即其性质上仍然是历史数据而已。

基于大数据并不能建构所谓的“历史规律”,历史数据对于未来有一定的作用,但是根本上讲,历史数据并不能决定未来。

没人能够凭依大数据而可预知未来,成为先知。

3 “历史”谬误

过去积攒的统计数据是历史、是浮云,记录下来的旧数字再多、花样再丰富,对未来趋势的预测能力也非常有限,不能太当真。

那个著名的关于猪的寓言,就是用来说明这个道理的:

一头生活在猪圈里的猪注意到每天都有饲养员喂它食物,它收集了99天的完备数据,基于大数据统计作出预测:未来每天都有免费的食物提供给自己。在第100天,它的预测得到了证实,一个光彩夺目的大数据成功案例诞生了!但在第101天,它被送进了屠宰场。

大数据许诺通过收集历史数据预测未来。很多自我膨胀的量化统计专家迷信,收集越多越全的数据,就越能保证发现重大的规律,对未来的预测就越准确,越能创造爆炸性的商业成功,越能让企业立于不败之地。但是这些头脑热到发昏的专家们忘记了,历史都是人的历史。

谷歌流感趋势预测失败的一个可能原因就在于此。

4 “大”谬误

“大”方向的错误影响更为深远,也更加致命。

有人认为,大数据意味着“全知”,进而“全知”意味着“全能”,发展开去,大数据终将主宰经济社会,这是关乎大数据最大的谬误。

大数据反复强调数据量大、数据全,上帝视角的叙事在召唤一种集体潜意识:即只有有权有钱的超级机构才有能力、有资格汇聚一切信息。

量化统计大数据的“大”和“统”背后隐含的观念,是数据必须向一个中心全面集中,是壁垒森严的超级关系数据库、数据中心,是信息为少数顶尖精英严格控制以保障“隐私和安全”。网络草根们存在的意义,只是向大核心贡献自己的所有信息数据。

个人既不该被允许查阅别人的任何信息,甚至也不能了解自己的那些数据被收集和记录。

因此不要过于迷信大数据尤其是感念不清,以及只停留在别人嘴巴上的大数据。真真的要沉下心研究以下大数据究竟有什么组成,怎样适当的应用。避免在神话下被愚化。

06

总结

数字经济时代,似乎“谁”“掌握”了大数据,就能够对经济活动乃至经济社会做到“全知”,进而能够“预知”经济社会的未来,甚或能够“全能性”地主宰经济社会,但其实这些都是关于“大数据”的认识误区。

“大数据”是“经济自由”所投射下的数字影像, 大数据就是社会经济活动的一层“数据化的外衣”而已,不管它多么服帖、合体或随心,活动着的是里面的“身体”,且这个“身体活动”是自由意志所决定的。如果认为掌握了大数据就能影响乃至决定人们的经济决策,将自身的意志贯彻到别人的头上去,这就是本末倒置了。

现在的企业越来越倾向于使用大数据得出的结论作为未来的决策依据。尽管如此,仍有不少数据分析专家认为,当企业开始搞大数据的时候,他们就走上了一条不归路,数据越大,其中枝节越多,错误也就越多。

大数据是信息化系统发展到一定阶段以后的必然产物,更大更全面的数据处理能力必将成为企业未来重要的生产力来源。然而,对于大数据,我们不能只抱着一片痴心,还要像认识硬币的正反两面一样,对大数据的负面问题有所防范。

图源自华云数创(北京)科技有限公司

首先,不迷信不盲从大数据。大数据不是万能的,更不是完美的,数据仅仅是一种参考资料,如何看待和使用数据还要靠人。因此要用审慎的心态看待数据,避免因使用片面的数据而产生决策偏差,甚至是步入陷阱。如果我们不能合理使用大数据,那么大数据就真的成了“大忽悠”。

其次,要根据企业实际选择合适的大数据方案。在大数据系统立项和建设之初,就要充分考虑投入和产出的比率,对于产出价值不大的系统应采取审慎的态度建设,并且严格控制规模,避免“大而全”的建设思路。只有在建设前期就严格把关,才能防止大数据成为“大负担”。

图源自华云数创(北京)科技有限公司

随着信息技术和人类生产生活交汇融合,全球数据呈现爆发增长、海量集聚的特点。无论是国家、企业还是社会公众,都越来越认识到数据的价值。因此,近年来,各地纷纷成立大数据发展局,企业纷纷推动数据资产治理,大数据辐射的行业也从传统的电信、金融逐渐扩展到工业、医疗、教育等。一时间,仿佛各行各业都在谈大数据,人人都在谈大数据。但也有声音说大数据迎来了“七年之痒”,面对大数据热潮也需要一些“冷思考”。

我国大数据究竟发展得如何?

未来我国大数据发展还有哪些机遇和挑战?

(0)

相关推荐