大数据简史
江云联动2019-06-13 16:36:49
2019年5月,2019中国国际大数据产业博览会在贵州举行。对业内人士而言,这样的会议已成为常态,毕竟今年已经是第五个年头;对普通大众而言,大数据虽然已耳熟能详,但多为泛泛的了解,它如何以迅雷不及掩耳之势发展为一种产业,又如何能够以超凡的魅力吸引世界的目光在贵州对其进行“博览”,绝非一个想当然的现象。可以毫不夸张的说,未来社会就是数据型社会,这已经导致有些学者甚至科学家在意识形态多元化的今天又开辟了一块新的领地,并在上面竖起了“大数据主义”的大旗。更有甚至,有些人干脆将传统连根拔起,让数据取代基因、量子等,成为新的“存在之王”。大数据来势汹涌,气势磅礴:它会把人类的文明推上新的高度,也会把人性的弱点加倍呈现;它会重塑我们这个时代,也会影响每一个个体。从某种程度上讲,如果不了解大数据,就无法洞悉未来。同样,如果不了解大数据的历史,就无法真正的理解大数据。下面,笔者企图用几个标志性的事件对大数据做一次回溯,记为大数据简史。
公元前20世纪——早期实践
公元前2000年的一个夜晚,天空晴朗,在古巴比伦城的郊外,几个僧侣正在仰望星空。他们既非赏月,也不是对天冥想,而是观测。只要天空条件允许,他们几乎夜夜观察天空的景象,并把结果记录在土碑上。日积月累,他们汇总了大量的信息,并渐渐从中看出了天文现象的周期性。那个时候,他们就已经把一年定为360天,或12个月,时常还加入闰月,作必要的调整。据公元前6世纪的一个文件说,到后来,他们已经能够事先计算出太阳和月亮的相对位置,因而也就有可能预测日、月食了。
有人认为,古巴比伦人的天文观测不算大数据,而且把大数据的历史推到公元前有些荒诞。但是,就像我们把伽利略视为近代科学实验方法之父,并不代表在他之前没有科学实验一样,大数据的崛起固然与计算机技术的腾飞有很大关联,也不代表着计算机诞生之前没有大数据的应用。实际上,在《大数据时代》一书中,作者维托克·迈尔-舍恩伯格就将马修·方丹·莫里的导航图,视为大数据的早期实践,而这个人生活在19世纪。如果我们对大数据的认知跳出计算机的框架,就会发现历史上有关大数据的实践还有很多。古人通过长期观察,发现了蛙鸣与下雨的关系;亚里士多德每天打破一个鸡蛋,观察小鸡胚胎的发育过程;门捷列夫根据既有的元素制定了元素周期表。等等这些案例,无不彰显出大数据的影子。
17世纪40年代——数据前传
说到大数据,很多人的意识里会冒出“小数据”的概念。遗憾的是,在大数据的世界里,它只有“前传”,没有对偶,毕竟从预测、分析的角度来看,谈论“小数据”是没有意义的。要说前传,我们必须从“数据”这个词开始。如此一来,我们必须回到英语的世界,追溯“data”的起源。据说,“data”的出现可以追溯到17世纪40年代。不过,当时这个单词的意思与现在并不相同,而是与它的拉丁语起源“datum”相似,有“给予”之意。而真正意义上用“数据”表示“可传输或储存的电脑信息”还要在300年以后,准确地说,是在1946年,也就是世界上第一台计算机诞生之年。而“数据处理”这种与大数据运用息息相关的表述,则是在1954年被第一次使用。
20世纪80年代——概念成型
数据自1946年有了我们现在所理解的那种“传输”、“储存”的意义之后,并没有引起人们额外的惊奇,而且数据的价值和意义还主要停留在分析、分享的阶段。这很容易理解,毕竟计算机从诞生到普及还有一段路要走。不过,这段路并没有走太久,在20世纪80年代的时候,人们就已经意识到数据的几何级增长可能对世界带来的冲击。比如,在1980年,美国著名未来学家阿尔文·托夫勒就在其著作《第三次浪潮》中,将“大数据”称为“第三次浪潮的华彩乐章”。不过,他可能并没有在书中直接用到“大数据”这个词汇,因为公认的最早使用这个词汇的人是90年代在美国硅图公司担任首席科学家的John Mashey。就像数据的概念从诞生到后来会发生意义流变一样,大数据的初始内涵与它现在的意义也肯定不甚相同。托夫勒也好,John Mashey也罢,他们当时对大数据的理解更多的停留在表象层面,至于大数据的理论以及可能的应用范围等,还是后来在商用的刺激下被不断深化和放大的。
20世纪90年代——小试牛刀
如今,在讨论大数据的时候,人们通常会把沃尔玛“啤酒与尿布”的故事与谷歌“预测流感”的故事作为案例一起分析,就好像这两个故事发生的时间大体相似。实际情况是,当沃尔玛有意识地利用销售数据预测顾客的购买动机及行为时,谷歌公司还没有成立。作为大数据应用的知名商业案例,“啤酒与尿布”的故事可以追溯到20世纪90年代。当时,沃尔玛超市管理人员分析其销售数据时,发现了一个难以理解的现象:在日常的生活中,“啤酒”与“尿布”这两件商品看上去风马牛不相及,但是经常会一起出现在美国消费者的同一个购物篮中。这个独特的销售现象引起了沃尔玛管理人员的关注。经过一系列的后续调查证实,“啤酒+尿布”的现象往往发生在年轻的父亲身上。当然,这个现象源于美国独特的文化。在有婴儿的美国家庭中,通常都是由母亲在家中照看婴儿,去超市购买尿布一般由年轻的父亲负责。年轻的父亲在购买尿布的同时,往往会顺便为自己购买一些啤酒。沃尔玛的管理人员发现该现象后,立即着手把啤酒与尿布摆放在相同的区域,让年轻的美国父亲非常方便地找到尿布和啤酒这两件商品,并让其较快地完成购物。这样一个小小的陈列细节让沃尔玛获得了满意的商品销售收入。
2008年——走向正统
2008年对“大数据”而言算得上是一个分水岭,因为国际知名杂志《自然》推出专刊,对其做了介绍。3年后,美国的《科学》杂志也做了同样的事情。它们从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面介绍了海量数据所带来的技术挑战,自此,“大数据”一发不可收拾,成为学界研究的热点。鉴于《自然》、《科学》等杂志在国际学术圈中的权威及影响,推出专刊介绍大数据,无异于为其作了背书。如果说,大数据在此之前只是商人、学者零散的激情,那么此后则成为了整个社会的共鸣。
2012年——新的时代
2012年,有两本书在国内市场上异常火爆,一本是著名信息管理专家、科技作家涂子沛的《大数据》,另外一本是著名数据科学家维克托·迈尔-舍恩伯格的《大数据时代》。当然,有关大数据的作品还有很多,但这两本书最有代表性,因为他们用通俗易懂的语言,形式多样的案例对大数据做了一次既具有科普性又不失趣味性的解读。特别是维克托·迈尔-舍恩伯格,从理论的层面预言大数据将导致人类思维、商业以及管理领域的变革。以思维为例,之前人们以“因果”作为拓展新知,产生洞见的固有逻辑,但大数据的出现将“相关关系”上升到思维的高度。基于此,有学者甚至发出“理论的终结”之类的感叹。不管上述分析正确与否,大数据作为一个时代的标签已经成型。这一判断非常容易得到确认,因为现代社会所有的设备和系统,如果没有数据的参与,就无法智能。云计算也好,人工智能也罢,从根本上讲,都是靠数据驱动的。19世纪、20世纪有很多标签,但不妨碍我们称其为“石油时代”。同理,21世纪还存在着诸多可能,但不妨碍我们称其为“大数据时代”。