陈根:大数据,除了大还有什么
文/陈根
未来的商业竞争,是数据的竞争。
随着数字经济在全球的加速推进以及 5G、人工智能、物联网等相关技术的快速发展,数据影响商业竞争的关键战略性资源地位的观点,已经获得普遍认可。只有获取和掌握更多的数据资源,才能在新一轮的全球商业竞争中占据主导地位。
2014年3月,“大数据”一词首次被写入政府工作报告,大数据开始成为国内社会各界的热点。2016年3月,《十三五规划纲要》正式提出“实施国家大数据战略”,国内大数据产业开始全面、快速发展。随着国内大数据相关产业体系日渐完善,各类行业融合应用逐步深入,国家大数据战略走向深化阶段。
2020年,数据正式成为生产要素,数据要素市场化配置上升为国家战略。可见,“大数据”已经不仅是大量的数据,更进化成一种全新的思维方式和时代标志。从数据到“大数据”,数据之大,究竟何为?
大数据,顾名思义,可以解释为大量的数据。大数据技术,则是通过获取、存储、分析,从大容量数据中挖掘价值的一种全新的技术架构。
从数据的体量来看,传统的个人电脑、处理的数据,是GB/TB级别的数据。其中,1 KB = 1024 B (KB - kilobyte) ;1 MB = 1024 KB (MB - megabyte) ;1 GB = 1024 MB (GB - gigabyte) ;1 TB = 1024 GB (TB - terabyte) 。比如,硬盘就通常是1TB/2TB/4TB的容量。
而大数据则处理的是PB/EB/ZB级别的数据体量。其中,1 PB = 1024 TB (PB - petabyte) ;1 EB = 1024 PB (EB - exabyte) ;1 ZB = 1024 EB (ZB - zettabyte)。
如果说一块1TB的硬盘可以存储大约20万张的照片或20万首MP3音乐,那么1PB的大数据,则需要大约2个机柜的存储设备,储存约为2亿张照片或2亿首MP3音乐。1EB,则需要大约2000个机柜的存储设备。
当前,全球数据量仍在飞速增长的阶段。根据国际机构 Statista的统计和预测,2020年全球数据产生量预计达到 47ZB,而到2035年,这一数字将达到2142ZB,全球数据量即将迎来更大规模的爆发。换言之,大数据时代已真正降临。
除了体量之大,大数据真正的“大”还在于其发挥的价值之大。早在1980年,著名未来学家阿尔文·托夫勒在他的著作《第三次浪潮》中,就明确提出“数据就是财富”这一论断,大数据的核心本质,就是价值。
事实上,社会各界之所以对大数据抱以极大的热情,认为引入大数据能够提高自身的竞争力,是因为通过大数据处理与分析,人们能够洞悉客户、友商、产品、渠道在各个维度的信息情报和知识洞见,借此为创新应用模式及商业模式的设计提供研判线索和技术基础。
以芝麻信用为例,其从身份特质、行为偏好、人脉关系、信用历史、履约能力等多个角度对一个自然人的相关数据进行搜集和汇聚,在此基础上对个人进行信用研判。根据信用评级就可以进一步进行信用骑行、便利交通、基础通信、信用借还、信用回收等一系列产品的设计和运维。
此外,作为一种商品,数据可以买卖,可以增值,这也是大数据时代的一个基本特征。
国外数据交易大致开始于2008年,一些前瞻性的企业开始加大对数据业务的投入。初见端倪的数据应用新业态包括“数据市场”、“数据银行”、“数据交易公约”等,知名数据服务商则有Microsoft数据市场、Amazon公共数据集、Oracle在线数据交易等。
国内数据交易则起步于2010年左右。2015年9月,我国发布的《促进大数据发展行动纲要》中明确提出要引导培育大数据交易市场,开展面向应用的数据交易市场试点,探索开展大数据衍生产品交易,建立健全数据资源交易机制和定价机制。
可以说,不同利益主体迥异的价值期望都是大数据价值实现的目标,也正因为大数据的“大价值”,才引发了社会各界对大数据的普遍关注。
大数据的价值在2020年疫情的强压力测试下得以彰显。
比如,通过大数据可以对疫情监测追踪和防控救治。在疫情趋势研判、流行病学调查、舆情信息动态、人员迁徙和车辆流动、资源调配和物流运输等方面,通过政企合作开发大数据分析产品或服务,为政府、企业和公众提供实时动态的信息以辅助决策。
诸多大数据企业和互联网平台发挥了大数据技术的优势,为人们提供线上教育、在线医疗、远程办公、无接触外送、在线娱乐等服务,大批中小微企业开启数字化转型。
在大数据技术一片利好的景况下,大数据实现狂飙突进。但也正因为如此,我们才更应认真审视大数据的发展和未来。
其中,数据的品质——数据的准确性、完整性、可追溯性、持续性、真实性和共享性,决定了大数据价值实现的最终成果。针对特定领域的数据集越庞大、越真实、越准确、越可追溯、维度越丰富、越协同共享,越能得出最佳算法并带来竞争优势。
然而,从准确度来看,尽管用户源源不断地产生数据,对于企业来说,数据的收集和存储能力并不构成障碍,但90%的数据没有被真正利用起来,成了“废数据”。
数据的准确性,特别要强调与特定场景的相关度。比如,传媒、金融、医疗等各行业需要的细分数据不同,具体到同一行业的子领域也不同。比如,在医疗领域,心血管疾病和癌症诊断所要的细分数据就不一样。但现下,大部分人工智能的应用场景,都是针对一个具体的任务。
就融通和共享来看,数据的品质也并不理想。政府服务方面,来自各个部门、各个渠道的数据口径不规范、标准不统一、时间不准确、可信度不高等问题较为普遍。并且,数据质量堪忧,数据资源统筹管理不足,导致数据散而不聚、聚而不通、通而难用。
而促进政务数据、公共数据共享开放的制度规章和政策措施也还不健全,限制数据有序安全流动的体制机制障碍仍然存在,信息孤岛、数据壁垒问题突出。分级分类、权责清晰的数据管理制度体系还未建立。数据要素市场培育发展滞后,数据交易流通体系建设尚处探索初期,企业间、行业间数据共享开放不理想。
除了数据的品质外,大数据的最大挑战,就是安全。数据是资产,也是隐私。没有人愿意自己的隐私被暴露。所以,人们对自己的隐私保护越来越重视。对数据安全和个人隐私的保护,是大数据行稳致远的重要因素。
然而,现阶段,却尚未建立起适用于大数据环境下的数据分类分级安全保护制度。个人信息保护和数据安全管理跟不上快速发展的形势需要,存在个人隐私泄漏、数据泄露以及数据滥采滥用、不当使用和违规违法交易数据等风险。而即使企业合法获取数据,也要担心是否会被恶意攻击和窃取。
最后,数据监管仍相对滞后。行业、企业及机构数据庞杂分散和集中集聚现象并存,互联网巨头存在利用数据不公平竞争、限制竞争的垄断风险,针对大数据“杀熟”、平台“二选一”等问题的数据和算法监管相对空白。
近年来,大数据技术的内涵伴随着大数据时代的发展产生了一定的演进和拓展,从基本的面向海量数据的存储、处理、分析等需求的核心技术延展到相关的管理、流通、安全等其他需求的周边技术,逐渐形成了一整套大数据技术体系,成为数据能力建设的基础设施。
如今,大数据已进入一个新的发展阶段,一个需要技术、产业和制度、标准协同推进的新阶段。大数据作为一个时代热词,更代表了一种全新的思维方式和时代标签。时代诞生了大数据技术,大数据技术也正重塑着时代。