数据更像石油,还是更像阳光?| 社会科学报
随着互联网的迅猛发展,全球互联网使用人群爆炸式膨胀,产生的数据呈井喷之势。无处不在的海量数据蕴含着巨大的经济潜能和商机,也引发了人们对个人隐私被侵犯的担忧。数据应该像石油一样属于私人所有,还是应该像阳光一样普照大地?它是否会催生一种经济,是否需要公共投资,由专门的机构进行管理?近日,英国《经济学家》杂志发表文章《数据更像石油,还是阳光?》(Are Data More Like Oil or Sunlight?),对此进行了评论。
原文 :《数据更像石油,还是阳光》
编译 |熊一舟
图片 |网络
像石油:数据交易的方式与可能
数据是“非竞争性的”:因为它们是可以无限复制的,可以被许多人使用而不限制其他人的使用。但它们也是“排他性的”:像加密这样的技术可以控制谁可以访问它们。
根据设置加密滑块的位置,数据实际上可以是私人物品(如石油),也可以是公共物品(如阳光),或者介于两者之间,即所谓的“俱乐部商品”。
人们常常将数据比喻成石油,因为与石油一样,数据必须经过提炼才能有用。在大多数情况下,它们需要被“清洗”和“标记”,意思是去除不准确之处,比如进行标记以识别视频中可以看到的内容。这催生了一个全球产业,雇佣了成千上万的人,大部分在低工资国家。旧金山的初创公司Scale AI在世界各地雇佣了3万名标记员,他们负责审查自动驾驶汽车拍摄的镜头,并确保公司的软件正确分类了房屋和行人等目标。
此外,某些类型的数据和从中提取的一些见解已经被广泛交易,这使得人们更容易接受石油的隐喻。在线广告可能是最大的个人数据市场:可以点击交易基于每个浏览者的详细数字资料。根据咨询公司Strategy&的数据,2018年,在线广告业务在全球的价值为1780亿美元。数据经纪人可以跟踪每个人成千上万个数据点,将这些数据出售给从银行到电信运营商的所有企业,获得逾210亿美元的年收入。
从挖掘数据中获得敏锐的洞察力也可能非常有利可图。谷歌旗下主办机器学习竞赛的Kaggle网站上有数千个数据科学家团队相互竞争,看谁能提出最佳算法来预测建筑物的能源消耗或检测“深度伪造”视频,奖金有时超过100万美元。这也是Facebook和谷歌赚钱的方式。他们几乎从不出售数据,但他们确实出售关于谁是广告最佳目标的见解。
不过,正如“世界经济论坛”在2011年预测的那样,现在数据仍然没有成为“一种新的资产类别”。大多数数据从未易手,提高数据可交易性的努力也没有取得成功。欧洲的制造商们正努力保护其产品产生数据的产权,其他人则希望消费者拥有他们创建的数据,这样他们就可以出售这些数据,并从他们的信息中获得更大的分成。
不过,尽管数据通常被认为是一种商品,但企业数据集往往是不可替代的。每种数据的收集方式不同,目的和可靠性也不同,这使得买卖双方很难就价格达成一致:每种数据的价值很难比较,而且会随着时间而变化。至于个人数据,界定产权是一件棘手的事情,因为许多信息不能归于一个人。令问题复杂化的是,数据有大量的外部效应,既有积极的,也有消极的,这意味着市场往往会失灵。比如说,如果一个社交网络可以通过分析其他用户的数据相当准确地预测一个人的情况,那么它为什么要购买这个人的数据呢?
尽管数据不太可能像石油那样广泛交易,但科技公司一直在努力简化这一过程。电子商务巨头亚马逊的云计算部门“亚马逊网络服务”(AWS)最近推出了一个旨在让数据交易尽可能简单的市场。它有点像智能手机应用的在线商店:买家订阅feed,同意许可条件,AWS处理支付。
像阳光:“开放数据倡议”的尝试
随着石油的比喻越来越多地遭人诟病,更多人喜欢用阳光或类似资源(如空气和水)与数据进行比较。很多人会问,如果数据不能真正转化为可交易的商品,为什么还要去尝试呢?确保尽可能多地使用数据不是更好吗?毕竟,这将使社会财富最大化。换句话说,没有人会拉上窗帘,也没有人会试图收取阳光的费用。
这一论点已经催生了所谓的“开放数据”运动。它的拥护者推动各类组织和大学公开他们的数据,这样它们就可以被广泛使用,例如初创公司。今天,大多数政府都以开放数据项目为荣,尽管提供的数据质量差异很大。
最近,一些公司也开始公布他们的数据。几家研发自动驾驶汽车的公司分享了他们汽车收集的一些信息。“为了让研究人员问出正确的问题,他们需要正确的数据”,Waymo公司首席科学家德拉戈米尔·安圭洛夫(Dragomir Anguelov)说。其他公司正在研究新技术以使数据共享变得更容易:微软和其他软件制造商将很快开始实施所谓的“开放数据倡议”。
一些人认为这样的努力是数据开源运动的开始,微软尤其希望看到这种情况发生。“我们需要让人工智能及其所依赖的数据民主化”,该公司总裁兼首席法律官布拉德·史密斯(Brad Smith)在他最近出版的《工具与武器》(Tools and Weapons)一书中写道。不出所料,这一立场也带有利己主义的意味:微软并不直接从数据中赚钱,而是从处理数据的工具和服务中赚钱。
然而,就像把数据比作石油一样,将其比作阳光也站不住脚:公开数据也只能走到这一步。
对于个人数据,主要的限制是日益严格的隐私法律,如欧盟的《通用数据保护条例》(General Data Protection Regulation,简称GDPR),以及将于今年7月开始实施的《加州消费者隐私法》(California Consumer Privacy Act,简称CCPA)。对企业数据来说,这在本质上是一个经济问题:生成良好的数据要花很多钱,而且会透露太多关于公司产品的信息。
建设“公平的数据经济”
将可以安全共享的信息与应该严密保护的信息分开是一件棘手的事情,但随着时间的推移,技术应该会让这类决策变得更容易。“同态加密”允许算法在不解密的情况下处理数据。区块链是一种特殊的数据库,是许多数字货币的基础,它使人们和公司能够对谁被允许访问哪些数据,以及谁被允许访问这些数据进行详细的管理。
因此,有些人也把数据比作基础设施,这种数据划分技术就显得尤其重要。位于英国的研究机构开放数据研究所的负责人詹妮·坦尼森(Jeni Tennison)说,为了获得新的见解,你必须穿越许多数字道路,并将许多数据集和数据流结合起来。有些是私人收费公路,有些是公共多车道公路,但许多都需要作为共享数字资源来运营,由用户在“俱乐部”中管理。
然而,仅靠技术还不足以创造出这些“俱乐部产品”,还需要一些坦尼森女士所称的“数据管理”机构。数据信托、数据合作社、个人数据商店——他们在细节上各不相同,但理念本质上是相同的:他们提供一种治理结构,以组织数据访问,同时考虑到生产和使用某种特定数据的人的利益。或许现在还为时过早,但这样的数据俱乐部已经开始在许多地方出现。
尽管大多数项目仍然很小,并依靠公共资金运作,这让人怀疑他们是否会成为数据经济的重要组成部分,但他们是否成功是一个政治意愿的问题,欧洲“数据主权解码”项目(DECODE)项目创始人弗朗西斯卡·布里亚(Francesca Bria)说。她认为,城市尤其需要创建大型在线平台的替代品。她曾担任巴塞罗那的首席技术官,她把这座城市变成了一个“一切皆有可能”的典范,如今欧洲其他地方也在效仿。巴塞罗那市民不仅可以控制该市掌握的他们的数据,而且其供应商在向市政数据共享中心提供服务时必须添加他们收集的信息。
芬兰国家研发基金(SITRA)一位报告作者卢卡斯·伊尔维斯(Luukas Ilves)说,一个“公平的数据经济”——一个考虑到公民和消费者利益的经济——可能会被证明是相当有竞争力的。如果人们以及公司能够信任欧洲大陆的数据基础设施,他们将愿意分享更多更好的数据,这意味着每个人都能获得更好的服务。如果这种“良性循环”能够启动,那将是旧世界命运的一次大逆转。
文章原载于社会科学报第1699期第7版,文中内容仅代表作者观点,不代表本报立场。
外刊 | 高等教育,是否迷失在大数据中?