诞生于第二次世界大战、恐怖纳粹统治时期的1947年纽伦堡法案和随后的1964年赫尔辛基宣言,帮助人们建立起了知情同意原则(Informed Consent),该原则建立在人类尊严和控制关于自己信息传播的基础上。在接下来的数十年间,知情同意原则指导了医学、心理学等学科收集实验对象数据的方式。尽管这一原则尚不完善,但是它仍然在一定程度上保护了大数据时代的个人隐私保护。然而,在这个大数据时代,知情同意、隐私或个人代理的基础已经逐渐被侵蚀。政府机构、学术界和工业界都在未经同意的情况下,以匿名的名义积累了数以百万计的人类图像,通常是出于未声明的目的。这些说法具有误导性,因为总体而言,汇总数据的匿名性和隐私性较弱,更重要的是,人脸图像不是可以汇总的数据类型。从表1可以看出,在同行评议的文献中发现了数千万人的图像,这些图像是在未经个人同意或知情的情况下获得的,也没有得到IRB(强制性机构审查委员会)的批准。表1. 包含人类图像的大规模数据集在此背景下,UnifyID AI Labs的Vinay Uday Prabhu, The Irish Software Research Centre的Abeba Birhane,将目光关注最著名和最规范的大规模图像数据集之一:ImageNet数据集。从有问题的图像来源方式到图像中的人类标签,再到使用这些图像训练人工智能模型的下游效应,ImageNet和大规模视觉数据集(下文简称“LSVD”),构成了计算机视觉的代价巨大的胜利。在他们的论文LARGE DATASETS: A PYRRHIC WIN FOR COMPUTER VISION?中,两人指出,这场胜利是以损害少数群体为代价的(数据实战派后台回复“ImageNet”获取论文下载链接)。这个高质量但低隐私的计算机视觉行业新起点,变相助长了在这之后数年技术对个人和集体隐私、同意权的侵蚀。ImageNet数据集的出现被广泛认为是深度学习革命的关键时刻,这场革命彻底改变了计算机视觉(CV)和人工智能(AI)。在ImageNet之前,计算机视觉和图像处理研究人员在小数据集上训练图像分类模型,如CalTech101 (9k图像)、PASCAL-VOC (30k图像)、LabelMe (37k图像)和SUN (131k图像)数据集。ImageNet拥有超过1400万张图像,分布在21,841个synsets中,包含1,034,908个边界框注释,弥补了以前规模方面的缺失,主导了曾经的计算机视觉奥运会,拥有6000万个参数的卷积神经网络(CNN)在这个数据集中大放异彩。ImageNet创建于十多年前,迄今仍是最具影响力和最强大的图像数据库之一。在它创建的多年后进行事后审判,似乎是多余的,但ImageNet确实对其他大规模数据集的持续性和计算机视觉领域的文化培养起到了关键作用。1