陈根:算法歧视,真的存在吗?
文/陈根
人工智能的发展让人们逐也渐意识到算法所依赖的大数据并非中立。它们从真实社会中抽取,必然带有社会固有的不平等、排斥性和歧视的痕迹。
早在20世纪80年代,伦敦圣乔治医学院用计算机浏览招生简历,初步筛选申请人。然而在运行四年后却发现这一程序会忽略申请人的学术成绩而直接拒绝女性申请人以及没有欧洲名字的申请人。这是算法中出现性别、种族偏见的最早案例。
今天,类似的案例仍不断出现。用于训练图像分类 AI 模型的知名数据集ImageNet,就被许多研究人员指出了问题。
为了解决上述问题,卡耐基梅隆大学和乔治华盛顿大学的两名研究人员基于ImageNet 2012 数据库,对 iGPT 和 SimCLRv2 两个知名的无监督计算机视觉模型进行了分析和测试,寻找它们是否存在内在偏见并对其进行量化。
最终得出的答案是肯定的,而且这些偏见与人类社会广泛存在的偏见十分相似,比如男性与事业相关,女性与家庭挂钩。甚至在一项测试中,对女性图片有 52.5% 的补全图片由比基尼或低胸上衣构成。
进一步研究中,研究人员分析了可能的偏见来源:
由于 ImageNet 数据集中的图片都来自于互联网上,在收集过程中,少数群体天然存在代表性不足的问题。比如 ,“婚礼” 是一个令人愉悦的场景,但相较于黑人,白人在婚礼图片中出现的频率更高,模型就会自动倾向于将其视为高亲和度,尽管无监督学习的预训练过程没有给婚礼打上任何与白人相关的标签。
此外,模型所采用的自回归算法(Autoregression)本身在实践中,也可能会难以避免地引入刻板印象。可以说,算法对每一个对象相关行动代价与报偿进行精准评估的结果,将使某些对象因此失去获得新资源的机会,这似乎可以减少决策者自身的风险,但却可能意味着对被评估对象的不公。
想要打造一个和谐的大数据时代,最大限度地减少偏见和歧视是不可回避的问题,用技术的中立包装社会的不公,是机器时代最大的恶意。