陈根：算法歧视，真的存在吗？

2024-07-29 15:08:15

文/陈根

人工智能的发展让人们逐也渐意识到算法所依赖的大数据并非中立。它们从真实社会中抽取，必然带有社会固有的不平等、排斥性和歧视的痕迹。

早在20世纪80年代，伦敦圣乔治医学院用计算机浏览招生简历，初步筛选申请人。然而在运行四年后却发现这一程序会忽略申请人的学术成绩而直接拒绝女性申请人以及没有欧洲名字的申请人。这是算法中出现性别、种族偏见的最早案例。

今天，类似的案例仍不断出现。用于训练图像分类 AI 模型的知名数据集ImageNet，就被许多研究人员指出了问题。

为了解决上述问题，卡耐基梅隆大学和乔治华盛顿大学的两名研究人员基于ImageNet 2012 数据库，对 iGPT 和 SimCLRv2 两个知名的无监督计算机视觉模型进行了分析和测试，寻找它们是否存在内在偏见并对其进行量化。

最终得出的答案是肯定的，而且这些偏见与人类社会广泛存在的偏见十分相似，比如男性与事业相关，女性与家庭挂钩。甚至在一项测试中，对女性图片有 52.5% 的补全图片由比基尼或低胸上衣构成。

进一步研究中，研究人员分析了可能的偏见来源：

由于 ImageNet 数据集中的图片都来自于互联网上，在收集过程中，少数群体天然存在代表性不足的问题。比如，“婚礼” 是一个令人愉悦的场景，但相较于黑人，白人在婚礼图片中出现的频率更高，模型就会自动倾向于将其视为高亲和度，尽管无监督学习的预训练过程没有给婚礼打上任何与白人相关的标签。

此外，模型所采用的自回归算法（Autoregression）本身在实践中，也可能会难以避免地引入刻板印象。可以说，算法对每一个对象相关行动代价与报偿进行精准评估的结果，将使某些对象因此失去获得新资源的机会，这似乎可以减少决策者自身的风险，但却可能意味着对被评估对象的不公。

想要打造一个和谐的大数据时代，最大限度地减少偏见和歧视是不可回避的问题，用技术的中立包装社会的不公，是机器时代最大的恶意。

赞 (0)

万万没想到，EfficientNet居然这么火！

上周52CV曾经第一时间报道了谷歌新出的算法EfficientNet: 谷歌大脑提出EfficientNet平衡模型扩展三个维度,取得精度-效率的最大化! 引起了大家的广泛关注. 在Efficient ...
【杂谈】万字长文回顾深度学习的崛起背景，近10年在各行各业中的典型应用

笔者作为一个从业5年多的技术人员,吃到了深度学习的早期红利,这次来聊一聊深度学习的崛起背景.当下的典型应用领域,算作给尚未或者正打算拥抱这门技术的朋友们一个较为全面的科普. 深度学习为什么能够崛起一 ...
陈根：北大博士送外卖背后，算法秩序浮现

文/陈根外卖骑手,再次引发全网关注.这一次,起因变成了发表在顶刊<社会学研究>上的一篇博士论文:北大博士后陈龙为做研究,加入了在中关村的一个外卖骑手团队,体验了 5 个半月的配送工作,写 ...
陈根：走进癌症，算法测癌

文/陈根癌症的个性化,加之精准医学时代的到来,正对过去癌症临床指南造成了全新的.巨大的挑战. 事实上,一直以来,癌症作为一类复杂疾病,都是多种疾病的统称,包括肺癌.胃癌.肠道癌.皮肤癌等.这些癌症有 ...
陈根：间歇性饮食，真的有益吗？

文/陈根近年来,间歇性禁食策略备受推崇.间歇性禁食(IF)是一种认可度颇高的针对代谢疾病的饮食干预措施,起源于18世纪的欧洲,是一种禁食与正常饮食交替.短期内连续禁食或者限制饮热量的饮食方式. 已有 ...
陈根：算法新进展——可“预测”癌症语言？

文/陈根当打开Netflix的时候,它会不会给你推荐一些剧,"恰好"是你感兴趣的:当在Facebook上聊天时,它会不会给你推荐一些朋友,"恰好"是你欣赏的: ...
陈根：从算法权利到算法权力，打破算法赋权失衡

文/陈根当前,大数据的快速发展正使算法融入并重塑人们的生活,算法作为机器可读的程序性指令,利用汇集人类行为的大规模数据集影响着人们方方面面的社会生活.比如,算法推荐新闻.推送广告.排名商品.安排专车 ...
陈根：健康的胖子，真的健康吗？

文/陈根毋庸置疑,在越来越开放的年代里,体态自由是必然趋势.然而,尽管当前肥胖已经越来越被人们包容尊重和接纳,但不可否认,肥胖依旧不是一件好事.已经有大量研究证明,肥胖会导致代谢问题,包括血糖升高. ...
陈根：纠偏AI歧视，从打破行业偏见开始

文/陈根科技是人类现有文化的延伸.科技在延展了人类智慧的同时,也继承了人们的偏见和歧视. 当前,人工智能作为第四次工业革命中的代表性技术,正在迅速改变我们所认知的世界.然而与此同时,现实世界中,由人 ...
陈根：算法脱单，靠不靠谱？

文/陈根热闹的拜年氛围里,离不开"催婚"这个经典话题. 根据国家统计局数据,我国单身基数庞大,性别差异明显,90后成为单身群体主力军.2018年,我国单身人士已达2.46亿(国家 ...
陈根：数字孪生，转型中的算法问题

文/陈根在技术狂飙突进的年代,数字孪生作为一个对人工智能.大数据.物联网.虚拟现实等技术进行综合运用的技术框架,越来越成为推动数字社会建设的重要力量,分别进入各国的国家战略之中. 在我国,国家发改委 ...