像教我们的孩子一样教人工智能

——选自Motherboard——

作者:JORDAN PEARSON

全球技术地图编译

子并非天生就有种族或性别歧视——厌恶和仇恨都是被教出来的。人工智能也一样,是人类教会了它们一切。
据ProPublica报道,有一种用于预测罪犯未来犯罪可能性的算法,该算法倾向于将黑人的犯罪风险定得比白人高。尽管总有人说,这种数据驱动的方法与以往的方法相比,要更加客观,但很显然,人类的偏见已经影响到了机器。
以微软开发的Twitter人工智能聊天机器人Tay为例,它在上线后很快学会了Twitter用户对它说的那些带有辱骂意味和种族歧视性的语言,最终满口纳粹言论。
但按照阿姆斯特丹自由大学一位人文学科博士生Emiel van Miltenburg的说法,算法上的偏见可能更加严重。Miltenburg分析了Flickr30K数据库中的图像描述发现,描述图像的语言明显带有性别歧视和种族歧视的特征。(Flickr30K数据库是一个用于训练神经网络的带注释的图像语料库。)
这些描述语言来自于大众,数年来,计算机将这些语言作为学习材料,自行学习辨认和描述图像。
我们才意识到这一问题,并试图解决它
Miltenburg发现,一张“一位女士在工作场合和一位男士讲话”的图片被描述为“一名雇员正被她的老板训斥”,该描述假定了图片中的男士是女士的老板,而非女士是男士的老板。Miltenburg写道,很多时候,亚洲长相的人被随意地注释为“中国人”或“日本人”,白人婴儿被注释为“婴儿”,而黑人婴儿却要带上他们的种族。
“在Flickr30K上看到一些图像带有种族或性别歧视性的注释并不奇怪,但这显然并非我们的初衷。” Flickr30K数据库的首席研究员Julia Hockenmaier在电邮中写道。“我们的目的是搜集对图像中的事件和人物的事实性描述。”
不过,如果这些偏见发生在真实世界,会更像是我们所谓的不经意的种族歧视和性别歧视。
“我们应当承认数据中存在性别歧视的例子,并且意识到这样是不对的,”Miltenburg在邮件中写道。“人们正从美国人的角度来训练机器认识图像,不光是从美国人的角度,更是从美国白人的角度。”
Miltenburg还未测试过经这些图像描述训练过的软件是否产生了新的偏见性描述。但如果现在训练这些机器的数据带有人类偏见,就意味着人工智能同样带有这些偏见。

“如果这些是你提供给人工智能的数据,并且你要求它去模仿这些行为,那么它当然也会模仿这些偏见,”怀俄明大学专注深度学习的计算机系教授Jeff Clune说道。“如果它不去模仿,那这个技术就出错了嘛。”

换言之,计算机既不邪恶,也不善良,它只是一根电线连接起来的电脉冲。就跟微软机器人Tay一样,计算机只是根据命令行事,只不过它们的工作范围更广,更难预测。
可以想象,当决定是否将某人纳入健康保险范围时,依靠带有偏见的数据训练出来的软件是有缺陷的。那些看上去客观的信息,如房屋、监禁率、收入趋势,也可能带有系统性偏见,被植入到人工智能当中。
“当机器学习模型更加成熟,并在真实世界中更加广泛使用,我们才刚开始意识到这一问题并试图解决,”Hockenmaier写道。
我们能扭转这一切吗?
你可以将人工智能当作人类的孩子
对Miltenburg而言,问题在于Flickr30K搜集图像描述的方法没有试图缓和人类的偏见。Miltenburg写道,对图像进行注释来训练机器更应当作为心理测验,而非机械的数据采集任务。
“好的做法是不仅搜集美国人的描述,还要找澳大利亚人、英国人、印度人和香港人来平衡数据库。我们也要有更多图像描述者的数据,以控制性别、年龄和其他变量。”
加强对图像描述者的指导,研究员能更好地控制深度学习软件首先吸收的信息内容。类似的方法还有让人工智能阅读《圣经》、《爱心树》和其他反映人性中善良一面的书籍。
“当然,也可以发布描述原则,来明确指导图像描述者在描述时避免性别和种族偏见,”Hockenmaier写道。
Clune说,另一方案是训练软件让它自己忽略某些类型的信息。“某种程度上讲,你可以把人工智能当作人类的孩子,你肯定不希望孩子和种族主义者或带有歧视性观念的人混在一起,因为他会模仿他们。”
未来,编程会大幅减少,训练则会大幅增加。如果Clune将人工智能当作人类小孩这一想法是对的,那么我们作为父母必须更负责任,要注意它们在耳濡目染什么,留意它们所读的书、看的电影。
因为就像人类一样,人工智能最终必定会有意无意间接触到一些不好的东西。它需要学习如何忽略它们。
全球技术地图

微信号:drc_iite

(0)

相关推荐