在美国学术界声援 BLM(Black Lives Matter)之后,事情的走向有点难以预料。

 

学术界的反种族歧视反省似乎没有了下文,但是如火如荼的 BLM 运动早已蔓延开来,这次将矛头指向了 AI 界。

 

事情的起因是杜克大学提出了一种称之为 PULSE(Photo Upsampling via Latent Space Exploration)的 AI 算法。它可以轻松将马赛克级别画质的人脸图像转化为计算机生成的高清画质图像,也可以“有来有往”地将高清画质给降级到高糊状态,反正是效果极好。

 

 

问题就出在,PULSE 生成的图像可不保证是还原的原始人物的头像,而且在人脸肤色上还会进行大胆“创新”,把原本是黑肤色的人像变成了白肤色的。比如奥巴马:

这一结果被美国网民发现之后,纷纷将涉嫌种族歧视的矛头指向人工智能。然后将事情引向高潮的是 AI 界的标杆性人物 Yann LeCun,他在推特上给出了自己的解释,大意是出现这种偏差的原因是由于数据集的偏差。训练数据集主要是用了白人照片,如果是换成黑人照片,可能会出现生成的人像更多是黑人的情况。

 

LeCun 的一番解释却换来了两位同行的反驳,她们声称 LeCun 的解释是“避重就轻”,忽视了 AI 的偏见来自于更广泛的社会不公和偏见的影响。

 

为此,LeCun 选择道歉以息事宁人,不愿意将这一话题继续扩大。然而 AI 界已经为此分成了两派,就 LeCun 是否在为“AI 的种族歧视”辩护和是否应该为此事道歉吵得不可开交。

 

今天,在社交网络中不堪其扰的 LeCun 呼吁所有人停止相互的攻击,再次申明自己反对一切形式的歧视,并决定退出推特来表明这一态度。

 

相互攻击的口水战确实对于解决问题于事无补,但 AI 算法中存在种种的“偏见”和“歧视”,则仍然是 AI 界严肃面对的 “事实性”问题。

 

不过,就导致 AI 偏见的种种原因,人们仍然在争论不休,而至于如何解决 AI 中存在的种种偏见,则同样没有一致的定论。我们希望尽可能呈现出这一争论的复杂样貌,来探索下破解 AI 偏见的方案中有无最优解。

 

AI 的“有色眼镜”世界

 

今年 5 月底,微软宣布要裁撤 80 名外包编辑,交由 AI 算法负责接下来的 MSN 新闻抓取、排版和配图等工作。

 

(MSN 在关于 Jade 的报道中错误地使用了 Leigh 的照片)

 

然而就在宣布之后不到一周时间里,AI 编辑就捅了娄子,在一篇关于阿拉伯裔歌手 Jade Thirlwall 的文章中,配图却用成了该团队另外一个非裔成员 Leigh-Anne Pinnock 的照片。更让人哭笑不得的是,这篇文章正是 Jade 讲述自己曾经遭受种族歧视经历的文章。

 

(左三是 Jade Thirlwall,右一是 Leigh-Anne)

 

AI 算法又用“AI 脸盲”的偏见再一次不经意地“歧视”了一把 Jade 和她的伙伴 Leigh-Anne。虽然说两位女团成员长得是有那么一点想象,但是 AI 就不能长长眼,正确区分出两人的肤色差别吗?

 

事实上,AI 人脸识别在深色皮肤族裔的识别上,问题一直存在。

 

2018 年,MIT 媒体实验室的研究员 Joy Buolamwini(算法正义联盟的组织者),就“人脸识别技术在识别不同种族和性别的人脸的效果关系”的研究中发现,一些商业软件在识别黑色人种的性别的错误率要远远高于白色人种,而且肤色越黑,识别率就越低。

 

研究中,她选择了微软、IBM 和 Face++的人脸识别算法。经过测试,算法在识别白人男性的错误率仅为 1%,在识别白人女性的错误率为 7%。而到了识别黑人男性的错误率则升至 12%,黑人女性的识别错误率则高达 35%,也就是每三个黑人女性就会被错误识别一次性别。

 

而这次研究被哈弗福德学院计算机科学家 Sorelle Friedler 评价为第一次证明人脸识别对不同人群有不同效果的研究。

 

其实之前业界早已经意识到这一问题,AI 在计算机视觉上面存在的认知偏见,可能会导致种族歧视,比如 2015 年,谷歌的图像识别技术就将非裔美国人标记为“大猩猩”。

 

(美国边境警察检查护照)

 

当时出现这样的状况,还可以理解为图像识别算法不够成熟,而现在这一问题却仍然并未得到更好的解决。2019 年底,美国国家标准与技术研究院(NIST)的一项研究表明,世界上许多顶尖的面部识别算法都存在年龄、种族和民族偏见。研究显示,一些美国本土开发的面部识别软件中,中年白人男子的识别准确率最高,而非裔美国妇女识别错误率最高,少数族裔、儿童和老年人的错误识别率也相对更高。在某些情况下,亚裔和非裔美国人被错误识别的概率是白人的 100 倍。

 

AI 偏见的范围,自然不仅仅限于人脸识别领域。比如在算法招聘、犯罪风险预测以及疾病风险评估当中,都会因为算法模型的偏差和数据的不完善导致 AI 的偏见。

 

比如,2018 年,研究者在亚马逊的招聘算法中发现,在技术职位的简历中,对包含有“女性”的一词的简历进行了降级。而将 AI 应用于某些人可能再犯罪的风险评估时,更多以司法部的历史数据记录进行训练。而现实数据中,美国黑人就比白人或西班牙裔更容易被警察拦截。

 

再比如,美国某公司在利用 AI 筛选慢性病高风险人群的过程汇总,他们主要根据患者支付的医疗费用来评估的患者患并发症的风险高低。但他们发现,在实际过程中,当黑人和白人患者花费相同的情况下,模型给出的黑人患者的风险评分仍会低于白人患者。也就是,即使在风险相似的情况下,该模型也更倾向于选出更多白人患者进入护理计划。

 

也就是说,在现实世界中存在的种族歧视、性别、年龄歧视、少数人群歧视等问题,不仅在 AI 算法中存在,甚至还会通过一种更直接有效地方式放大。

 

AI 算法的“色差”体质,难道真的像 LeCun 所言,就是 AI 训练的数据集的问题吗?

 

AI“色差”从何而来?

 

 

在我们大多数人的意识中,科技通常是中立的。不管在全世界任何体制中、面对任何人群,科技遵循的规则都是客观的、中立的,就像建造高楼要遵循力学结构原理,防御新冠病毒要遵循科学检测和消杀防护手段一样。

 

偏偏 AI 这位科技领域的新宠,从诞生之日起就带着神秘的算法黑箱和挑战人类智能的宏伟愿景。同时不可避免地也带有了人类设计者的主观色彩和个人偏见。

 

在 AI 应用中,最显而易见的一种人类性别偏见甚至都没有上升到算法层面,而仅仅在人类选择 AI 助手中就暴露无遗。

现在,主要的智能音箱或者智能设备中的 AI 助手都默认为女性名字和女性声音。当然,大多数用户也都表现出对于女性声音的偏好。但这一默认出厂设定隐含着一个来自现实社会的偏见,那就是人们更倾向于把女性设定为服务助理的角色,继续强化了女性的次要地位和顺从男性的角色定位。

 

 

在深入到那些由于 AI 图像识别算法导致的种族歧视和性别歧视案例中,其实也可以发现 AI 算法的决策过程以及导入训练数据的过程中都有研发者个人的价值观、认知缺陷和偏见等因素参与其中。

 

比如,在 PULSE 进行高清图像生成的案例中,LeCun 的解释一定意义上是可能的,就是如果在训练数据集中加入更多的黑人照片,那么生成的照片可能会更多是黑人的肤色。但是,AI 偏见的锅也不能完全甩给数据偏差(LeCun 在此的回应确实有点草率)。

 

 

AI 艺术家 Mario Klingemann 通过验证指出,PULSE 将黑人图像生成为白人的问题,并非出自数据,而是算法本身。他通过使用 StyleGAN(PULSE 也采用了英伟达的这一算法)从相同像素的奥巴马图像中生成的更多是非白人照片。当然,Mario 也不能真正指出到底是算法在什么情况下出现这种错误的。

 

在对 LeCun 的回应中,在 AI 正义联盟工作的研究者 Deborah Raji 指出,AI 的偏见受到更广泛的社会不公正和偏见的影响,而不仅仅是使用“正确”的数据集来能解决更大的社会不公问题(当然 Raji 的指责也有点超纲)。

 

通过以上争论,我们其实可以得出一个更折中的答案。AI 是大规模带标注的数据集训练的产物,数据集中反映不同种族、性别的样本数据占比的失衡,确实将反映到 AI 算法模型的结果当中,从而又会强化算法模型对于某一类数据的判断,而弱化对缺失数据的判断。而训练数据的偏见则来自于人类研究者对于数据的收集方式的偏颇。

 

在以往的数据收集,更多来自于研究者更为熟悉的人种,或者是互联网上面的数据。但事实上,这些数据也并非“客观中立”,而早已带上了人类世界的“偏见”标签。比如在谷歌中,搜索 CEO 的图片,绝大多数都是男性 CEO,其比例要远远高于实际当中的男性 CEO 比例。而搜索黑人名字,则往往会跟“犯罪”、“逮捕”等标签绑定。此外,在英文搜索中,其他少数族裔的数据也很少会被搜索到。由此形成的数据集而训练的模型将延续人类的偏见。

 

一个典型的案例就可以理解。去年,微软、谷歌、亚马逊等 AI 在识别低收入国家的物品上面,准确度要远远低于高收入国家的物品。不完整的数据集导致 AI 也会“嫌贫爱富”了。

 

也就是说,AI 算法和数据集的问题直接导致了偏见和歧视的出现,而导致 AI 算法和数据集出问题的原因则来自于人类研究者一开始的认知缺陷和原始数据隐藏的偏见问题。

 

在 BLM 运动愈演愈烈的当下,AI 偏见问题正从一个圈内被忽视的“顽疾”走出圈外,成为社会大众关心的公平正义问题。那么,这是否能成为解决这一问题的最好契机呢?

 

AI“色差”该如何“纠偏”?

 

 

客观来说,想要真正清除 AI 算法的这些“色差”偏见,难度极大。不然 AI 界也不会坐视这个问题的泛滥。不过,至少在美国非裔男子佛洛依德事件之后,科技公司已经开始意识到 AI 算法带来歧视问题的严重性了。

 

比如,IBM 等公司就做了一件“釜底抽薪”的事情——既然 AI(仅指人脸识别)有问题,那我不用还不行吗?

 

(IBM 现任首席执行官 Arvind Krishna)

 

6 月 8 号,IBM 旗帜鲜明地声明要彻底放弃人脸识别业务, “反对将面部识别技术在内的任何技术用于大规模监控、种族定性、侵犯基本人权与自由,或其他任何不符合我们价值观和信任与透明原则的目的。”

 

随后,亚马逊和微软也紧随其后,只是打了折扣,声明有条件地限制自己的人脸识别技术提供给美国警方使用。

 

IBM 这种自绝于 AI 的方法,当然可以避免人脸识别技术在种族歧视上的滥用。但是一竿子打死 AI 并不能彻底解决问题。人脸识别在现实世界的应用既有普遍场景,也有重要作用。通过追根溯源,提高少数族裔和女性老人等群体的人脸识别准确度,不是更有意义吗?

 

导致 AI 偏见的原因可能是复杂因素的集合,那么解决 AI 偏见的“药方”,自然也是需要多管齐下的。综合来看,纠正 AI 偏见要从技术、立法和团队三方面来整体改进。

 

在技术层面,丰富数据源类型和规模,构建更公平的数据集,这成为解决 AI 偏见最直接、看起来也最可行的方式。

 

在立法层面,建立算法问责制度,由 AI 组织成立专业机构实现对算法的审查和监督。尽管欧洲的 GDPR、美国的《算法问责法案》已经有相关规定,但实际操作仍然存在难度,这就要求拥有 AI 算法的科技企业在算法透明性和可解释性上做出巨大让步。

 

在团队层面,增加科技公司中 AI 团队的人群多样性,特别是女性和有色人种的比例,也许是解决这一问题的可行方法。毕竟,之前的 AI 技术大多是由西方白人男性主导,这很可能是导致美国众多 AI 算法带有种族歧视、性别歧视的一个“隐含”原因(但并不能确定其中包含直接的因果关系)。

 

更为重要的是,在今后的算法测试中,在公布结果前,应该加入更多样化的应力测试,包括增加对不同国籍、种族、肤色、性别、年龄等数据的测试,提前发现算法中可能存在的认知偏见。

 

此外,通过开源社区和开源技术来消除 AI 偏见,也可能是一个不错的思路。至少首先解决了 AI 算法的透明性问题。同时,诸如像研究者提出的自动白箱测试技术——DeepXplore,可以增强了 AI 应力测试的强度,以验证 AI 的黑盒问题,并消除可能带来的偏见问题。这也是值得研究者们长期关注的问题。

 

 

在解决 AI 偏见的问题上,我们不可能抱着过于激进的态度,希望通过一次社会运动就能彻底推动技术界去消除这一技术问题,毕竟这一问题的根源更多是来自于人类自身。

 

我们的认知偏见其实要远远多于 AI,而 AI 所做的就是“学会”并“放大”我们的偏见和歧视。因此,对于 AI 算法训练的纠偏就显得刻不容缓,但又不能操之过急。正如 AI 算法要经过一次次调参的过程来将训练结果调整至越来越接近完美的准确状态,AI 的纠偏也需要这样一个一步步缓慢调整的“调参”过程,只不过这个过程要更为复杂和艰辛。

 

在这个过程中,AI 研究者首先是跟自己的认知盲区和个人偏见做斗争。如果你认为 AI 中存在的偏见不是什么大问题的时候,它本身已经就是一个很大的问题了。