图1 精准度大比较 | 图源Joy Buolamwini
乔伊·布奥兰维尼(Joy Buolamwini)、蒂姆尼特·格布鲁(Timnit Gebru)、黛博拉·拉吉(Deborah Raji)及其同事致力于 “性别阴影” 项目(Gender Shades),以评估人工智能性别分类产品的准确性。这一项目研究了三家公司的商业产品,评估他们如何对来自非洲和欧洲国家的1270张人像进行分类。受试者按性别、肤色以及二者的交集进行分组。研究发现,尽管这些产品总体上具有较高的准确性,但不同组之间的错误率存在显著差异。所有公司的产品在面部识别上的精度,都是男性优于女性、浅肤色人群优于深肤色人群。其中,对深肤色女性的识别最差,三分之一以上的识别结果不及格。精度差异的一个关键因素,是机器在训练图像和基准数据集时缺乏多样性。
人们通常认为,机器能做出更明智、更好和更客观的决定,但这些现存的算法偏见,无疑消除了机器中立的概念,并且复制了社会现有的不平等现象。从黑人被误标记为大猩猩,到谷歌搜索 “黑人女孩” 或 “拉丁女孩” 弹出成人内容,再到医疗设备对肤色较深的人而言效果不佳…… 很明显,机器算法存在固有的歧视。
“这个不平等的社会充斥着种族主义和性别歧视,所以即使计算机编程人员心存善念,算法也会有偏见和歧视。” 来自纽约大学AI Now研究所的乔伊·利西·兰金(Joy Lisi Rankin)说道,她是人工智能中性别、种族和权力研究项目的负责人,其著作包括《美国人民计算史》( A People’s History of Computing in the United States)[2]。“它们只会反映和放大世界上更大的偏见。”
物理学家越来越多地将人工智能和机器学习应用到不同领域,从医学物理到材料学等等。虽然他们可能认为自己的研究只会应用于物理学,但他们的发现也可以转化到社会层面。
“作为粒子物理学家,我们的主要目标是开发工具和算法,以助我们找到超越标准模型的物理学。但不幸的是,我们没有停下来思考,没有料到这些工具和算法将如何在技术中得到广泛应用,并在社会中每天被用来进一步压迫边缘化的个体,”杰西卡·埃斯基维尔(Jessica Esquivel)说道,他是伊利诺伊州芝加哥费米国家加速器实验室(Fermilab)的物理学家和数据分析员,正致力于开发人工智能算法来增强Muon g-2实验中的束流存储和优化。
更重要的是,物理学中缺乏多样性的现状,不仅会影响到已完成的工作,也会影响正在被创建的系统。“性别和种族的失衡问题,无疑是纠正人工智能中一些更广泛的偏见问题的障碍。” 新泽西州普林斯顿大学的粒子物理和机器学习研究员萨凡纳·泰斯(Savannah Thais)表示。这就是为什么物理学家需要意识到他们现有的偏见,更重要的是,作为一个群体,他们需要扪心自问:自己到底应该做什么。
“智慧生命” 的诞生
机器可以成为智能生物,这一想法已经存在了几个世纪,古希腊和其他文明都有有关于机器人的神话。但直到第二次世界大战之后,科学家、数学家和哲学家们才开始真正讨论创造人工思维的可能性。
1950年,英国数学家阿兰·图灵(Alan Turing)提出了一个著名的问题:机器是否会思考?他提出用图灵测试(Turing Test)来测量机器的智力。六年后,在新罕布什尔州汉诺威市的人工智能达特茅斯夏季研究项目期间,人工智能的研究领域正式成立。基于人类思维过程可以在计算机程序中被定义和复制的想法,“人工智能”(artificial intelligence)一词由美国数学家约翰·麦卡锡(John McCarthy)首创,取代了以前使用的 “自动机研究”(automata studies)。
虽然上世纪五六十年代奠定了人工智能和机器学习的基础,但这一领域真正实现腾飞还是花了一段时间。“直到过去10年间,强大的计算能力、标记数据和高科技公司的财富才结合起来,使大规模的人工智能成为了可能。” 兰金表示。而且,正如1983年麻省理工学院《学术界平等的障碍:计算机科学领域的女性》报告所强调的那样 [3],尽管美国黑人和拉丁美裔妇女早在上世纪70年代就开始讨论计算机中的歧视和不平等问题,但直到近十年间,有关计算机系统中的偏见问题才得到了更广泛的讨论。
图2 在计算机发展早期,计算机操作是一项主要由女性完成的低薪工作。随着这一领域声望渐高,白人男性逐渐占据了主导地位。图为1972年,一名美国政府的女性雇员正在使用NCR 796-201可视终端 | 图源:National Archives at College Park
实际上,自上世纪40到60年代,女性已经成为了英美两国计算机行业的核心,正因如此,计算机领域对于女性的偏见才更令人惊讶。
“计算机过去是 ‘人’,而不是机器,而且这些‘人’大多都是女性。”兰金表示,“但当她们被淘汰且被白人男性取而代之时,这个领域便发生了变化。” 正如她说的那样:“计算机行业从女性化和不受重视变得声望日盛和更加男性化。”事实上,上世纪80年代中期,在美国获得计算机科学学位的所有毕业生中,将近40%是女性;但是到了2010年,这一比例已降至15%。
在科学、技术、工程、数学和医学领域,计算机科学和物理一样,从业者的性别差距都是最大的 [4]。尽管获得物理学学位的女性人数有所增加,但在美国授予的所有学位类型中,女性所占比例仅为20%,黑人的比例则更低。2017年,美国仅有3%的物理学本科学位授予了黑人学生。在英国也存在着类似的问题,2018年英国所有本科生中,女性占了57.5%,但在所有物理学本科生中,黑人女性只占了1.7%。
这种性别和人种上的分布差异,对研究的构建、进行和实施都产生了严重的影响。兰金表示,构建算法技术时缺乏群体多样性,而新兴的技术又可能会伤害到妇女、有色人种、残疾人和LGBTQ群体,这二者之间形成了一个有害的反馈循环。一个现实的例子就是亚马逊的招聘算法,这一算法基于历史的招聘实践和申请人数据,会首先拒绝女性的工作申请。最后,亚马逊弃用了这一招聘算法,因为既往的招聘史将性别偏见深深刻进了他们的系统中,无法确保招聘公平。
机器算法偏见中的许多问题在《偏见系统》(Discriminating Systems)这份报告中得到了解决 [5]。《偏见系统》是AI Now研究所2019年的一份重要报告,报告表明,不应将群体多样性和人工智能的偏见问题分开来考虑,因为它们是 “同一问题的两个方面”。兰金补充说,职场性骚扰也与歧视和偏见有关,她指出,据美国国家科学院、工程院和医学院报告,科学领域中半数以上的女性教职员工都经历过某种形式的性骚扰。
泰斯表示,从多方来看,物理学中的多种声音是至关重要的。她目前正在为欧洲核子研究组织(CERN)的高光度大型强子对撞机开发基于机器学习的加速重建算法。“大部分物理研究人员没有与受到这些算法影响的其他种族、性别和群体的人群直接接触的经验。” 埃斯基维尔认为,正因如此,被边缘化的科学家个体需要参与到算法的开发中来,以确保他们不会被偏见所淹没。
美国斯坦福大学人工智能研究员普拉图莎·卡卢里(Pratyusha Kalluri)也这样认为。她参与创建了 “激进人工智能网络”(Radical AI Network),该网络提倡反压迫技术,并为那些被人工智能边缘化的人发声。卡卢里去年在Nature 上写道:“是时候把被边缘化和受算法影响的群体置于人工智能研究的中心了,他们的需求、知识和梦想应该指导技术的发展。” [6]
物理学家的角色
让我们回到费米实验室。布莱恩·诺德(Brian Nord)是一位宇宙学家,他利用人工智能来寻找宇宙起源和进化的线索。他解释说:“在多年的观测中,望远镜扫描天空,收集包括图像在内的大量复杂数据,而我则使用人工智能来分析这些数据,以了解导致时空扩张加速的暗能量。”
然而,2016年,他在阅读了 ProPublica 的一份调查报告后意识到:人工智能可能有害且会对黑人产生偏见 [7]。该报告分析了一个名为COMPAS的风险评估软件,该软件在美国法庭上用于预测哪些罪犯最有可能再次犯罪,以及决定保释条件。调查发现,不论是所犯罪行的严重程度还是再次犯罪的实际可能性,黑人被贴上高风险标签的可能性几乎是白人的两倍。对此,诺德表示:“我非常担心自己在开发算法时的‘共谋’行为,将来这些算法的应用可能会对我不利。” 作为黑人,他知道面部识别技术对他这样的人有偏见,经常错认黑人,且监管不严。
因此,虽然物理学家可能已经开发出某种人工智能技术来解决纯粹的科学问题,但在现实世界中,它的应用却超出了他们的控制范围——人工智能的使用者可能会动机不纯。“这更有可能使我的权利受到侵犯,剥夺我在群体、社会和生活各方面的权利,” 诺德说道。
对于这些问题,诺德决定不另起炉灶,而是建立一个由物理学家和计算机科学家组成的联盟,以便在开发算法时争取更多的审查。他指出,向美国执法机构和其他私人机构提供面部识别设备的Clearview AI等公司,正在搜集社交媒体数据,然后在未经用户明确同意的情况下向执法部门出售监控服务。他警告说,许多国家都在利用监视技术对民众进行广泛的压迫,“以数据为主导的技术剥夺了人们的权利,例如数据隐私问题、数据和科学如何被用来侵犯民权、技术如何维护白人至上和监视资本主义的历史等,物理学家应该致力于理解这些权力结构。”
为了让这个问题引起更广泛的关注,诺德、埃斯奎维尔和其他同事给粒子物理学界写了一封信。这也是 “雪团” 项目(Snowmass)的一部分,“雪团” 定期为美国和美国之外的粒子物理界的未来发展树立科学远景。他们在信中讨论了 “计算研究的伦理意义和科学家的角色”,强调了无论是作为个人、还是在各机构和基金会任职的物理学家们,都应该关心他们正在构建和实施的算法 [8]。
泰斯还敦促物理学家们——这些有着深厚技术知识的公民们,积极参与到人工智能伦理的治理中来 [9]。她说:“让物理学家们意识到人工智能和机器学习方面的偏见问题非常重要,即使在机器学习的物理学研究应用中通常不会出现这种情况。” 泰斯解释说,这样做的原因之一是,许多物理学家离开原有领域,到计算机软件、硬件和数据科技公司工作。“许多这样的公司都在使用人工数据,因此我们必须让学生们提前具有责任意识。我们不能只教授技术技能,而忽视更广泛的社会背景,因为许多人最终将把这些方法应用到物理学之外。”
对此,泰斯和埃斯基维尔也都认为,物理学家在理解和管理人工智能方面扮演着重要的角色,因为他们往往必须使用产出更精确输出数据的方法,来解释和量化系统的不确定性,然后才能抵消数据中的固有偏差。泰斯说:“有了这种更加 ‘黑匣子’ 化的机器学习算法后,我们真的很想了解它的准确性,了解它在边界情况下是如何工作的,以及它为什么在某个特定的问题上表现最好。而这些都是物理学家们曾完成过的任务。”
另一位利用物理学来提高人工智能精准度和可靠性的研究人员,是帕耶尔·达斯(Payel Das),她是IBM托马斯·J·沃森研究中心的首席研究员。为了设计新的材料和抗生素,她和团队正在开发机器学习算法:将从数据和物理原理结合起来,从而使一项新科学发现的成功率提高百倍。达斯说:“我们经常借助已有的科学知识或其他形式的知识(例如基于物理学原理),来增强、指导或验证人工智能模型,以使其系统更耐用、高效、易于解释和可靠。” 她对此做了进一步解释,即“通过使用物理学驱动的学习,人们可以在准确性、可靠性和归纳偏差等方面对人工智能模型进行交叉检查。”
算法偏见的现实影响
算法决策工具可能是为科学研究而开发的,但被用于商业监视,在这种情况下,数据中任何微小的偏差都会产生现实后果。
1
2015年,一位黑人软件开发人员在推特上说,谷歌相册将他和朋友的照片标记为 “大猩猩”。而谷歌公司通过删除 “大猩猩” (gorillas)及其他表示灵长类动物的词来解决了这个问题。通过审查这些搜索,谷歌相册的识别照片服务再也找不出如 “大猩猩” “黑猩猩” 和 “猴子” 等灵长类动物。
2
在搜索 “黑人女孩” “拉丁女孩” 或 “亚洲女孩” 等词条时,谷歌广告门户网站会提供关联色情内容的关键词建议 [10]。搜索这些族裔的 “男孩” 也大多返回了与色情有关的建议,但搜索 “白人女孩” 或 “白人男孩” 时则未有建议词条出现。2020年6月,谷歌广告门户还在客体化黑人、拉丁裔和亚洲人,现已通过阻止这些词条的出现来解决该问题。
3
红外医疗技术(例如脉搏血氧仪),在深色皮肤上无法正常工作,因为其穿过皮肤的光线较少 [11]。这种情况会导致读数不准确,可能意味着患者无法获得所需的医疗护理。同样的红外线技术,在公共洗手间的皂液器上也被证明几乎不起作用。
审核算法
去年,数据伦理与创新中心(Centre for Data Ethics and Innovation)发表了一篇关于算法决策偏见的评论 [12]。该中心属于英国政府的数据驱动和技术独立咨询机构。研究发现,过去几年,在招聘、金融服务、警务和地方政府四个部门,算法决策有了显著增长,并发现了算法偏见存在的明确证据。报告呼吁各组织积极利用数据来识别和减轻算法偏见,并确保了解其工具的功能和局限。来自爱丁堡大学的人工智能教授、贝叶斯中心(Bayes Centre)主任迈克尔·罗瓦佐斯(Michael Rovatsos)也表达了这种看法:“要想真正获取数据或算法是非常困难的”,他补充说,政府应要求公司进行审计,并应该要求其在现实世界中应用的系统保持透明。
就像布奥兰维尼一样,一些研究人员正试图利用他们在人工智能方面的科学经验,从外部揭示商业算法中的偏见。其中包括数学家凯西·奥尼尔(Cathy O'Neil),她在2016年撰写了《数学杀伤性武器》(Weapons of Math Destruction)一书,讲述了她在数据偏见方面的工作。2018年,她成立了一家咨询公司,并与公司私下合作,审核他们的算法。如今,布奥兰维尼还在继续她的工作,通过非盈利的算法正义联盟(Algorithmic Justice League)创建更公平和负责任的技术,这是她于2016年成立的一个跨学科研究机构,旨在了解人工智能技术的社会意义。