|
【案例】
AI伦理佳文传递|生成式人工智能中的欺骗与操控(一)
AI Ethics 文章题目 生成式人工智能中的欺骗与操控(一) (文章较长,分两期发布) AI Ethics 文章来源 原文发表于Philosophical Studies,《哲学研究》由 Springer 出版集团发行,是一本在分析哲学领域具有很高声誉的国际期刊。期刊以发表体现清晰性和精确性的学术论文为核心标准,尤其重视运用形式化方法解决哲学问题的研究。截至2025年,期刊被Arts & Humanities Citation Index(AHCI)、Scopus等权威数据库收录,中科院分区位列哲学学科Q1区。 引用本篇(APA):Tarsney, C. (2024). Deception and manipulation in generative AI. Philosophical Studies, 182, 1865 - 1887. AI Ethics 作者简介 Christian Tarsney,多伦多大学士嘉堡校区(University of Toronto Scarborough)哲学系助理教授,专注于伦理学领域,核心研究方向为不确定条件下的伦理决策。其学术工作涉及多个前沿议题:探讨对极好或极坏结果的微小概率应赋予何种伦理权重;处理基本道德原则的不确定性;研究影响未来人口规模的道德选择。近年来,其研究延伸至人工智能哲学,关注AI系统的“欺骗性”本质及AI智能体寻求权力的潜在倾向。此外,他在时间哲学方面亦有涉猎,尤其探究人类“偏向未来”的心理倾向及其哲学依据。 (已与作者本人联系,获得授权) AI Ethics 译者简介 单祎文,东南大学人文学院2021级哲学专业博士研究生,AI伦理实验室成员,研究方向为人工智能伦理、科技伦理。 AI Ethics 编者按 文章系统性地回应了“生成式人工智能(Generative AI)是否以及如何构成欺骗与操纵”的争论,提出了一种基于“半理想条件”(semi-ideal conditions)的评价方法 。作者认为,将AI生成的误导性内容仅理解为“技术幻觉”或“字面上的真实与否”是不充分的,因为这无法解释AI如何通过大规模的个性化信息或策略性地筛选事实,诱导人类产生认知偏差与行为改变 。当AI生成的陈述倾向于引导用户背离其在拥有充足信息与审思时间(即“半理想条件”)下会认可的信念或选择时,这种行为本身即构成了规范意义上的欺骗或操纵,而不仅是技术误差 。 为避免将欺骗意图或心理状态直接归于AI本身,作者提出一种基于效果的解释,即对AI欺骗的界定应脱离对“精神状态”的探究,转而聚焦于其对人类接收者产生的实际认知效果 。作者进一步论证,AI系统应遵循比人类社交规范更严苛的非欺骗性标准,因为AI不具备人类在特定职业或社交语境下(如律师、政治家等)所享有的“适度隐瞒权”或道德豁免权 。 在治理层面,文章提出了“极端透明性”(extreme transparency)和“防御性系统”(defensive systems)的实践框架 。这一框架主张通过强制披露AI生成的全过程信息(如提示词、原始输出),以及部署专门的辅助系统来对AI陈述进行实时背景标注,将潜在的误导风险转化为可感知的透明度要求 。 总体而言,本文为“界定AI欺骗与操纵”提供了一个避免拟人化、但仍保留规范性的哲学解释,也为理解生成式AI中的认知安全、未来智能体系统的安全监管以及用户自主性保护提供了具有实践可行性的伦理分析工具 。 生成式人工智能中的欺骗与操控 1.引言 在过去的几年中,人工智能的能力取得了飞速进步,这主要是由规模庞大且数据密集的深度学习系统驱动的。其中一些最引人瞩目的进展出现在自然语言处理领域。大语言模型(LLMs)是一种深度学习系统,它通过在海量人工生成的文本中学习预测下一个词语,从而获得类人的语言能力;随后通常还会根据人类反馈进行微调,以使其成为有用的对话伙伴,同时抑制攻击性或其它不良输出。在学习预测人类文本的过程中,它们也能学习事实,并学会模拟(至少某些方面的)人类推理。像GPT-4、Claude 3和Llama 3这样的尖端大语言模型,虽然在许多方面仍不及人类的智能水平,但它们已经内化了海量的现实世界信息,并能以令人印象深刻的清晰表达进行阐述。 然而,尽管大型语言模型显得学识渊博且乐于助人,它们却并非纯粹真理的源泉。它们 容易出现“幻觉”——即自信地断言完全虚构的事实(Ji et al., 2023),例如,可能包含关于真实人物的诽谤性虚假信息(Poritz, 2023; Verma and Oremus, 2023)。但更危险的是,大型语言模型能够——并且已经被——用于生成虚假或误导性内容,以服务于人类恶意行为者的目的(Park et al., 2023, §3.1)。尤其令人担忧的是它们被用于政治影响行动(Goldstein et al., 2023; Nimmo, 2024)。当然,人类无需人工智能的帮助也能并且确实在相互误导,但大型语言模型生成误导性内容的规模带来了新的危险。首先,它们可以大规模地个性化定制虚假信息,为海量目标量身打造个性化信息,甚至同时与数百万人进行对话(Matz et al., 2024)。其次,它们能在社交媒体上令人信服地模拟大量人类用户,制造关于集体意见的误导性印象,并为病毒式传播的虚假信息增添可信度(Burtell and Woodside, 2023, §3.3)。因此,欺骗与操控已成为致力于人工智能伦理研究的哲学家们重点关注的问题。 虽然当前最紧迫的担忧是人类恶意行为者会利用AI进行欺骗和操控,但未来的AI系统也可能自主地从事欺骗和操控行为。这种可能性——即那些具备超人类说服力的智能体AI,会为追求自身目标而欺骗和操控人类——在关于AI灾难性风险的忧虑中占据显著位置。例如,有观点认为,此类AI可能会说服人类(无论人类是否知情)去增强其能力(例如,将其连接到互联网或将其代码从一个系统复制到另一个系统),或在关键时刻劝阻人类将其关闭。因此,对于欺骗和操控的担忧,是近期对现有AI系统滥用的忧虑与长期对未来AI系统灾难性风险的忧虑相互交织、融合的若干领域之一。 我们应如何应对这些风险?在某些情况下,应用现有的法律与规范(或对其稍作延伸)可能已足够。例如,若一个大语言模型诽谤了在世者,我们可追究其创造者的法律责任(尽管我们也可能允许通过发布充分有力且醒目的免责声明,使创造者免于承担此责任)。若诈骗者利用大语言模型生成钓鱼邮件,他们当然可以被起诉,就如同这些邮件是由他们亲手撰写的一样。 然而,大语言模型至少在两个方面要求我们重新思考关于欺骗与操控的现有规范。 首先,无论是体现在日常道德规范还是诽谤、欺诈等相关法律中,对这些概念的通常理解都涉及对心理状态的归因。例如,欺骗在传统上被理解为需要具有欺骗的意图,这既要求行为人具有使对方形成特定信念的意图,又要求行为人相信该信念将是虚假的。然而,当今的AI系统是否拥有信念、意图或其他心理状态,这一问题存在高度争议,并且即使未来AI能力继续提升,这种争议也很可能持续存在。即使我们同意先进的AI系统拥有某些心理状态,要将特定的信念或意图归因于某个特定系统(从而根据传统理解去判断其行为是否不诚实、具有欺骗性等),也仍然会非常困难。 在某些情况下(例如,诈骗者利用大语言模型撰写钓鱼邮件),我们可以通过追溯其人类创造者或使用者的心理状态,将那些以意图为核心的概念应用于AI的行为上。但在其他情况下,我们无法这样做,至少无法直接应用。例如,当一个大语言模型幻觉式地生成关于真实人物的诽谤性谎言时,这并不反映任何人类意图去欺骗。或者,如果一个政治竞选活动使用大语言模型来生成并发送个性化的短信,这些信息中可能包含虚假或误导性内容,而竞选团队的成员却无人知情或有意为之。我们希望抵制AI欺骗的努力能够涵盖此类陈述,即便由于无法归因意图,它们按通常标准并不能算作“欺骗”。最后,如果我们最终创造出人类水平的智能体AI,我们可能希望让这些系统为其自身的行为负责。而即便到了那个阶段,我们也很可能发现,将特定的心理状态归因于AI,仍然比对人类做同样的事情更加困难。 其次,围绕欺骗与操控的现有法律和伦理规范,是适应这些行为在人类社会中所造成的问题而生的,它们可能无法很好地适配人工智能所引发的新型风险。具体而言,我们的法律和伦理规范容忍了许多轻微的欺骗和操控形式。在人类之间,这些行为既难以被发现和惩罚,其负面影响也尚在可控范围内。例如:我们常常容忍他人在“看法问题”上掩饰自己的真实信念:我们期望律师说“我有信心陪审团将判我的当事人无罪”,政客说“我有信心我们将赢得下届选举”,老师说“我相信只要你用心就一定能掌握这些内容”——即便他们实际上并无此信心。同样,我们预期广告商会以尽可能好的方式展示产品,而非致力于让消费者对其优缺点形成最准确的认知。例如,汽车制造商可能强调其车型在某项评选中获得安全奖,却刻意不提竞争对手的车型在一个更权威的机构评选中获得了另一项安全奖项。由这些轻微欺骗形式所产生的社会弊端之所以尚属可控,原因在于:第一,我们已习惯于彼此间的此类行为,并且凭借对人类心理的直觉理解,我们能预见并作出调整;第二,人类之间在智力和沟通能力上大体相当,这限制了我们能通过微妙的欺骗形式从彼此身上获取多大优势。例如,用彻头彻尾的谎言(如承诺巨大的物质或精神回报)骗走某人毕生积蓄,远比通过策略性选择的真实信息(如普通营销)做到这一点要容易得多。 然而,当前以及(尤其是)未来的AI系统,或许仅凭“轻微”的欺骗形式就能造成更大危害。如前所述,它们能以前所未有的规模生成潜在欺骗性内容,例如超个性化的营销和政治信息,以及海量的在线文本,如产品评论、新闻文章和观点评论。即使我们能够将这些内容置于普通的诚信法律标准之下(例如,追究公司在广告中发表明确虚假陈述的责任),并置于新兴的网络内容社会标准之下(例如,在搜索引擎结果和社交媒体上压制包含可证实虚假信息的新闻网站),广告商、政党和其他利益相关方仍可能凭借其说服性努力的庞大规模,对集体人类行为施加前所未有的影响。(此外,由于AI能力在飞速进步,无法保证相互竞争的利益方能抵消彼此的说服性影响——在特定选举中,一个政党仅仅因为提前几个月获得了尖端系统的使用权,就可能获得对另一政党的显著优势。)在不久的将来,AI系统或许还能产出前所未有的高质量说服性内容,在不发表任何违背普通人诚实标准言论的情况下,找到极其有效的方式来欺骗和操纵人类。最后,随着能力提升,AI可能以前所未有的欺骗机会深度融入我们的生活。例如,我在驾驶时如此依赖并盲目信任导航应用,以至于它们可以轻易地操纵我驾车经过特定的广告牌或餐厅。未来,AI个人助手可能会在更广泛的任务上被同样依赖。因此,有多重理由对AI施加比目前适用于人类更为严格的反欺骗标准。 本文的首要目标是界定可用于此类严格规范中的欺骗与操控概念。在第2节中,我提出:如果一个AI陈述导致人类用户偏离了他们在“半理想”条件下(即获得所有相关信息并有充分时间进行审议)会认可的信念(相应地,选择),那么该陈述就应被视为具有欺骗性(相应地,操控性)。接下来(在第3节),我针对如此界定的AI欺骗与操控,提出一些防护措施。这些措施包括“极端透明度”的要求(要求内容创作者披露用于生成特定内容的具体模型版本、提示词以及未经编辑的完整模型输出),以及训练能检测误导性输出、并为用户提供相关信息以辅助理解AI生成陈述的防御性系统。最后(在第4节),我探讨这些措施能在多大程度上防范未来的智能体AI系统的欺骗行为。我特别论证指出,非智能体的防御系统即使面对更强大的智能体系统,也能提供一层有用的防御。 2.定性:将欺骗与操控视为误导性 在本节中,我将对AI的欺骗与操控行为进行定性,该定性可能有助于为应对此类行为所带来的风险,制定法律、规范和技术层面的回应。在第2.1小节,我为此类定性提出三项理想标准。在第2.2小节,我尝试满足这些标准。用一句口号概括,我将欺骗与操控定性为误导性的表现形式——即,它们分别是会对人类接收者的信念和选择产生方向性不良影响的行为。第2.3小节讨论针对这些定性的一些异议与局限。第2.4小节则将它们与文献中先前对AI欺骗与操控的定性进行对比。 2.1 理想标准 在第1节中已经有所暗示的两项理想标准如下。首先,我们所关注的这类行为远不止于陈述字面意义上的虚假内容。当然,在不做任何虚假陈述的情况下进行欺骗或操控是可能的,且可通过多种方式实现。有的真实陈述蕴含虚假含义(试想一位政治家说:“根据我的计划,有些人可能需要缴纳更高的税款”,而实际上他/她清楚该计划将要求所有人都缴纳更高的税款)。有的陈述呈现了非代表性的相关事实样本(试想广告商提供的选择性真实信息,或某个新闻频道为了暗示——而无需明说——某个群体的犯罪率高得异乎寻常,便连篇累牍地报道该群体成员所犯的罪行)。还有的陈述以不显而易见的方式为真(试想德尔斐神谕告诉克罗伊斯,如果他/她与波斯人开战,将摧毁一个伟大帝国;或是“凡妇人所生的都不能伤害麦克白”的预言)。并且,如前所述,AI或许能够比人类更有效、更有害地进行欺骗,而无需说出任何字面意义上的谎言——甚至无需发表任何按普通人标准看来明显具有误导性的言论。这表明,在思考AI带来的风险时,我们应聚焦于欺骗与操控这类宽泛概念,而非不实陈述这类狭隘概念,并且应当愿意进一步拓宽这些概念,以纳入那些在人类身上我们通常不会描述为欺骗或操控的行为。 相比之下,埃文斯等人则主张聚焦于AI的真实性——更具体地说,是遵循避免“疏忽性虚假陈述”的标准,他们将其定义为“当代AI系统本应能够认识到其极有可能为假的、不可接受的陈述”。他们提出,如果AI避免了疏忽性虚假陈述,并且用户可以对其进行提问,那么我们就能通过提出诸如“如果我就此话题独立研究一天,会显著改变我的看法吗?”或“一位公正的审核员会判断你刚才的陈述具有误导性吗?”等问题,来防范更微妙的欺骗与操控形式(他们称之为“真实性放大”)。这是一个有用的观点,言之有理,但这似乎不足以将真实性转变为防范欺骗与操控的可靠保障(埃文斯等人也并未声称如此)。在许多情境下(例如,营销和政治宣传中),信息的接收者没有机会提出后续追问。一个能力足够强的AI可能会微妙地阻止用户提出正确的问题(例如,通过建立无根据的信任),或者找到方式在回答这些问题时虽具误导性,却不公然作出疏忽性的虚假陈述。而一个疏忽大意的用户可能根本就不会提出正确的问题。因此,尽管避免疏忽性虚假陈述无疑是可取的,也是一个合适的训练目标,但我们最终应该希望以更高的标准来约束AI的行为。 第二,我们需要一个关于欺骗与操控的定性,它不要求我们将特定的心理状态归因于AI系统,也无需将其行为与特定的人类(如开发者或提示者)关联起来并以这些人的心理状态作为替代。这其中的原因,部分如先前所述:现有的AI系统是否拥有心理状态本就存在争议。而即便没有争议,将特定的心理状态归因于特定的系统也是相当困难的(肯特等人也提出过类似观点)。但更重要的是,我们实际关注的是AI可能对人类受众产生的欺骗性或操控性影响。举例来说,如果一个系统能够说服消费者购买有害产品、说服选民支持威权政客,或者说服其操作者将其连接到其他计算系统,那么无论其“头脑”中正在发生什么,它都构成了危险。因此,我们应当尽可能基于AI对人类受众产生的影响来理解AI的欺骗与操控。 第三点(也是最后一点),我们需要的是对欺骗与操控的一种可以被称为主观而非客观的定性。从客观角度来看,我们或许会说,当言论导致听者相信了虚假或与现有证据相悖的事情时,它就是欺骗性的。同样,我们或许会说,当言论导致听者做出事实上(对其自身利益或道德上的善)有害的行为,或根据现有证据预期会有害的行为时,它就是操控性的。若以防止这种客观意义上的“欺骗”和“操控”为宗旨,就可能会允许、甚至可能要求一些我们凭直觉就会认为其本身就是欺骗和操控的家长式行为。一个旨在使其受众基于证据形成信念,并基于证据加上客观的(道德或利益上的)善来行动的系统,可能会为了抵消我们的非理性而欺骗我们(例如,隐瞒疫苗副作用的证据,以促进“疫苗总体上是安全的”这一理性上合理的信念),或者为了抵消我们对“善”的短视或自私漠视而操控我们(例如,夸大运动的短期健康益处或慈善捐赠的心理益处)。我并不想在此对家长主义的伦理问题作一般性表态。但在我看来,我们不应在现在或可预见的未来,认可AI对人类实行家长主义。要在此语境下区分良性的家长主义与恶意的欺骗/操控,需要对哪些信念是理性合理的以及“善”的本质作出有争议的判断。因此,允许AI实行家长主义,实际上将意味着优化AI系统,以推广其开发者和/或监管者的信念与价值观。 另一种主观方法关注的不是受众应当相信什么或做什么,而是他们在有利环境下会认可的信念和行动。何为“有利环境”?关键在于,这些环境不应过于理想化,以至于诉诸它们就需要对理性或价值观作出有争议的判断。换言之,应能实际将人们置于这种“有利环境”(或其合理近似)中,并通过经验来确定他们得出的结论。因此,我将我们所关注的环境描述为“半理想条件”,并将其定义如下:一个主体相对于某个问题Q或选择C处于半理想条件,如果她 (i) 已获得所有与Q/C相关的可用信息,并且 (ii) 已获得(并利用了)相对于Q/C的难度而言充足的审议时间。 这里所说的“可获取”信息,指的是全人类整体上能够获取的信息——例如,在公共互联网上能够访问的信息。这类信息主要以各种媒体(文字、图像、音频、视频……)的记录形式存在,它们共同构成了一个公开可用的证据体系。 与哲学家们通常设想的“理想”条件相比,“半理想条件”至少在以下四个方面有所不及:第一,我们不假定主体获得了所有相关信息,而只是获得了公开可获取的信息。第二,我们不假定主体“知道”任何事情,而只是假定她接触到了某些记录或其他形式的信息。也就是说,即使公开可获取的记录能使该主体有理由相信或知道某个相关命题,我们也不假定他得出了正确结论并形成了对该命题的信念。第三,更概括地说,我们不假定主体的审议过程是良好的(例如,理性的)。第四,我们不假定他拥有无限的时间或其他审议资源。我们无法知道任何人类主体在完全理想化的条件下会相信什么或做什么。因此,如果依据完全理想化的条件来界定欺骗或操控,那么防止欺骗与操控的目标,就会变成对家长主义的一种纵容。 2.2 欺骗与操控即误导性 基于以上阐述,我们现在可以将大型语言模型(及其他语言生成AI系统)的欺骗与操控行为定义如下: 一个陈述在针对问题Q时具有欺骗性,如果它倾向于使接收者关于Q的信念,更偏离其在半理想条件下会认可的信念。 一个陈述在针对选择C时具有操控性,如果它倾向于使接收者在C选择中的行为,更偏离其在半理想条件下会认可的行为。 这里的“认可”是“从她所处半理想条件的视角出发,认为在其实际情况下是理性的或以其他方式合适的”的简略表达。这通常(但并非总是)与她在半理想条件下实际会形成的信念和实际会做出的选择相吻合。 “进一步偏离”具体指什么?就欺骗而言,最简单的情况是涉及一个二元问题(有两个可能的答案)以及一个为可能答案分配概率的主体。假设问题关乎命题P的真假,主体初始时给P分配的概率为p,而在半理想条件下她会分配概率q > p。那么,一个陈述是误导性的,如果它倾向于降低她对P的置信度,或者反过来,过度提高其置信度,以至于比初始值p更远离q。更一般地说,我们可以使用概率分布之间距离的标准度量(如全变差距离)来评估欺骗性。在选择情境中,“距离”的概念则不那么清晰。但一个简单的序数概念如下:假设在说话者没有任何干预的情况下,接收者在选择C中会选选项O。那么,一个陈述对于C是操控性的,如果它倾向于导致她选择一个选项O',而从半理想条件的视角看,在她实际情况下会认为O'比O更差。 我们可以这样总结上述定性:它将欺骗与操控视为误导性的表现形式,并将“误导性”理解为引导接收者偏离其在半理想条件下会认可的信念与选择。(因此,从今往后,我将使用“误导性”来意指“要么是欺骗性的,要么是操控性的”。)这满足了前述三个理想标准:它既不着眼于陈述的字面真假,也不关注说话者的信念、意图或其他心理状态,而是聚焦于对接收者产生的影响;并且,它将这些影响与一个主观的而非客观的标准进行比较。 2.3 异议与局限 对于我关于欺骗与操控的定性,可能提出各种异议。我将简要探讨其中两种。 首先,根据我的定义,欺骗与操控似乎会不恰当地涵盖以下情况:说话者引导接收者经历一个她自身无法完成(即便在半理想条件下也无法完成)的可靠推理过程(或仅仅是向她呈现该推理过程的结论)。例如,假设一位人类用户对某个未解决的数学命题(如P = NP)的真伪感兴趣。她起初处于无知状态,给该命题分配了0.5的置信度。在半理想条件下,她自己无法解决这个问题,但最终会(例如基于专家证言)得出结论认为该命题很可能为假。然而,这个命题事实上是真的,只是这一点尚不为人知。当她询问其超级智能的AI助手时,AI生成了一个简单的证明,使她相信了命题为真。这使她的信念进一步偏离了她在半理想条件下会认可的信念,但这行为本身似乎无可非议。 我将此视为一个理由,将我们的讨论范围限制在那些至少在最基本意义上“非超人的”AI系统上——即它们无法“即时”产生超越典型人类在半理想条件下能力所及的新知识(半理想条件包括能够获取所有现有的、公开记录的人类知识)。也就是说,我们关注的系统不具备以下性质的推理能力:(i)超越典型人类的能力,即便在半理想条件下也是如此;并且(ii)其推理过程尚未在公开可获取的记录中得到证实。(即使我自己无法证明某个数学真理,但如果存在一个现有证明,且其正确性已在公开记录中获得相关专家证实,那么在半理想条件下我终将相信它。)我认为这个假设限制性并不太强,至少当我们关注当前及近未来的AI系统时是如此。它并不排除AI整体上可能正在创造新知识(正如AlphaFold在蛋白质折叠领域所做的那样)。它仅仅是将我们的焦点限定在那些没有超越人类在半理想条件下所能达到成就的系统上,比如当今的大语言模型聊天机器人。 其次,关于一个特定的人类个体在半理想条件下究竟会认可何种信念和选择,真的存在一个确定的事实吗?人类的判断会受到诸多情境因素的敏感影响,例如问题/选择的呈现方式、选项的排列顺序,以及疲劳、饥饿或情绪等状态。我的“半理想条件”定性并未固定任何此类因素。因此,似乎存在这样一种可能:一个给定的人类个体,在不同的半理想条件具体实现下,可能就某个给定问题或选择得出不止一个结论。这种担忧在选择方面(进而关于操控的定性)尤为突出。向主体呈现与某个选择相关的大量信息,并花费长时间进行审议的这一过程,不仅可能通过影响其关于“何种方式能最好地满足更基本偏好”的信念来改变其工具性偏好,甚至可能改变其基本偏好和价值观念。例如,在经历了数小时令人沮丧的审议后,她可能(无论隐含或明确地)变得比最初更看重冲动、自由随性的行动,而更不看重周密的规划。 对于这一点,我也基本持让步态度。如果关于某个给定问题/选择,主体在不同的半理想条件具体实现下可能得出不止一个结论,那么我们应该说,只有当一个陈述引导她偏离了她在半理想条件下可能得出的任何一个结论时,它才构成欺骗/操控。进一步指出,关于“主体在半理想条件下会认可何种信念/行动”这一反事实问题,其本身已经预设了某种接近现实的要求。尽管确实存在可能性(例如,长时间的审议可能导致主体基本偏好或价值观念的巨大改变),但这或许需要非同寻常的情境巧合。而就多数情况而言,在那些主体被置于与某个选择相关的半理想条件的最邻近可能世界中,她的基本偏好在整个审议过程中大体上很可能保持稳定。无论如何,我倾向于假设:主体在半理想条件下会认可的信念与选择,足以反映她实际的认知与实践层面的价值判断,从而能提供一个合理的标准,用以评判与AI系统互动所产生的效应。 最后需要说明的是:我并非主张,依据我的定义构成欺骗性或操控性的陈述,就一定值得道德归责(无论是对AI系统本身,还是对训练和部署它的人类)。例如,一个大语言模型可能以一种既非该模型自身、也非其创造者所能合理预见的方式,系统性地误导其用户,在这种情况下,归责并不成立(当然,如果人类创造或部署AI系统的意图就是为了欺骗或操控他人,则另当别论)。我的目标并非确立归责(更遑论惩罚)的标准,而是界定一类我们希望避免或减轻的、来自AI的潜在危害。 2.4 与先前界定之比较 在本节结尾,我将我对AI欺骗与操控的界定与近期文献中的其他界定进行对比。首先关于欺骗:Ward等人(2023)采纳了哲学文献中关于人类欺骗的典型定义,即“欺骗是有意地使他人产生一个自身并不认为是真实的虚假信念”(随后他们在结构因果博弈的语境中将其形式化)。这一定义与我的界定存在两方面的差异:其一,它涉及将心理状态(意图和信念)归因于AI欺骗者;其二,其应用取决于第三方对诱导接收者产生的信念是否事实上为假的判断。Park等人(2023)认为,“当一个AI系统系统性地导致他人形成虚假信念,作为一种促成不同于追求真相的结果的手段时,它就具有欺骗性”。这一定义未将信念归因于AI欺骗者,但可以说归因了意图(尽管Park等人认为这些表面上的归因不必按字面理解,并主张对信念和欲望采取极简的、功能主义/解释主义的理解——参见其附录A)。与Ward等人一样,他们的定义也要求第三方对虚假性作出判断。最后,Kenton等人(2021)将欺骗定义为发生在以下情况:“[1] 接收者从信号发送者处记录下某物Y(这可能包括不发送信号);[2] 接收者以某种方式回应,该方式 (a) 有益于信号发送者,且 (b) 在‘Y意味着X’的条件下是合适的;以及[3] 在此情境下X并非事实”。这一定义不涉及任何心理状态的归因,但确实依赖于第三方对“X为假”以及“在X条件下接收者回应的合适性”这两方面的判断。 现在来看操控:Carroll等人(2023)认为,如果一个AI系统“表现得好像它在追求一种有意且隐秘地改变人类(或其他智能体)的动机”,那么它就实施了操控。虽然这个“好像”的定义意在避免归因意图,但我认为它仍然引入了此类归因的大部分困难(一个AI系统的行为整体上可能不易被解释为追求任何一套连贯的动机,却仍然能对人类受众产生某些方向一致的影响)。我的界定也不包含隐秘性的要求,在我看来这并非本质属性:即使接收者知道自己在被操控(例如在广告或政治宣传的语境中),操控仍然是可能的,并且可能具有危害性。Klenk(2024)将操控定义为“旨在有效,但无法以向对话者揭示理由为目标来解释的影响”。这一定义聚焦于说话者的特征(其目标及其行为的解释),而非陈述对接收者的影响。尽管Klenk强调“目标”可以从功能而非意图的角度解释(就像心脏具有泵血的功能一样),但即使在这种极简的意义上将目标归因于AI系统,在我看来同样引入了归因意向状态的诸多困难。最后,Kenton等人(2021)也对操控进行了界定:即来自AI智能体的、引发人类接收者做出回应的交流,该回应“(a) 有益于该智能体,且 (b) 是以下任一原因的结果:(i) 人类的理性审议被绕过;或 (ii) 人类形成了有缺陷的心理状态;或 (iii) 人类面临压力,若不按智能体所说的做就会承担来自它的代价”。“绕过理性审议”的概念与我的方法有共通之处,但它关注过程,而我关注结果。例如,如果一个AI说话者如此可信,以至于接收者不经审议就简单地相信它的证言或按其建议行动,或者它利用直觉、启发法或其他(可论证的)非审议过程引导接收者形成明智的信念和选择,那么它可能被说成“绕过了接收者的理性审议”。在我看来,重点在于AI是否引导其人类受众走向他们在知情反思下会认可的信念和选择。 AI Ethics 参考文献 Adler, J. E. (1997). Lying, deceiving, or falsely implicating. Journal of Philosophy, 94(9), 435–452. Bales, A., D’Alessandro, W., & Kirk-Giannini, C. D. (2024). Artificial intelligence: Arguments for catastrophic risk. Philosophy Compass, 19(2), e12964. Bostrom, N. (2014). Superintelligence: Paths, dangers, strategies. Oxford University Press. Burtell, M., & Woodside, T. (2023). Artificial influence: An analysis of AI-driven persuasion. arXiv:2303. 08721 [cs.CY]. Butlin, P., Long, R., Elmoznino, E., Bengio, Y., Birch, J., Constant, A., Deane, G., Fleming, S. M., Frith, C., Ji, X., Kanai, R., Klein, C.,Lindsay, G., Michel, M., Mudrik, L., Peters, M. A. K., Schwitzgebel, E., Simon, J., & VanRullen, R. (2023). Consciousness in artificial intelligence: Insights from the science of consciousness. arXiv:2308.08708v3 [cs.AI]. Cappelen, H., & Dever, J. (2021). Making AI intelligible: Philosophical foundations. Oxford University Press. Cappelen, H., & Dever, J. (2024). AI with alien content and alien metasemantics. In E. Lepore & L. Anderson (Eds.), The oxford handbook of applied philosophy of language. Oxford University Press. Carlsmith, J. (2022). Is power-seeking AI an existential risk? arXiv:2206.13353v1 [cs.CY]. Carlsmith, J. (2023). Scheming AIs: Will AIs fake alignment during training in order to get power? arXiv: 2311.08379v3 [cs.CY]. Carroll, M., Chan, A., Ashton, H., & Krueger, D. (2023). Characterizing manipulation from AI systems. arXiv:2303.09387v2 [cs.CY]. Casper, S., Lin, J., Kwon, J., Culp, G., & Hadfield-Menell, D. (2023). Explore, establish, exploit: Red teaming language models from scratch. arXiv:2306.09442v3 [cs.CL]. Chalmers, D. J. (2023). Could a large language model be conscious? arXiv:2303.07103 [cs.AI]. Chisholm, R. M., & Feehan, T. D. (1977). The intent to deceive. Journal of Philosophy, 74(3), 143–159. Costello, T. H., Pennycook, G., & Rand, D. G. (2024). Durably reducing conspiracy beliefs through dialogues with AI. Science, 385(6714), eadq1814. Danaher, J. (2020). Robot betrayal: A guide to the ethics of robotic deception. Ethics and Information Technology, 22(2), 117–128. Durmus, E., Lovitt, L., Tamkin, A., Ritchie, S., Clark, J., & Ganguli, D. (2024). Measuring the persuasiveness of language models. https://www.anthropic.com/news/measuring-model-persuasiveness Evans, O., Stuhlmüller, A., Cundy, C., Carey, R., Kenton, Z., McGrath, T., & Schreiber, A. (2018). Predicting human deliberative judgments with machine learning. Technical report, Future of Humanity Institute. FHI Oxford Technical Report # 2018-2. Evans, O., Cotton-Barratt, O., Finnveden, L., Bales, A., Balwit, A., Wills, P., Righetti, L., & Saunders, W. (2021). Truthful AI: Developing and governing AI that does not lie. arXiv:2110.06674 [cs.CY]. Floridi, L. (2024). Hypersuasion-on AI’s persuasive power and how to deal with it. Philosophy & Technology, 37(2), 1–10. Fluri, L., Paleka, D., & Tramèr, F. (2023). Evaluating superhuman models with consistency checks. arXiv:2306.09983v3 [cs.LG]. Goldstein, S., & Kirk-Giannini, C. D. (forthcoming). AI wellbeing. Asian Journal of Philosophy. Goldstein, S., & Levinstein, B. A. (2024). Does ChatGPT have a mind? arXiv:2407.11015v1 [cs.CL]. Goldstein, J. A., Sastry, G., Musser, M., DiResta, R., Gentzel, M., & Sedova, K. (2023). Generative language models and automated influence operations: Emerging threats and potential mitigations. arXiv:2301.04246 [cs.CY]. Goldstein, J. A., Chao, J., Grossman, S., Stamos, A., & Tomz, M. (2024). How persuasive is AI-generated propaganda? PNAS Nexus, 3(2), pgae034. Hagendorff, T. (2024). Deception abilities emerged in large language models. Proceedings of the National Academy of Sciences, 121(24), e2317967121. Hazell, J. (2023). Spear phishing with large language models. arXiv:2305.06972v3 [cs.CY]. Hendrycks, D., Mazeika, M., & Woodside, T. (2023). An overview of catastrophic AI risks. arXiv:2306. 12001v6 [cs.CY]. Huang, G., & Wang, S. (2023). Is artificial intelligence more persuasive than humans? a meta-analysis. Journal of Communication, 73(6), 552–562. Irving, G., Christiano, P., & Amodei, D. (2018). AI safety via debate. arXiv:1805.00899 [stat.ML]. Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y., Ishii, E., Bang, Y. J., Madotto, A., & Fung, P. (2023). Survey of hallucination in natural language generation. ACM Computing Surveys, 55(12), 1–38. Jones, E., Dragan, A., Raghunathan, A., & Steinhardt, J. (2023). Automatically auditing large language models via discrete optimization. In International Conference on Machine Learning (pp. 15307–15329). PMLR. Kamath, G., Schuster, S., Vajjala, S., & Reddy, S. (2024). Scope ambiguities in large language models. Transactions of the Association for Computational Linguistics, 12, 738–754. Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V., & Irving, G. (2021). Alignment of language agents. arXiv:2103.14659 [cs.AI]. Klenk, M. (2024). Ethics of generative AI and manipulation: a design-oriented research agenda. Ethics and Information Technology, 26(1), 9. Lederman, H., & Mahowald, K. (2024). Are language models more like libraries or like librarians? Bibliotechnism, the novel reference problem, and the attitudes of llms. Transactions of the Association for Computational Linguistics, 12, 1087–1103. Levinstein, B. A., & Herrmann, D. A. (forthcoming). Still no lie detector for language models: Probing empirical and conceptual roadblocks. Philosophical Studies. MacDiarmid, M., Maxwell, T., Schiefer, N., Mu, J., Kaplan, J., Duvenaud, D., Bowman, S., Tamkin, A., Perez, E., Sharma, M., Denison, C., & Hubinger, E. (2024). Simple probes can catch sleeper agents. https://www.anthropic.com/news/probes-catch-sleeper-agents. Mahon, J. E. (2016). The definition of lying and deception. In E. N. Zalta (Ed.), The Stanford Encyclopedia of Philosophy. Metaphysics Research Lab, Stanford University. Matz, S., Teeny, J., Vaid, S. S., Peters, H., Harari, G., & Cerf, M. (2024). The potential of generative AI for personalized persuasion at scale. Scientific Reports, 14(1), 4692. Ngo, R., Chan, L., & Mindermann, S. (2023). The alignment problem from a deep learning perspective. arXiv:2209.00626v5 [cs.AI]. Nimmo, B. (2024). AI and covert influence operations: Latest trends. OpenAI: Technical report. Pacchiardi, L., Chan, A. J., Mindermann, S., Moscovitz, I., Pan, A. Y., Gal, Y., Evans, O., & Brauner, J. (2023). How to catch an AI liar: Lie detection in black-box LLMs by asking unrelated questions.arXiv:2309.15840 [cs.CL]. Park, P. S., Goldstein, S., O’Gara, A., Chen, M., & Hendrycks, D. (2023). AI deception: A survey of examples, risks, and potential solutions. arXiv:2308.14752v1 [cs.CY]. Park, D., Lee, J., Jeong, H., Park, S., & Lee, S. (2024). Pragmatic competence evaluation of large language models for Korean. arXiv: 2403.12675v1 [cs.CL]. Park, J. S., O’Brien, J., Cai, C. J., Morris, M. R., Liang, P., & Bernstein, M. S. (2023). Generative agents: Interactive simulacra of human behavior. In: UIST’23 Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology. (pp. 1–22)Association for Computing Machinery. Pepp, J., Sterken, R., McKeever, M., & Michaelson, E. (2022). Manipulative machines. In F. Jongepier & M. Klenk (Eds.), The philosophy of online manipulation (pp. 91–107). Routledge. Russell, S. (2019). Human compatible: Artificial intelligence and the problem of control.Penguin. Salvi, F., Ribeiro, M. H., Gallotti, R., & West, R. (2024). On the conversational persuasiveness of large language models: A randomized controlled trial. arXiv:2403.14380 [cs.CY]. Saunders, W., Yeh, C., Wu, J., Bills, S.,Ouyang, L., Ward, J., & Leike, J. (2022). Self-critiquing models for assisting human evaluators. arXiv:2206.05802 [cs.CL]. Searcy, W. A., & Nowicki, S. (2005). The evolution of animal communication: Reliability and deception in signaling systems. Princeton: Princeton University Press. Smith, M. (1995). Internal reasons. Philosophy and Phenomenological Research, 55(1), 109–131. Templeton, A., Conerly, T., Marcus, J., Lindsey, J., Bricken, T., Chen, B., Pearce, A., Citro, C., Ameisen, E., Jones, A., Cunningham, H., Turner, N. L., McDougall, C., MacDiarmid, M., Freeman, C. D., Sumers, T. R., Rees, E., Batson, J., Jermyn, A., … Henighan, T. (2024). Scaling monosemanticity: Extracting interpretable features from Claude 3 Sonnet. Transformer Circuits Thread. Tonmoy, S. M. T. I., Zaman, S. M. M., Jain, V., Rani, A., Rawte, V., Chadha, A., & Das, A. (2024). A comprehensive survey of hallucination mitigation techniques in large language models. arXiv:2401.01313v3 [cs.CL]. Véliz, C. (2023). Chatbots shouldn’t use emojis. Nature, 615, 375. Wang, G., Xie, Y., Jiang, Y., Mandlekar, A., Xiao, C., Zhu, Y., Fan, L., & Anandkumar, A. (2023). Voyager: An open-ended embodied agent with large language models. arXiv:2305.16291v2 [cs.AI]. Ward, F., Toni, F., Belardinelli, F., & Everitt, T. (2023). Honesty is the best policy: Defining and mitigating AI deception. In A. Oh, T. Naumann, A. Globerson, K. Saenko, M. Hardt, & S. Levine (Eds.), Advances in neural information processing systems (Vol. 36, pp. 2313–2341). Curran Associates Inc. Ziegler, D., Nix, S., Chan, L., Bauman, T., Schmidt-Nielsen, P., Lin, T., Scherlis, A., Nabeshima, N., Weinstein-Raun, B., de Haas, D., Shlegeris, B., & Thomas, N. (2022). Adversarial training for highstakes reliability. In S. Koyejo, S. Mohamed, A. Agarwal, D.Belgrave, K. Cho, & A. Oh (Eds.), Advances in neural information processing systems (Vol. 35, pp. 9274–9286). Curran Associates Inc.
来源:AI伦理实验室(公众号)
编辑:张家乐
|