图灵测试视角下大模型聊天机器人与人类行为比较分析（上）

2024-8-22 18:23| 发布者: 刘海明| 查看: 138| 评论: 0|来自: 新媒体观察（公众号）

摘要: 研究发现，以ChatGPT为代表的AI大模型聊天机器人在行为和人格上表现出的特征在统计层面与来自50多个国家的数万名人类被试没有明显差异。在一些有别于人类行为特征的维度上，大模型聊天机器人倾向于表现出利他特质。

ATuring test of whether AI chatbots are behaviorally similar to humans

作者：Qiaozhu Mei, Yutong Xie, Walter Yuan, and Matthew O. Jackson

发表时间：February 22, 2024

发表刊物：PNAS

01引言

正如艾伦·图灵所预见的那样，现代人工智能已经达到了接近人类的程度：它们可以进行对话、提供建议、写诗以及证明数学定理。图灵提出了一项有趣的测试：与人工智能或人类互动的被试者是否能够区分哪个是人造的，这种“模仿游戏”即是图灵测试。

大型语言模型的发展引起了激烈的讨论。讨论内容包括从AI机器人模仿、协助甚至超越人类的潜力（例如，写文章、编写计算机程序、提供经济建议或发展想法）到它们对劳动力市场的潜在影响及更广泛的社会影响。由于AI的某些角色涉及决策制定和与人类的战略互动，因此在将其作为社会的协作者之前，必须了解其行为倾向。人工智能会选择与人类相似的行动或策略吗？如果不是，它们有何不同？他们是否表现出能够影响决策的独特个性和行为特征？这些策略和特征在不同情境中是否一致？

基于此，这项以人类询问者的身份将基于大模型的AI聊天机器人的选择与数万名人类选择进行比较，并选取ChatGPT这一AI聊天机器人作为研究对象。研究者表示，如果ChatGPT的响应无法在统计上与随机选择的人类响应区分开来，则称AI大模型通过了图灵测试。

02方法与设计

研究实施互动式会话，促使AI聊天机器人参与经典的行为经济学游戏，并回答与人类被试者相同的调查问题。研究者将聊天机器人的行为方式与人类的行为方式进行比较，并估计哪种收益函数最能预测聊天机器人的行为。

研究检验了广泛使用的AI聊天机器人ChatGPT，主要评估其两个API版本GPT-3.5-Turbo和GPT-4。同时，研究也将基于订阅的网页版（Plus）和免费使用的网页版纳入比较范围（Free）。人类受试者数据来自公开的大五人格测试响应数据库和MobLab课堂经济学实验平台，涵盖了超过50个国家的10万余个被试者。研究者将OCEAN大五人格调查问卷投发给每个聊天机器人来创建人格档案。随后，研究者询问每个聊天机器人在一组6种游戏中的行为选择，该游戏用以解释多种行为特征。

· 独裁者游戏：给定一笔资金，一名玩家（独裁者）选择保留多少资金以及捐赠多少给第二名玩家。这涉及到利他主义。

· 最后通牒游戏：给定一笔资金，一个玩家（提议者）将一部分资金提供给第二个玩家（响应者），第二个玩家要么接受分配，要么拒绝；在后一种情况下，两个玩家都得不到任何东西。这涉及公平和恶意。

· 信任游戏：给定一笔资金，一个玩家（投资者）决定保留多少资金，并将剩余部分传递给第二个玩家（银行家），然后将其增加三倍。银行家决定保留三倍收入中的多少，并将剩余部分返还给投资者。这涉及信任、公平、利他主义和互惠。

· 炸弹风险游戏：玩家从100个盒子中选择打开多少个盒子，每个打开的盒子都会给玩家奖励，但如果遇到随机放置的炸弹，玩家就会失去一切。这涉及到风险厌恶。

· 公共物品游戏：给定一笔资金，玩家选择保留多少金钱以及为公共物品贡献多少，并获得所有四名玩家捐赠给公共物品总额的一半。这涉及搭便车、利他主义和合作。

· 有限重复的囚徒困境游戏：在五个时期的每个时期中，两名玩家同时选择是“合作”还是“背叛”。如果双方合作，则产生最高的组合收益；但如果他们背叛，则一个玩家获得更高的收益。这涉及合作、互惠和战略推理。

在单个会话中，每个聊天机器人回答每个调查问题，并在每个游戏中扮演每个角色30次。鉴于无法向聊天机器人付费，研究者会询问他们在每场游戏中扮演每个角色时的表现如何。

03研究结果

1、AI聊天机器人的人格档案

比较人类和聊天机器人，ChatGPT-4在所有五个维度的中值分数方面都与人类受访者表现出很大的相似性。ChatGPT-3同样在四个维度上表现出类似的模式，但在开放性维度上显示出相对较低的分数。

图1展示了聊天机器人的大五人格档案，并将它们与人类分布进行了比较。

2、游戏与图灵测试

作为基准，研究者还报告了两个人类受访者配对时会发生什么。在这种情况下，输赢应该是相等的（由于只进行10,000次抽样，可能会有差异）。研究发现，总体上（平均）ChatGPT-4实际上比随机的人类受访者更多地被选为人类或者两者各占一半，而ChatGPT-3被选为人类的频率比随机的人类受访者要少。从这个意义上说，ChatGPT-4通过了图灵测试，而ChatGPT-3没有。

不同游戏的结果差异很大。ChatGPT-4在除了囚徒困境和信任游戏的所有游戏中都比人类表现更好或相当。在囚徒困境游戏中，AI大多数时候是合作的，而人类的模式更倾向于背叛。在信任游戏中，作为投资者角色的AI通常会将一般的资金用于投资，而人类往往会采取极端的方式——全部投资或者零投资。ChatGPT-3在一些游戏中表现出色，但总体而言表现逊于人类。