设为主页 |收藏

登录实名注册找回密码

武沛颍、陈昌凤 | 社交机器人能否操纵舆论——以Twitter 平台的北京冬奥舆情为例

2023-1-8 21:06| 发布者: 刘海明| 查看: 141| 评论: 0|来自: 再建巴别塔（公众号）

摘要: 【案例】【摘要】社交机器人已经成为舆论建构中不可忽视的重要主体。为探究社交机器人是否具有操纵舆论的能力，本文以网络议程设置理论为基础，在Twitter平台抓取与外交抵制北京冬奥会事件的相关推文49734条，提炼出 ...

【案例】

【摘要】社交机器人已经成为舆论建构中不可忽视的重要主体。为探究社交机器人是否具有操纵舆论的能力，本文以网络议程设置理论为基础，在Twitter平台抓取与外交抵制北京冬奥会事件的相关推文49734条，提炼出关于该议题的客体议程和属性议程，在此基础上分别绘制人类和机器人的议程网络并分析网络间的相似性。研究结果显示，有近四分之一与冬奥相关的推文都由机器人生产；机器人用户倾向于关注冬奥相关的负面话题，多持反对冬奥的态度；人类与机器人的议程网络显著相关，存在网络议程设置效果，说明社交机器人可能已经具备操纵舆论的能力。

【关键词】社交机器人网络议程设置计算传播

目前，人工智能技术已经深度嵌入社交媒体中，重塑了信息生产、分发、交互的全流程，并出现了模仿人类行为、与人类用户进行交互的智能账户——社交机器人。此前研究表明，机器水军大量参与到了英国脱欧、美国总统选举等政治事件中，Twitter平台上与中国有关的议题也常常被社交机器人操纵。它们通过与用户互动、大量发帖等手段营造虚假的舆论环境，以影响公众的政治倾向和选择。由此可见，社交机器人是舆情建构中不可忽视的重要推手，在话题凸显、关联建构等方面发挥着独特的作用。

针对社交机器人大量介入公共讨论这一现象，关键问题是探究社交机器人是否具备操纵舆论的能力，这涉及到社交机器人能在多大程度上影响人类用户。因此，本文采用计算传播学方法，以Twitter上与“外交抵制冬奥会”相关的推文内容为研究对象，探究其中是否存在社交机器人操纵舆论的情况。具体而言，本文聚焦以下问题：在关于外交抵制北京冬奥会的话题讨论中，社交机器人关注哪些冬奥相关话题？社交机器人对北京冬奥持怎样的态度？社交机器人如何构建议程网络？社交机器人能否操纵北京冬奥的相关舆论？

一、文献综述

（一）社交机器人与政治传播

社交机器人是人工智能技术应用于在线社交网络的产物，具体指在线社交网络中模拟人类用户，自主运行、自动生产发布内容的算法智能体，它承担着聊天网友、智能客服等角色。其中，用于承担政治传播任务的一类机器人被称为政治机器人（political bots），主要应用场景包括政治选举、社会动员与政治干扰。此前研究已经表明，在许多重大政治事件中均存在政治机器人操纵舆论的痕迹。如在2014年日本大选中，社交机器人通过大量转发或重复发布某一条信息为舆论造势。在2016年的美国大选中，支持特朗普的推文中有三分之一都由自动化账户生成。在2019年的西班牙大选中，社交机器人积极参与到选举过程中，在社交网络中支持了五个政党。特别值得注意的是，与中国相关的议题在Twitter平台上也常常受到机器人操纵。陈昌凤、师文对社交机器人操纵中国相关议题的现象进行研究，发现与中国相关的推文中有超过1/5疑似由机器人用户发布，且不同议题的自动化操纵程度存在差异。香港“修例”风波系列报道在Twitter上进行扩散时，社交机器人在一级传播中无差别地进行新闻扩散，在二级传播中则表现出对香港问题的明显关注并支持抗议者。在关于新冠疫情的讨论中，社交机器人常常把“corona-virus”（冠状病毒）与“wuhancoronavirus”（“武汉冠状病毒”）进行关联构建，试图在病毒起源问题上进行倾向性影射。此外，张洪忠等发现大多数社交机器人（55%）在中美贸易战的Twitter话题讨论中表达了反对贸易谈判的倾向。

我国新闻传播学科内对社交机器人的研究主要有以下几个面向：一是对概念本身及研究路径进行探讨。如张洪忠等指出社会学科主要将社交机器人视为异类，从文化批判、人机关系、传播效果、政策法规等角度进行探讨。二是结合具体案例对社交机器人的参与情况进行探讨，如有学者关注社交机器人参与的新冠疫情讨论。三是探究社交机器人的行为特征和传播机制。有学者指出，社交机器人在社交媒体账号的元特征、网络特征、内容特征、时间特征四个维度与人类用户有显著差别，可以基于这四个维度对机器人进行识别。还有学者基于社会传染理论，发现社交机器人是通过按需高效地改变社交网络的动态结构，来相应控制社会扩散的范围和速率。四是针对社交机器人带来的负面影响提出治理对策。社交机器人有良性、恶性、中性之分，一方面可以运用法律与技术双管齐下地整治有害机器人，另一方面还要挖掘低阶与高阶社交机器人的正向价值。在理论方面，目前我国学术场域内已有许多学者尝试将传播学理论与社交机器人研究相结合，如师文等引入了二级传播，范红等使用了社会传染理论，但目前我国学界还较少将议程设置理论与社交机器人研究相结合。

（二）网络议程设置理论

议程设置理论有三个层次：麦库姆斯和肖的教堂山研究指出，大众传播媒介通过对信息的报道影响人们关注哪些事实以及关注的先后顺序。此为第一层议程设置，也被称为客体议程设置。在对1995年西班牙地区和市政选举的研究中，麦库姆斯等发现，媒体还可以将积极、消极、中性的情感属性传递给大众。这种议程设置效果被称为属性议程设置。即媒体不仅能够设置议题的重要性，还能够影响公众对议题属性的判断。随着媒介技术的快速变化，仅仅用于解释媒体与公众间离散议程传递的理论呈现出局限性，故而郭蕾和麦库姆斯提出了第三层议程设置，即网络议程设置。媒体不仅能够设置报道对象和属性的显著性，还能将对象和属性联系起来，并把这种联系传递给公众。网络议程设置理论的重要来源是心理学中的认知地图（cognitive map）。心理学研究表明，人们的认知结构呈现网状，以图画、图解或制图的方式运作。因此受众可能会根据报道对象和属性之间的相互关系，在脑海中勾画出类似网络的图式。

在网络议程设置相关的学术研究中，大数据挖掘、社会网络分析和可视化是经常被用到的技术手段。如郭蕾等对2012年美国总统大选期间Twitter上收集的大数据集进行了分析，发现新闻媒体可以通过议题网络来影响网民对竞选者的态度。随着相关研究的进一步深化，还有学者通过时间序列分析网络议程设置的动态演化机制，探究何种主体在议程设置中起主导作用。结果发现在野生动物相关话题的议程网络中，新闻媒体和公众之间在进行不断的相互作用。也有学者指出，目前对于网络议程设置的研究仅仅讨论了议题网络和情感网络，而较少把议题属性和情感属性相结合以建构议程网络。Chen 等对微博上的民族主义话语进行了研究，并运用了机器学习的方法构建议题网络。结果表明，媒体议程影响个体议程，而民族主义的建构遵循自下而上的方向。还有学者关注中国媒体的网络议程设置作用，发现无论是危机案例还是非危机案例，中国传统媒体都未能在微博上引导讨论，商业精英往往是最有影响力的意见领袖。

我国学术场域内对网络议程设置的研究也多使用社会网络分析的研究方法构建不同媒体间的议程网络，探究在媒体间、媒体与民众间以及公众之间是否存在网络议程设置效果。如蒋俏蕾等发现萨德事件中，中国媒体报道的议程网络与公众网络之间存在显著的正相关，网络议程设置模型在隐性层面和显性层面都呈现出了显著的解释力。韩晓宁等发现在2020年新冠肺炎疫情期间的健康信息传播中，党媒与社交媒体舆论场影响显著，公众和社交媒体意见领袖的网络议程均与党媒相关。王晗啸等以“红黄蓝事件”为例，使用基于上下文语义的 word2vec模型探究不同媒介网络的相似度，发现知乎意见领袖对公众议程的影响程度最大，党媒和都市类媒体报道基本一致，且二者对公众的影响均高于商业媒体。黄敏从议题关联和关系建构两个方面分析了有关中国扶贫报道的媒体网络议程，初步展示了媒体网络议程得以影响公众网络议程的机制，揭示了网络议程设置效果得以产生的原因。

既有研究已经表明，除了媒体对公众进行议程设置，公众内部也可能存在相互的议程设置，如意见领袖也具有设置公众议程的能力。目前对网络议程设置的研究中，多集中于探索媒体间、公众间以及媒体与公众之间的网络议程设置。随着社交机器人介入传播进程，社交机器人也成为一种特殊的传播主体，“人+社交机器人”正成为传播学的一个新研究领域，但目前探究人类和机器人之间议程设置的研究还相对较少。在研究方法方面，我国的研究在建构议程网络时，大多选择单独构建议题网络、语义网络和情感网络，较少把客体属性和情感属性相结合以描绘议程网络。

据此，本研究提出以下问题和假设：

RQ1：在外交抵制北京冬奥会的讨论中，人类用户和社交机器人用户分别呈现出怎样的客体议程？

RQ2：在外交抵制北京冬奥会的讨论中，人类用户和社交机器人用户分别呈现出怎样的属性议程？

RQ3：在外交抵制北京冬奥会的讨论中，人类用户和社交机器人用户分别呈现出怎样的议程网络？

RQ4：在外交抵制北京冬奥会的讨论中，社交机器人是否具备操纵舆论的能力？

本研究将通过LDA主题建模探究客体议程，通过有监督的机器学习识别推文态度以探究属性议程，最后通过社会网络分析的方法，描绘人类用户和社交机器人用户的议程网络，并使用QAP探究其相关性，以回答社交机器人能否操纵舆论这一问题。

二、研究设计

（一）案例选取

本文选取的研究案例是2021年末发生的外交抵制北京冬奥会事件。2022年2月4日至2月20日，第24届冬季奥林匹克运动会在北京举办。北京冬奥会是世界性的运动盛会，是我国唱响中国声音、塑造大国形象的重要契机，同时也是大国政治博弈的角力场。自北京冬奥会申办成功以来，海外社交媒体上就存在反对北京冬奥会的声音。2021年12月份，美国、英国、加拿大等国家相继对北京冬奥会进行外交抵制，激起了Twitter用户的广泛讨论。海外主流社交媒体上关于北京冬奥会的信息传播将对这一大型赛事的形象建构产生重要影响。此外，外交抵制北京冬奥会事件已经结束，其舆情发展有一个较为完整的周期，选择该事件也可避免得出阶段性的结论。因此，本文选取外交抵制北京冬奥会事件作为研究案例。

（二）数据获取

本研究选取海外社交媒体平台Twitter上有关外交抵制北京冬奥会的推文作为研究对象。在Twitter中，标签起到了聚合话题的功能，用户习惯于使用标签（hashtag）标记自己推文的主题及检索特定主题的推文。本研究选取“#BoycottBeijing2022”“#BoycottBeijingOlympics”“Genocide games”“BeijingOlympics”“BeijingWinterOlympics”“NoRightsNoGames” “NoRightsNoShow”“WinterOlympics”“Bei-jing2022”“NoBeijing2022”十个标签作为抓取数据的关键词。为了防止原始数据的态度倾向对最终结果产生影响，本文选取话题标签时特别注意话题本身的倾向性，既选择了诸如“#BoycottBeijing2022”“#BoycottBeijingOlympics”等带有明显反对意味的标签，也选择了“Beijing2022”“BeijingOlympics”等带有中立价值意味的标签。

本研究使用自主设计的Python代码对包含以上标签的Twitter数据进行抓取。9月17日，北京冬奥会和冬残奥会口号发布；12月6日，美国发布声明宣布不参加北京冬奥会，7日，新西兰宣布外交抵制北京冬奥会，8日，英国、加拿大、澳大利亚等国也宣布不参加北京冬奥会。故本研究将抓取将时间范围设置为2021年9月17日0点-12月15日24点（以GMT+8时区时间为标准，共90天），即从冬奥会口号发布至各国宣布外交抵制北京冬奥会一周后。

（三）机器人识别：Botometer

本研究采用印第安纳大学开发的开源工具Botometer进行机器人身份的识别。Botometer是一个经过训练的机器学习算法，通过标记数万个示例账号来提取一千多个特征，表征账户的个人资料、朋友、社交网络结构、时间活动模式、语言以及情绪。当检查一个账户时，Botometer会调用Twitter API获取该账户的公开资料，并传送到Botometer API中，将一个账户与数万个已经标记的账号进行比较，最终得出分数。Botometer技术成熟度较高，被广泛应用于社交机器人的学术研究中。Botometer提供的API接口可用于大规模数据检测。本研究将人与机器人的区分值设置为0.5分。若用户得分小于等于0.5分，则其更可能是人类，若用户得分大于0.5分，则其更可能是机器人。

（四）主题建模：文档主题生成模型

LDA模型是一种用于对离散数据集（如文本语料库）进行建模的概率主题模型，由David M. Blei等学者于2003年提出。LDA是一个三级生成式贝叶斯网络结构，基本假设为文档是由若干个隐含主题构成，而这些主题是由文本中若干个特定词汇构成，忽略文档中的句法结构和词语出现的先后顺序。它可以将文档集中每篇文档的主题以概率分布的形式给出，抽取出文档的主题分布后，便可以根据主题分布进行主题聚类或文本分类。LDA作为全概率生成模型，具有清晰的层次结构，且LDA在主题层与词层都引入了Dirichlet先验参数，解决了LSI模型与PLSI模型中主题参数个数随训练文档数目增加而线性增加,从而导致过度拟合的问题，因此更适合处理大规模语料库，提出后被广泛应用于文本分类、语义理解等领域。

本研究使用LDA模型以探究Twitter平台上对北京冬奥议题的讨论集中于哪些话题，从而获取客体议程。在一条推文中可能包含多个主题，多个主题存在于一条推文中的情况被称之为主题的共现。LDA模型会返回一个文档—主题矩阵，标注出每一个文本属于每一个主题的概率，概率大于某个阈值即认为该文本包含这个主题。本研究将阈值设置为0.2，以使得一条推文可以包含多个主题。

（五）态度编码：支持向量机

本研究采用支持向量机（support vector machinse，SVM）这一有监督的机器学习方法对推文的态度进行编码。SVM的机理是寻找一个满足分类要求的最优分类超平面，使得该超平面在保证分类精度的同时，能够使超平面两侧的空白区域最大化。理论上，支持向量机能够实现对线性可分数据的最优分类。机器学习需要人类先对要处理的数据打上分类标签。在正式编码前，笔者和另一位编码员对50条推文进行预编码，编码者间信度为0.86。然后对1448条推文的态度进行正式编码，态度分为三类：支持北京冬奥、反对北京冬奥、中立/无明显态度。最终模型识别的精确度达到85.3%，可以进行大规模编码。本研究通过SVM对态度进行编码，从而获取用户的属性议程。在对态度进行编码时，以该推文中体现最明显的态度为依据进行编码，每条推文仅体现一种态度倾向。

（六）议程网络相关性：QAP

QAP(Quadratic Assignment Procedure，二次指派过程)是一种对两个方阵中各个格值的相似性进行比较的方法，即对方阵的各个格值进行比较，给出两个矩阵之间的相关性系数，同时对系数进行非参数检验，它以对矩阵数据的置换为基础。QAP相关分析可用来分析两个矩阵之间的相关性，是常用的社会网络分析方法。

三、研究结果

本研究共获取推文61102条，保留英语语言后获得50004条推文。经检测，其中有47位用户账号被封禁或无法访问，此类用户产出的推文数量为270条。Botometer对此类用户无法判定身份，故予以剔除，最终获得数据49734条。其中12365条由机器人生产，占比24.9%。37369条由人类用户生产，占比75.1%。以上推文由41130名用户生产，其中11752名是机器人用户，占比28.6%，29378名是人类用户，占比71.4%。

（一）抵制北京冬奥舆情中的客体议程

本研究使用Python中的Gensim包进行主题建模，把所有推文都输入到主题模型中，并在主题数3—25之间分别进行尝试。主题数的选择并无严格规定，依解释力强弱而定。最终发现主题数为20时建模的效果最好。考虑到机器建模的局限性，两位编码员手动编译了模型返回的20个主题，对相似性较高的主题进行合并，最终获得与冬奥相关的12个主题，代表议程设置中的客体议程。12个主题分别为：抵制北京冬奥会、中国台湾领土主权、北京冬奥会竞赛项目、北京冬奥会开幕式、北京冬奥会疫情防控情况、中国新疆领土主权、支持北京冬奥会、政治与政党、人权议题、北京冬残奥会、加拿大外交抵制北京冬奥会、北京冬奥圣火传递。

由主题聚类的结果可知，在抵制北京冬奥议题的讨论中，除了对诸如开幕式、竞赛项目、疫情防控情况等赛事相关话题的讨论，更有中国台湾、中国新疆、人权议题等涉及中国内政的话题。

可见冬奥会虽然是运动类事件，但其背后都涉及到复杂的国际政治形势，一些国家试图在社交媒体上模糊重点，借冬奥之名对中国的发展进行攻讦，将体育赛事政治化。

在冬奥相关的讨论中，不同主题的自动化操纵程度存在差别。“北京冬奥会竞赛项目”下的机器人参与程度最高，有2873名机器人用户（占比28.2%）参与了讨论，该主题下的主要内容是北京冬奥会的滑冰、滑雪、曲棍球等竞赛项目，以及世界各国的冰上运动员是否取得了冬奥会参赛资格。其次是“人权议题”，该主题下的推文多伴有对中国侵犯人权的不实指控，有1486名（占比 26.1%）机器人用户参与讨论。再者是“加拿大外交抵制冬奥会”，该主题主要围绕2021年12月8日，加拿大总理特鲁多公然诬称中国存在“侵犯人权”的行为，并以此为借口宣布加方不派“外交代表”出席北京冬奥会这一事件进行讨论。有1015名（占比25.7%）机器人用户参与其中。在“中国台湾领土主权”主题中，有352名（占比24.9%）机器人发出推文。该主题下许多推文公然鼓吹“台独”，是对我国领土主权的公然挑衅，并以台湾为由对北京冬奥会进行抵制。结合数据结果可知，社交机器人参与操纵的主题多以负面话题为主，且在以上四个主题下的参与程度均在25%左右，显示出对中国进行恶意操纵的传播机制。

（二）抵制北京冬奥舆情中的属性议程

在态度倾向上，表达反对北京冬奥态度的推文有31525 条，其中有7800条（24.7%）由机器人发出，23725 条（75.3%）由人类发出。表达中立态度或无明显态度倾向的推文有7446条，其中1848条（24.8%）由机器人发出，5598条（75.2%）由人类发出。表达支持北京冬奥态度的推文有10763条，2985条（27.7%）由机器人发出，7778条（72.3%）由人类发出。因此，社交机器人在引导网络意见形成中发挥的意见不容小觑。在表达支持和反对北京冬奥会的态度倾向下，均有近四分之一的社交机器人用户发声。而且，无论是人类用户还是机器人用户都很难做到客观中立，大多带

鲜花

握手

雷人

路过

鸡蛋

收藏邀请

上一篇：前沿译介 | 算法厌恶、可见性、算法与新闻业下一篇：2022年传媒伦理研究报告

武沛颍、陈昌凤 | 社交机器人能否操纵舆论——以Twitter 平台的北京冬奥舆情为例

最新评论

相关分类

帐号		自动登录	找回密码
密码			实名注册