【案例】
新闻传播经验应用在机器写作技术开发中的个案研究
摘选自《全球传媒学刊》(2018.4)刊发的《文科思维与技术思维的碰撞:新闻传播经验应用在机器写作技术开发中的个案研究》一文,仅为部分内容,有些段落只有主题句,或者整段删除,全文参见刊物内容。 作者:韩晓乔 张洪忠 何苑 石韦颖
问题 本文对北京师范大学新闻传播学院参与微软小冰项目组开发“小冰白盒写作辅助工具”的过程进行个案研究,从北师大团队角度探究以下问题:资讯聚合类新闻文本自动化生成原理及模板生产模式为何;新闻传播专业经验如何使得机器新闻写作文本更接近人类写作文本;文科思维与技术思维的差异体现在什么方面以及如何进行磨合。 本研究采用个案研究方法探讨问题,以北师大新闻传播学院团队参与微软小冰“小冰白盒写作辅助工具”开发过程的个人经验为研究对象,并结合前期的11次讨论会的会议记录文本及项目合作期间产生的其他书面资料辅助分析。此前几乎没有关于新闻传播专业人士参与到机器新闻写作工具设计开发层面的记录与研究,希望本研究对后续相关研究能有一些实践层面的参考价值。
参与开发过程 在2017年9月16日北京师范大学、微软和封面新闻联合成立了“人工智能与未来媒体实验室”,在2017年11月16日封面新闻举办的“智创未来2017C+移动媒体大会上,微软亚洲互联网工程院小冰团队的总经理曹文韬和北师大新闻传播学院张洪忠教授商定,张洪忠教授团队参与到微软小冰机器写作的开发工作之中,作为“人工智能与未来媒体实验室”的一项实际工作。 2017年12月初,微软小冰团队与北师大新闻传播学院张洪忠教授团队(后面简称“北师大团队”)正式展开合作,在微软小冰团队前期工作基础之上共同合作探索出一套可行的资讯聚合类新闻机器写作模板生产模式。张洪忠教授团队人员有:张洪忠教授,讲师刘茜博士,博士生何苑,硕士生韩晓乔、刘力铭、石韦颖、丁磊、王小月。项目合作分为两个阶段。前期双方团队每周开展1-2次讨论会,交流工作进度、探讨修正方案和布置工作,先从聚合类娱乐新闻的机器写作开始。后期北师大团队的博士生、硕士生以实习生身份进入微软公司,与微软开发团队一起将验证可行的聚合类娱乐新闻模板生产模式推广到科技、体育等更广泛的写作领域。 整个项目的工作可以分为六个部分,由北师大团队和微软小冰团队分工合作完成:(1)行业内容结构梳理:以娱乐新闻为例,建立文章类目表,设计机器写作逻辑框架。这一部分主要由北师大团队完成。(2)对应行业结构,将不同观点态度的文章写作手法归纳总结,并形成相应的机器可以理解的模板进行学习训练(3)数据补充与模型训练:工程师给予对应模板模型收集人类写作文本作为机器学习对象,并进行算法模型训练。由微软技术人员负责。(4)效果评估:在讨论会上共同阅读分析测试文本,检验模板和算法的可行性,以改进方法。由北师大方面在微信群、微信公众号、今日头条发布机器生成完整新闻文本,观察受众反应。(5)向科技、体育等领域扩展 :在项目后期,北师大团队部分成员进入微软公司与小冰团队一起将验证可行的模板生产模式推广到科技、体育等更广泛的写作领域。(6)模板编辑工具开发:模板编辑工具的开发与模板架设同时进行。微软团队负责产品设计与开发,北师大团队从用户角度提供需求。 之前的机器写作工具主要生成财经、体育类别下的快讯类新闻,以填充描述性数据为主。就是“人”先设计好写作内容的格式,机器只需要搜索并匹配相关内容到格式中,就可以像做“填空题”一样完成报道的简单写作。[虽然在大数据和算法技术支持下,机器写作已经可以实现同一主题下多事实信息的聚合,但也只是对信息的简单聚合,无法在将碎片式信息串为整体的同时兼顾文章中心思想的呈现,因此生成的文章不符合人类阅读习惯。 微软小冰团队和北师大团队为了使“机器写作”向“人类写作”更靠近,需要将不同观点写作手法的规律总结为机器可以理解的形式,然后指导机器去寻找对应观点态度的数据来成文。同时,机器生成文本需要使用人工编写的语句衔接,并采用更符合人类写作逻辑的结构组合。因此,要开发出一套更接近人类写作的文本生成工具,除了技术开发外,还需要了解传播规律和新闻写作技巧的专业人士参与写作模板的设计。 2018年7月26日,微软召开第六代微软小冰发布会 ,发布会上推出“小冰白盒写作辅助工具”,该工具由微软小冰团队与北师大团队合作开发,旨在帮助媒体从业人员快速搜集、聚合报道所需要的事实信息并形成新闻初稿。根据用户的需求,该工具可以实现对同一事件选取不同观点态度进行报道的功能。
机器新闻写作模板的生产模式 机器写作的模板由报道主体、人工衔接语、标签、段落选取规则组成。模板限定了文章的写作框架、事实信息的排列顺序以及情感倾向。模板的设计和衔接语的编写都会影响机器生成文章的逻辑和流畅性。 要想实现批量、自动化生成更接近人类写作风格的文本,就需要找到人类写作逻辑与机器写作逻辑的契合点,开发出一套通用的模板生产方法论。北师大团队和微软小冰团队以娱乐新闻为切入点,探索出了一套以情感态度为关键的资讯聚合类新闻机器写作模板生产模式。 模板主题选择:记者思维 从简单的罗列事实到形成完整的文章,需要有一个主题支撑。主题不同、模板的设计也会有所不同,模板的主题就是文章的主题,在这里也就是自动生成文本的类型。 在进行具体模板框架设计之前,首先要确定模板主题的分类方式。建立新闻的三级类目,例如将“娱乐”作为一级类目,对娱乐新闻的主题进一步细分作为二、三级类目。分类既是每个模板生成文章的主题,也是记者使用机器写作工具时选择的生成文本类型,设计的好坏将决定媒体工作者能否迅速找到自己想要生成的报道。 北师大团队在收集并阅读了近五年娱乐大事件的相关报道后,发现娱乐新闻和娱乐相关的微信公众号文章往往以最新发生的事件为引,再追溯事件涉及人物的相关历史新闻,最终形成一篇内容丰富的聚合类娱乐资讯。结合新闻写作的专业知识,团队经讨论决定从新闻报道事件类型的角度对模板进行分类,也就是在娱乐下首先建立包括绯闻、违法、综艺、奖项、时尚活动等在内多个二级类目,再在每个二级类目下建立三级类目。比如“绯闻”下的三级类目是“未婚绯闻情侣”、“出轨”等。每个三级类目既代表一个文章主题,同时也是新闻模板引语部分陈述的事实信息。这样设计文章分类,为的是令记者在遇到突发新闻使用工具生成文章时能迅速根据事件类型找到所需模板生成文章。 记者思维强调以事实的时间性和重要性排列事实信息,改变时间线的叙事结构,这一点也被应用到后面的模板框架设计当中——先报道新近事实,再根据重要性盘点相关历史事实信息。 人格化关键:情感态度 “机器没有情感态度,人类才有,可以通过不同事实组合呈现出差异化的态度。”在第四次的讨论会上,为了使机器生成文本从罗列事实到呈现观点态度,北师大团队提出在三级类目的基础上将同一主题的模板根据情感态度再次进行分类。在定下模板主题分类方式后,选取二级类目“绯闻”来设计模板。经过讨论,决定以“未婚绯闻情侣”为例,分“批判/祝福”两种态度来进行模板写作。由新闻传播学院的学生编写衔接语、制定段落标签(段落主要内容)并设计文章结构。此次写作的两个模板主要区别体现在衔接语的表达上,段落标签选择和顺序上几乎没有差别。 模板写作测试:调整技术与模板 微软团队工具的开发伴随着不断的测试和结果评估,以改进算法和模板设计,直到达到最佳效果。 在第一次情感态度驱动的写作模板完成后,微软团队将“刘雯/崔始源”、“吴昕/潘玮柏”这两对绯闻情侣的名字输入到模板中进行测试,生成了四篇机器写作文本。第五次讨论会上,北师大团队和微软团队对结果共同进行了评估。 讨论会上决定将同一个三级类目下不同态度的模板架构加以区别,以突出表达情感态度。 特别有进展的一点是,加入了观点和态度这两个全新的标签,进行数据模型的深度学习。 对于数据的聚类成文后,还要进行对应内容的二次改写。 “树”的搭建:写作的模式化量产 在确定了模板设计的基本思路后,需要考虑同一主题模板的量产问题,即如何在报道同一主题事件时自动化生成大量不重复的文本。 方法论推广 在“综艺”和“出轨”主题模板验证了流程的可行性之后,北师大团队里的学生成员进入到微软公司,将方法论推广到科技和体育领域。具体模板生产流程有五步。
文科思维与技术思维的碰撞 写作是偏文科思维的任务,而机器写作的工作原理是理科逻辑,这就要求学科交叉共同合作,来达成目的。北师大团队均为人文社会科学学科背景的师生,而微软团队则多为理科背景的技术开发人员,两种不同学科背景和思维模式的团队在合作中逐渐显现出明显的学科差异。但双方通过深入沟通促进相互理解,擦出了新的火花。 时间线与新闻价值 微软小冰最初生成的文本基于时间线叙事,预设模板是将事件按照发生顺序罗列,在北师大团队看来,这样的文本固然叙事清晰,但机器组合的痕迹依然明显。通常,新闻写作常用的“倒金字塔结构”会将更重要的内容放在前面,这样才能吸引读者继续读下去。要完成一篇合格的公众号文章也需要有故事的起承转合,有戏剧性的文章有起伏才有人看。模板的事件分类和情感态度主导也是基于这种文科思维来设计的。 对技术部门来说,无论是时间线,还是反转式的故事,只要有清晰的规则就能实现,重要的是规则。 规则化与概念先行 人类写作的思维是将若干个概念串联在一起,有了一个概念,概念的涵义自然就在脑海中被解读并检索出对应的具体信息,实现概念的具象化。但是如果仅仅给出一个概念,对机器来说是无法理解的。在会议上北师大团队的成员经常被技术人员追问某个标签的具体含义,因为只有技术人员将明确的外延和内涵写成规则,机器才能理解。最初北师大团队给出的模板中有“互动”、“产生社会不良效应”等含义广泛的概念作为标签。人与人尚难以给出同一概念界定,机器更难理解。为了解决概念模糊机器无法理解的问题,团队采取了多种优化措施。比如“互动”这个词,作为标签,边界宽泛,需要更具体的解释。机器不能理解抽象定义,所以要对标签进行意义拆分,拆成更具体的子标签。北师大团队首先将“互动”拆成了“节目互动”、“剧组互动”等子标签,并且通过举例让技术人员知道每个子标签代表的具体内容,再根据例子写成规则训练机器。 技术逻辑是一种规则嵌套,机器无法独立完成概念的具象化理解,文科思维需要再向前走一步,帮助机器完成概念的具体化,技术思维则将明确的文字规则编成程序,二者共同构成人类思维与算法之间的桥梁。 自动化生产与个性化创作 技术思维讲求一个算法解决一类问题,一个模具批量生产大量产品。人类写作与机器生产不同,常常被认为是个性化的。模板衔接语是机器生成文章当中人工写作的部分,一套模板衔接语理论上要能够被用于同一主题(比如“单身绯闻情侣”)下同一态度的所有情境,不论“小鲜肉”还是“大叔”作为绯闻对象要都能够带入同一模板。在北师大团队和微软小冰团队的讨论会上,争议最多的要数衔接语的通用性问题。微软方面提出一些词语无法套用所有艺人身上,造成文章逻辑混乱;北师大团队中负责写衔接语的成员则认为完全删掉有指代性的词会削弱文章的生动性,文章语言会显得生硬。 自动化生产必然会牺牲个性化,但个性化正是人类写作的精髓。在这一问题上,最终双方也没有找到完美的解决方法。写衔接语的成员在用词上更加小心以避免使用指代对象有限的词语,但一些模棱两可的词语也被允许写入模板中。由此可见,通用性和个性化之间的权衡仍是需要人类完成而机器替代不了的。
结论与思考 一是要正确理解机器写作。那些认为机器写作可以完全替代人、或者认为机器写作有价值观的说法其实都是不准确的。现阶段机器新闻写作的原理是基于大数据驱动,通过数据检索、数据分析、自然语言处理等算法将所需信息填入人工设计的模板中,不能从真正意义上完成有逻辑、有态度观点的自动化文本生成。机器擅长处理海量数据,能够弥补人的大脑在信息储备、数据处理上的弱势,更快速、精准地找到完成新闻文本需要的信息,从而减轻人类的工作量。但由于技术的局限,机器不能理解复杂的逻辑关系,甚至无法区别主被动关系,因此仅依靠机器生成文本无法构成一篇逻辑严密的新闻报道。此外,机器还不能进行采访,只能引用网络上已有的信息。也就是说,机器写作无法采集到线下事实,只能按照“人”设定的模块来写作,只是一个基于算法的依赖互联网大数据来源的写作工具。 二是机器写作会很快成为传媒业内容生产的一个高效的辅助写作工具。机器写作在新闻领域更适合被当作一款写作辅助工具,来帮助人类处理海量复杂的信息,将人从反复枯燥的劳动中解放出来,但人的工作仍然具有不可替代性。媒体从业者在自动化文本生成工具的开发中担任着设计师的角色。专业的新闻编辑可以为机器新闻写作工具制定写作框架,根据不同新闻资讯的题材设计出更符合人类阅读习惯和信息需求的写作规则。机器写作还不可避免地需要人工写作的内容来进行完善——所有的模板衔接语均由人类完成。 三是在当前人工智能技术被广泛应用于传媒业的背景下,文科思维与技术思维的碰撞与合作将成为常态。学科如何交叉合作成为日益凸显的问题。在“小冰白盒写作辅助工具”开发的案例中,北师大团队经历了从完全的文科思维到理解技术逻辑并可以灵活运用的转变。理解技术逻辑使文科从业者能够更好地运用它。在机器写作项目中,写作功能需要文科思维,但功能由技术实现,新闻传播学院的师生在开发过程中担当了技术与功能实现之间的桥梁。越接近需求,越要使用文科思维,越接近底层技术实现,越靠近技术思维。比如文科思维判断生成文本需要有情感态度,理解机器的技术逻辑是聚合包含事实信息的文本后,决定通过事实的选择和顺序来使文章具有价值判断,这就实现了文科思维和技术思维的转换。文科从业者没必要完全掌握代码编写,只需要掌握技术逻辑和原理,将纯文科思维用技术思维进行解构分析,就能促成两者的合作。 四是目前新闻传播学术界有一个流行观点,即夸大机器写作的功能,担心机器写作会取代的人的思想而变得不可掌控,甚至走偏。其实,了解机器写作的原理后,就知道机器写作只是一个写作的高效辅助工具而已,本身并不能形成观点,其生成的文章背后还需要体现的人的观点。
[1]感谢微软亚洲互联网工程院小冰团队总经理曹文韬先生对文章提出的修改意见,以及感谢小冰团队的各位工程师和参与人员的合作。 [2]韩晓乔,北京师范大学新闻传播学院硕士研究生;张洪忠,北京师范大学新闻传播学院教授;何苑,北京师范大学新闻传播学院博士研究生;石韦颖,北京师范大学新闻传播学院硕士研究生。 [3] Kim D, Kim S. Newspaper companies' determinants in adopting robotjournalism[J]. Technological Forecasting & Social Change, 2017, 117. [4]Carlson,Matt. The Robotic Reporter: Automated Journalism and the Redefinition of Labor,Compositional Forms, and Journalistic Authority. [J]. Digital Journalism,2014,3(3): 416-431. [5] Zheng Y, Zhong B, Yang F. When algorithms meet journalism: The userperception to automated news in a cross-cultural context[J]. Computers in HumanBehavior, 2018, 86:266-275. [6]金兼斌.机器新闻写作:一场正在发生的革命[J].新闻与写作,2014(09):30-35. [7]张洪忠,石韦颖,刘力铭.如何从技术逻辑认识人工智能对传媒业的影响[J].新闻界,2018(02):17-22. [8]邓建国.机器人新闻:原理、风险和影响[J].新闻记者,2016(09):10-17. [9]彭兰.移动化、智能化技术趋势下新闻生产的再定义[J].新闻记者,2016(01):26-33. [10] Thurman N, Dörr K, Kunert J. When Reporters Get Hands-On withRobo-Writing: Professionals Consider Automated Journalism's Capabilities andConsequences[J]. Social Science Electronic Publishing, 2017. [11]魏峰.从个案到社会:教育个案研究的内涵、层次与价值[J].教育研究与实验,2016(04):24-29. [12]王富伟.个案研究的意义和限度——基于知识的增长[J].社会学研究,2012,27(05):161-183+244-245. [13]何苑,张洪忠.原理、现状与局限:机器写作在传媒业中的应用[J].新闻界,2018(03):21-25. [14]何苑,张洪忠.原理、现状与局限:机器写作在传媒业中的应用[J].新闻界,2018(03):21-25。
来源:微信公众号“新媒体观察”
编辑:马晓晴
|