设为主页 |收藏

登录实名注册找回密码

周慎：新文本间性：生成式人工智能的文本内涵、结构与表征

2023-8-3 18:28| 发布者: 刘海明| 查看: 73| 评论: 0|来自: 新闻记者

摘要: 周慎：新文本间性：生成式人工智能的文本内涵、结构与表征随着生成式人工智能的技术发展与能力增强，文本间生产函数组合方式发生重要变化，引发新文本间性问题。人工智能获得并逐步巩固其作为内容生产者的主体地位， ...

随着生成式人工智能的技术发展与能力增强，文本间生产函数组合方式发生重要变化，引发新文本间性问题。人工智能获得并逐步巩固其作为内容生产者的主体地位，这直接带来由于生产主体不同而生发的“人类生产文本”与“非人类生成文本”之间的文本关系；在“非人类生成文本”的生产流程与机制中，存在提示文本、生成文本与现象文本的文本关系；而根据文本性质与生成功能的不同，在“生成文本”中存在“基础文本”与“对齐文本”，在“现象文本”中存在“机械文本”、“共创文本”与“再训练文本”的文本关系。廓清生成式人工智能的文本内涵、结构与表征，将对中国大语言模型的技术突破、精准构建与监管治理提供重要的理论支撑与实践指导。

一

引言

随着生成式人工智能的技术发展与能力增强，文本间关系发生了重大转变，产生新的文本间性问题。文本间性（Intertextuality，又称互文性）最早由法国符号学家茱莉亚·克里斯蒂娃（Julia Kristeva）于20世纪60年代末提出，这一概念强调文本与其他文本之间的关联，每一篇文本（text）都不是独立存在的，而是一组符号“编织”的产物（texture）（赵毅衡，2010：2），任何语篇都是对另一语篇的吸收和改造（辛斌，2000：14），是一个文本、主文本把其他文本、互文本纳人自身的现象，是一个文本与其他文本之间发生关系的特性（秦海鹰，2004：19），通过对其他文本的引用、借鉴和重新解释，文本间性可以创造和扩展新的意义和价值空间。文本是一种实践和生产力（Raj， 2015：77），在生成式人工智能的技术与生产逻辑的共同形塑下，文本生产的编织原料与交织技法出现了新情况，拓展了文本间性的内涵与外延，一种反映文本之间关系新特性的新文本间性状态已较为明晰。

二

新文本间性的理论来源

克里斯蒂娃区分意指实践的深层结构和表层结构，认为只有透过文本的表层结构，深入到文本的深层结构，才能真正读懂文本。读懂人工智能生成内容同样需要透过现象看本质。克氏极具洞见地提出的“生成文本”（Genotext）和“现象文本”（Phenotext）在生成式人工智能时代焕发新的生机，成为本文分析新文本间性的理论来源。

（一）“生成文本”和“现象文本”

克氏认为现象文本是文本的表层表现形式，是文本在具体语句结构中的文字现象，具有沟通交际功能；而生成文本是文字背后的深层范式，即“语言中的语言”，是现象文本产生的原因和条件，蕴含着无限的意义生成空间。生成文本表现为以拓扑形式呈现的种种关系，与呈现为完成式生产物的现象文本相比，生成文本处于未完成式的、流动性的、空性的状态。

生成文本表示的是非系统的、前现象的、本能冲动的释放；现象文本是可感知的、可分析的、可用结构描述的符号意指系统。生成文本经历符号态的过程，包括驱力、驱力的形成与驱力的格局，以及围绕这一机制的生态和社会系统（茱莉亚·克里斯蒂娃，2016：64）。生成文本是一种过程，它穿越相关并毗邻的区域，形成一段路径（Parcours），这段路径并没有被限制在两个独立主体之间单义信息的两极（茱莉亚·克里斯蒂娃，2016：65）。生成文本具有萌生现象文本的作用，且这种作用被详细地记载进了现象文本中，同时被记录的还有生成文本的“既往病史”。生成文本是现象文本得以形成的场所，也是意义的诞生地。对于克氏而言，文本的表意工作就是从生成文本到现象文本之间不断的往返活动，并将这一活动称为“生成程序”（Johnson， 1988：71）。

生成文本与现象文本你中有我，我中有你，其概念、特征与生成式人工智能的技术逻辑及内容生成机理高度相关，特别是生成文本存在形成语言的潜在驱力与生命力，现象文本是作为意义作用和传达机能的文本表层，启发并支撑着生成式人工智能文本内涵、结构与表征的提出与分析。

（二）新文本间性的出现

从函数关系出发，互文关系是一种对应关系、映射关系，可以用来描述语篇生成与理解的动态过程（祝克懿，2010：3）。新文本间性本质上可理解为是一种文本生产函数组合方式的改变，且这种新的文本生产函数关系主要体现在以下三个层面：

首先，人工智能获得并逐步巩固其作为内容生产者的主体地位，这直接带来由于生产主体不同而生发的“人类生产文本”（human-written text）与“非人类生成文本”（nonhuman-generated text）之间的文本关系。其中，人类生产文本指由人类内容生产者生产的文本；非人类生成文本指由人类之外的主体生产的文本，现阶段主要表现为人工智能生成的文本。

其次，在“非人类生成文本”的生产流程与机制层，存在提示文本（promtext）、生成文本（genotext）与现象文本（phenotext）的文本关系。其中，提示文本或也可称触发文本，指构成提示指令（Prompt）的文本；生成文本指构成大语言模型（LLM）训练集的文本；现象文本指由人工智能直接或间接参与生产的文本。

再次，根据文本性质与生成功能的不同，在“生成文本”中存在“基础文本”（basic text）与“对齐文本”（aligning text），在“现象文本”中存在“机械文本”（mechanical text）、“共创文本”（co-created text）与“再训练文本”（retraining text）的文本关系。其中，基础文本指用于训练大语言模型普遍生成能力的文本；对齐文本指为与人类需求对齐（如提升人工智能生成内容的精确性、科学性、价值性、个性化、行业匹配度等需求）而用于模型精调的文本；机械文本是由人工智能直接生成的文本；共创文本是由人类内容生产者与人工智能共同参与创作的文本；再训练文本指现象文本中进入到生成文本中的部分文本。

在媒介技术迅速发展的社会背景下，数字发现的过程正在扩展着文本的定义，对文本及互文性的学术理解正在转变（Coffee et al， 2012：383）。人工智能生成的内容并不是孤立存在的，而是受到先前存在的文本的影响。这种关联可以丰富生成内容的多样性，并在某种程度上反映了人工智能系统对于语言和文化的学习和理解。因此，在分析和评估生成内容时，我们需要考虑人工智能生成内容中文本间性的可能性，并理解其对内容生产、技术发展及社会建构的意涵。

三

生成式人工智能带来的新文本关系

（一）人类生产文本与非人类生成文本

人工智能获得并逐步巩固其作为内容生产者的主体地位，这直接带来由于生产主体不同而引发的“人类生产文本”与“非人类生成文本”之间的文本关系。人类生产文本多见于专业生产内容（PGC）、用户生产内容（UGC）、职业生产内容（OGC）等人类内容生产者生产的文本；而非人类生成文本在现阶段主要表现为融合算力、数据、算法，智能化实时生成文字、图像、音频等各类模态的文本内容。

人类生产文本与非人类生成文本之间的不同首先体现在其生产逻辑上的改变。人类生产文本包含人类创作者的真情实感，是有着情感、心态、经验等感性思维的感性创作，既有演绎推理也有来自人类长期观察总结的知识。而人工智能生成内容在于语义相关关系及概率计算，反映知识的平均化水平，其创作并非来自“有感而发”的情感驱动力。在互文逻辑上，人类生产的文本在长期筛选、积淀与继承创新的基础上逐渐构成非人类生成文本的先决条件，而构成大语言模型训练集的人类生产文本质量过低会直接导致人工智能生成文本的质量下降。还有研究预计高质量的人类生产文本的数量非常有限且增长缓慢，预计将在2026年耗尽（Villalobos et al， 2022：2211），人类的创造力很难跟上机器的消耗能力。

人工智能获得生成能力之后生产的文本与人类生产文本的交互流动呈现出一种新文本关系。一方面，生成式人工智能需要深度学习、聚合检索以及创新利用人类生产的文本，从而更好地提升人工智能生成文本的价值密度与拟真程度，进一步补充、嵌入和丰富人类生产文本；另一方面，非人类生成文本也会影响人类内容生产者的思维方式，人类与非人类协同生产的文本可能作为再训练文本反馈到深度学习进程中。

（二）提示文本、生成文本与现象文本

在人工智能生成内容的流程与机制中，存在从提示文本到生成文本到现象文本的过程。提示文本是构成提示指令的文本，生成文本是构成大语言模型训练集的文本，现象文本是由人工智能直接或间接参与生产出的文本。提示文本作用于生成文本并潜在于现象文本之中，不断适配、打破、重组、僭越生成文本的结构，使现象文本变得多层化、空间化、动态化。

提示文本是人工智能内容生产中文本转化的起点，它将提示大模型完成怎样的任务，这意味着提示文本是内容生产过程中人与机器重要的交流媒介。在特定模型下，提示文本的质量将决定现象文本的质量，机器理解与人类真实意图越相近，则越能生产出符合使用者需要的现象文本。提示文本作为人与机器的理解媒介，承担着重要的引发作用。由提示文本引发生成的现象文本也会反作用于提示文本的生产和调整，通过修改和完善形成更加准确、高效的提示文本，从而能够使人工智能模型生成更加符合需求的现象文本。

让·鲍德里亚认为“信息可以告诉我们一切。它拥有所有的答案。但是这是一些我们还没有提出的问题的答案，甚至这是一些不成问题的问题”（Baudrillard， 1990：219）。生成文本成为一种流动的、空性的事物，它潜藏着使用者想要获得的回答，但使用者需要对其提出恰当的问题才能获得期待的回应。因此想要借用人工智能的力量将所需的知识从海量的生成文本中提取出来，再构成使用者所需的现象文本，就需要使用者生产出恰当的提示文本，明确具体的表达任务和需求。但如何恰当地提问需要对人工智能生成内容的技术逻辑有一定的掌握，这也提高了好的提示文本生产的门槛。

（三）生成文本：基础文本与对齐文本

生成文本是对构成大语言模型训练集文本的总称，其中包括用于训练大语言模型普遍生成能力的基础文本，用于模型精调的对齐文本与用于提升大语言模型通用能力的再训练文本。再训练文本可被认为是现象文本进入生成文本中的部分文本，将在下一节中具体讨论。

经由人类生产的高质量基础文本涵盖社会生产的不同领域与行业需求，构成大模型的基础语料库，也是生成式人工智能具有普遍生成能力的基础数据。基础文本之所以成其为基础，是因为它是作为语义相关关系及概率计算形成的基础而存在的，是人工智能生成能力的核心。在大语言模型中温度（Temperature）这一重要参数体现出新文本间性的显著特征。温度参数是一个0和1之间的可设置值，0是最可预测值，1是最随机值。通过温度参数可控制输出的随机性大小，当温度被设置为0时，大语言模型在生成时每次都会做出选择出现概率最高的下一个单词的响应，而当温度参数设置为1时，输出的随机性会增加。因此，在技术领域人们把对温度参数的调节称为文本创造力的设置。

从读者角度出发，互文性又是“具体的”和“体裁的”，其中“具体的”语篇是指包含有具体来源的他人的话语，“体裁的”语篇是指在一个语篇中不同风格、语域或体裁的混合交融（Kristeva， 1980：66）。对齐文本正是出自具体语域的用户需求。生成式人工智能以其空前的个性要素识别、人类认知模拟、针对性输出能力完成个体更细致的内生性需求的对外连接（喻国明，苏健威，2023：88），其应用也已经覆盖到新闻传媒、广告营销、医学健康、工业制造、金融交通等多领域。然而普遍生成能力往往在概率计算中得出平均化水准的文本，在科学事实性、准确性和深度复杂性的问题解释和专业领域解决方案提供方面还存在较大的提升空间，这彰显出对齐文本深耕对于大模型垂直化、模块化构建的重要性和急迫性，同时显示出基础文本与对齐文本的文本关系。腾讯研究院在《2023年AIGC发展趋势报告》中指出，目前AIGC产业生态体系呈现为上中下三层架构，其中第二层就是专门调试和训练预训练模型基础上，快速抽取形成垂直化、场景化、定制化的小模型和应用工具层，实现工业流水线式部署，同时兼具按需使用、高效经济的优势。这反映出基础文本与对齐文本的新文本关系。

（四）现象文本：机械文本、共创文本与再训练文本

如克氏所言，现象文本是文本的表层表现形式。在AIGC背景下，现象文本指经由生成文本的潜在驱力，由人工智能直接或间接参与生产出的文本，包括由人工智能直接生成的机械文本，由人类内容生产者与人工智能共同参与创作的共创文本，及其中部分达到生成文本质量条件而进入用于提升大语言模型通用能力的训练语料库的再训练文本。

现象文本是对于生成文本的整合、重组及涌现。现象文本中的机械文本完全经由大语言模型生成，遵循严格的技术原则，因此是纯粹机械的。人工智能已然跃升成为新的内容生产主体，达成一种与人类紧密相联、协同创作的新型人机关系，并通过共创文本这一载体展现出来。因此，共创文本是人工智能与用户内容生产者、专业内容生产者、职业内容生产者协作生产的文本，相较于机械文本具有多元主体参与的特点，并消磨了传统文本主体相对独立的特点，呈现出人机协同的新特征。

再训练文本可被认为是共创文本的一部分，与完全由人类生产再训练文本不同，本文的再训练文本提出的问题是由人工智能参与生产的文本能否成为再训练文本，以及怎样的共创文本才能够成为再训练文本。再训练文本更加强调借助于人类把关，筛选出部分文本质量更强、题材及表达更丰富的文本反馈于生成文本。再训练文本作为一种信息源，促进AIGC从海量数据和大规模知识中不断进化，实现从提出、规划到解决问题的全流程可持续发展，并使得生成文本与现象文本间有机形成了一种不断更新的“

鲜花

握手

雷人

路过

鸡蛋

收藏邀请

上一篇：胡　泳 | 论事实：美丽、谎言与ChatGPT下一篇：喻国明李钒丨内容范式的革命：生成式AI浪潮下内容生产的生态级演进

周慎：新文本间性：生成式人工智能的文本内涵、结构与表征

最新评论

相关分类

帐号		自动登录	找回密码
密码			实名注册