生成式人工智能大语言模型的神话正在因为其内容输出质量的下降而受到质疑。决定大语言模型“言语生成能力”的关键是机器学习。“无监督学习”、“监督学习”和“强化学习”是当下交织在一起的三种机器学习方式,它们因递归与偶然的相反相承支撑起大语言模型系统。“强化学习”优先的机器学习布局,使用户生成的巨量劣质信息成为系统外在的绝对偶然性,这种绝对偶然性有可能导致系统内生态整体性恶化。机器学习的缺陷说明,大语言模型能够帮助人类解决一些实际问题,尤其是大众文化生产和日常实用文本的生产,但它绝不可能是导致“奇点将近”的技术神话。 2022年11月以来,生成式人工智能大语言模型一直在挑战着人们想象力的极限。从ChatGPT到DeepSeek,从Sora到Gemini,生成式人工智能产品不断推陈出新、加速迭代。以往只有通过人才能完成的知识生产活动,比如文本书写、音频录制、影像生成、画面解说等,突然实现了全面的自动化,甚至可以在文字、图片、音频、视频之间形成自动转译。碳基人第一次在自己最擅长的领域受到了硅基人的挑战。一时间,生成式人工智能仿佛成为人工智能本身,人与非人地位反转的预言甚嚣尘上。 然而,自2025年春天以来,生成式人工智能的神话似乎遭受了不小的挑战。以国内风生水起的大语言模型DeepSeek为例,近一段时间来唱衰它的“坊间传说”越来越多。对比年初令人惊艳的表现,DeepSeek的内容输出质量似乎有所下降,常常像“书呆子”一样在关联信息营造的内容场中攫取空洞无物的信息,不但会“张冠李戴”,生搬硬套专业术语,还会堆砌杂糅“意林”写作风,为用户提供看似标准却漏洞百出的答案。这甚至引发了央视新闻频道的关注。对此,DeepSeek自己的回答是: “早期因低成本实现ChatGPT级别效果被过度神化,但实际使用中暴露出科研场景虚构文献、代码生成后关键bug修复困难等问题,需依赖其他工具协作完成复杂任务。功能迭代滞后于用户需求,例如联网服务关闭导致输出质量下降,机械化的表达方式被诟病为缺乏“人文温度”。” 人们当然可以把DeepSeek的各种意外表现看作是新技术融入社会必须经历的坎坷过程,但对本文而言,DeepSeek面对的这些问题其实是一种信号,它意味着大语言模型的技术路线已经基本成型,未来的机器语言生成如果不革命性地改变现有技术路线,那么大语言模型充其量就是大众文化产品和日常实用文本草稿或雏形生产的一种快捷方式而已。未来它可能会更加专门化和精细化,但不必太期待它的语言生成能力。人与非人在内容生产方面地位反转的说法,就大语言模型现有技术路线而言,已经可以被看作是无稽之谈。而大语言模型的潜能之所以那么快就被挖掘殆尽,与使其得以运转的源头——机器学习有关。 一、机器学习的分类及其应用 克劳福德(2024:8)曾经在《技术之外》一书中评价人工智能:“本书认为AI既不人工,也不智能。”因为AI是一种非人工的自动化计算,也不具有自主的智能。正像韩炳哲(2023:69-70)所说的那样:“激情是哲学的开端。人工智能是冷漠的,这说的是:没有激情,没有受激发之情。它进行的是计算。”但从另一个角度来看,AI的基本原理又恰恰基于对人类智能模式的分析和推断,而且是对这种推断的简陋类比。 以大语言模型为例,其基本原理与语言学对人语言能力的分析是紧密关联的。从现代语言学的角度,人的语言能力取决于两个前提:一是生成式语法结构,二是语用经验的积累。尽管这种简单粗暴的说法并非没有争议,但它直接就被大语言模型技术类比性地应用到自然语言编程之中。所以,任何大语言模型都需要两个步骤来实现文字输出和内容生产:其一是开发一套语言编码系统;其二是进行基于语料库的机器学习。当然,编码系统不同于生成式语法结构,机器学习也不等于积累语用经验。但得益于计算机的算力,二者确实形成了强大的“言语生成能力”。尽管语言编码的科学性也很重要,但对字母表语言而言,决定大语言模型“言语生成能力”的关键却是机器学习。机器学习的成功与否,直接决定了生成内容的水平。 机器学习即“机器向数据学习”(亚卡托,2021:90),所以人工智能的本质是一种数据驱动。今天,机器学习处在人类许多活动的中心,深入我们作为公民、消费者、专业人员和工人的生活(亚卡托,2021:89)。“机器学习是人工智能的子域,但机器学习发展得如此壮大且成功,现已超越以前它引以为傲的母领域”(多明戈斯,2017:11)。从使用搜索引擎获取信息到使用社交媒体交往联络,从天气预测到能源勘探,从商业分析到优化营销策略,从选举投票到医疗监测,可以说,人工智能在任何专业领域中“出色表现”,几乎都与机器学习紧密相关。 根据训练数据是否拥有标记信息,传统机器学习任务可大致划分为两大类:监督学习(supervised
learning)和无监督学习(unsupervised
learning)(周志华,2016:10)。强化学习的加入成为监督学习和无监督学习外的第三种范式(Mitchell,1997:367)。监督学习需要大量标注数据作为训练样本,通过输入与输出的映射关系进行模型训练;无监督学习则从海量无标注数据中挖掘潜在结构或分布规律。与它们不同的是,强化学习通过智能体(agent)与环境的交互,在执行动作后获得奖励或惩罚的反馈,并以此为依据逐步调整和优化决策策略,这种基于试错探索的学习机制更接近动物的学习过程,能够很好地实现序列决策问题的自主解决(中国计算机学会,2025)。从人工智能探索初期到数智平台井喷的今天,机器学习在人工智能产业高歌猛进的几十年间呈现出从无监督自我驱动到专家协同交互再到端侧智能体(agent)的范式转向。这三种范式既相关又各有侧重,在迈向通用人工智能(AGI)的时间轴上呈现出一种螺旋递进的特征。与此同时,在某种范式成为主导时,其他范式也并未缺席,甚至某些范式的实现必须依赖其他范式的协同。 无监督学习与监督学习也可以同人类学习方式做个类比,比如“泛读”和“精读”或者“考试不划范围”和“考试划范围”,它们具有各自明显的优点和缺陷。 无监督学习在某种程度上可以理解为“机器自学”,即机器的研发团队只提供无标签的巨大数据集和语料库(通常是全网抓取),AI自动读取语料库的数据并总结规律、完成聚类。在这一范式中,机器学习的数据集中不包含任何人工标注的目标值或反馈信号,AI通过聚类和降维完成对数据的学习和统计,它最大概率显现的是在数据集和语料库中出现频次最高的数据。这种机器学习方法在生成式人工智能出现之前就已经被广泛应用。在这种机器学习的训练下,计算机可以从庞杂的原始数据中发掘隐藏的模式和结构,从而可以进行异常情况监测,被广泛应用于网络安全领域。无监督学习弥补了人在处理大规模数据、高维度数据上的困难,也使技术个体化在数据处理层面成为可能。在ChatGPT初期(如1.0与2.0版本),机器学习的方式就是海量文本数据的无监督学习,这使得ChatGPT迅速具备了与人进行即时自然语言对话的能力,但缺点是生成出来的文字通常荒诞不经,在形式上和内容上都不太符合人的语用习惯,其应用价值甚至不如当时的被程序设定的写作机器人。这种情况在引入监督学习的3.0版本以后才逐渐发生变化。 监督学习的历史也很悠久。在人工智能发展初期,科学家们就试图通过手动标注能够收集到的数据来为机器提供学习的语料。在这一过程中,专家为模型提供大量已标注的数据,这些数据包含了输入与期望输出的对应关系。模型通过学习这些已知的“输入-输出”对,能够在遇到新数据时预测其输出。在生成式人工智能时代,监督学习以标注的形式为机器学习提供了具有特定标准的数据库。这种数据提纯技术,是众多人工智能产品、平台开发设计的关键。李飞飞团队所做的ImageNet项目即通过众包人工标注的方式建立起了一个视觉图像数据库,使每张图像都有自己的类别归属,不仅在推动计算机视觉和深度学习研究方面发挥了重要作用,更见证着计算机视觉领域“从数据中学习”范式的兴盛,也印证了“AI语料库是人类文明的集成”的论断。正如李飞飞自己所言:ImageNet数据广泛而全面,覆盖了世界上绝大多数物体,是计算机视觉领域的北极星(李飞飞,2024:248)。专家的介入意味着对机器学习内容和计划的全面把关,尽管这种把关并非最优提纯,但肯定有益于提升用户体验。2025年初DeepSeek的爆火,让人看到了数据提纯技术在大语言模型中的应用前景。DeepSeek所表现出来的中文写作能力,特别符合中国人的语用习惯,而这与使用数据提纯之后的标准语料库是有关系的。 很难说无监督学习与监督学习二者孰优孰劣。早在2016年AlphaGo击败李世石时,监督学习模式几乎被认为是不可战胜的。而以无监督学习为特征的AlphaZero在掌握了围棋的相关规则后,只通过不到一周的自学和左右互搏,便战胜了AlphaGo。无监督学习的自动创生能力在此表现得淋漓尽致。 在平台算法时代,监督学习的操作方式颇像行为主义中常见的“刺激-反应”的强化模式:每个行为,无论是标记垃圾邮件还是购买股票,都会从算法工程师那里得到即时奖励(或者处罚)。如果把监督学习的奖惩权从专家交给用户,那么第三种机器学习方式——“强化学习”便应运而生,其意在使机器进行主动探索,偶然得到奖励,然后弄清楚将来怎样才能再得到奖励(多明戈斯,2017:292)。在“强化学习”中,用户的反馈成为一个又一个“顿悟时刻”(aha
moment),帮助AI在万千迷宫中寻找最优解。强化学习的本质实际上是一种试错学习,通过不断触碰来规避错误,从而寻找到正确道路。计算模式因为大量与用户纠错的交互数据而被不断自我修正,机器也随之变得越来越向用户需求看齐。 强化学习在AI中的应用不仅使大模型的使用体验有所提升,更因其在诸多产品实践中的惊人表现被许多学者视为“人类文明的拐点”。无论是2024图灵奖颁给了“强化学习之父”理查德·萨顿(Richard
Sutton)与导师安德鲁·巴托(Andrew
Barto),还是OpenAI对o3模型的技术说明中称强化学习应用于大型语言模型(LLM)可显著提高在复杂编程和推理任务上的性能(El-Kishky
et
al.,2025),都足以说明强化学习正在或者已经成为当前机器学习范式的主流。如果说,标注式的监督学习为机器学习量身定制了“学习计划”和“学习内容”,而强化学习则强调在用户的参与中不断订正“犯下的错误”,这两种范式都有可能在人的干涉之下减少机器的错误。 随着人工智能的不断发展,强化学习正在扮演越来越重要的角色。2025年全球消费电子展(CES)开展前一天,英伟达创始人兼首席执行官黄仁勋便在拉斯维加斯发表主题演讲称:AI正在以惊人的速度发展。这一发展过程最开始是感知式AI,即理解图像、文字和声音;然后是生成式AI,即创造文本、图像和声音;当下即将迎来物理AI的时代,即能够运行、推理、计划和行动的AI。AI智能体(AI
Agent)正是实现黄仁勋设想的关键技术系统。当前AI智能体已经开始成为技术发展的主流,这种能独立思考、规划、执行多种复杂任务的人工智能工具,正在掀起科技圈的巨浪。相较于无监督的自我驱动式学习和专家参与协同的引导式学习,AI
智能体的实现似乎更得益于用户导向的强化学习。随着生成式人工智能的兴起,以其为技术引擎的个人AI代理成为被普遍接受的智能体形态(孙玮,程博,2024)。这一用户导向的端侧AI智能体标志着机器学习的范式转向。从旅行规划到股票分析,从比价购买到一键订阅,AI
智能体在一长串思维链和工具调用后输出用户所需的任何结果时,也就实现了真正的“代理”。端侧智能体在个体一端的开展将用户嵌入技术物中,通过用户调试与纠偏,加深与个体化智能体的耦合,不仅实现了个人信息的端侧储存,而且进行跨平台、跨系统的信息整合,最终从个体目标出发开展决策和行动,以技术外化自身的同时改变着用户与社会的连接方式。 尽管仅仅只是把“把关人”从专家改成了用户,但监督学习与强化学习有着明显的差异。监督学习更倾向于服从专家的权威指令,强化学习则更倾向于服从用户反馈,结果当然是强化学习的互动体验更佳——根据用户意愿而不断纠错的AI小助手,当然会有更高的用户黏着度。根据DeepSeek的研究报告,大语言模型的进步并非均匀渐进的。在强化学习过程中,响应长度会出现突然的显著增长,这些“跳跃点”往往伴随着解题策略的质变。这种模式暗示着某种黑箱意义上的“认知突破”。只是人类的顿悟往往源于场景带来的意向性,而机器则需要用户的纠错。监督学习意味着高度的方向性和内容生成质量的确定性和稳定性,而强化学习则意味着高度的不确定性,它取决于用户投喂的信息的质量。于是问题来了,强化学习这么有前景的技术取径为什么会意味着大语言模型发展和应用的天花板呢? 二、递归与偶然: 机器学习的二元纠缠 这个问题要先从递归与偶然这对概念说起。递归(recursivity)最早在数学中作为函数自我调用的概念被提出,通过每次迭代调用自身,直到达到终止条件(许煜,2020:138),即自己调用自己的过程。与一般的迭代不同,递归不是简单的机械循环和反复重复,“递归产生了超出迭代(只是重复)的复杂性,因为它由许多个螺旋式循环组成,而不只是一个机械的重复循环”(许煜,2025:259)。递归被看作是自动化的关键,因为任何不能递归运算的都不可运算,然而“与被看作重复的自动化相反,递归是一种被看作算法自我设定和自我实现能力的起源的另一种自动化”(许煜,2020:144)。 从维纳提出“控制论”开始,递归性便成为机器学习的宿命。这一概念随后在计算机科学中得以显化,成为程序设计的基础。早期所有计算机语言编程都是以递归算法作为核心的。概因计算机本质上是一种记录数字、运算数字并给出数字结果的机器(维纳,2007:99)。递归算法不仅是计算机运算的逻辑基础,递归思维也是计算数学思维的底层逻辑。在如今机器学习的众多算法、模型甚至流派中,递归性仍然无处不在。比如贝叶斯网络就非常典型地遵循着递归算法:“像一个螺旋,闭环沿着前进的方向绕。在机器学习中,螺旋会收敛至终极算法。”(多明戈斯,2017:236)随着“反馈”概念被越来越多不同领域的学者所采纳,递归被用于解释更为广泛和复杂的技术系统,甚至包括社会系统和生态系统。“它可以是个数学命题、软件或是像谷歌这样的系统,甚至也可以是个不断与其生活环境互动的生物”(许煜,2020:144)。控制论中的反馈闭环在人与计算机之间递归循环,机器无限循环的反馈信号给身体提供着运转的供给(米歇尔,汉森,2019:134)。反馈回路使信息输出再度成为信息输入,在一次次传递中更新着信息与数据。所以,计算机显然不是循环往复的工业流水线,它的运算形态更像是一种“螺旋形的环形向上运动”(许煜,2020:5)。 在更深层次的认知层面,递归不仅是一种算法函数,还构成了一种认识论,不仅被用于解释控制论的反馈系统,更被视为理解人工智能系统的关键。维纳从控制论角度所设计的自动化反馈机器,不同于工业化时代线性的和重复的机器,而是一种基于递归性算法的自动化机器。维纳认为,这种机器也可以像有机体那样具有非线性和创生性。“自动机跟生命体一样,都存在于柏格森的时间中。按照柏格森的观点,我们没有什么理由认为生命体活动的基本方式一定和模拟生命体的人造自动机有所不同”(维纳,2007:41)。 通过对哲学史的回溯,许煜并没有像维纳那样将自动化机器理解为递归性的后果,他引入了“偶然”的概念,并将计算机系统看作是递归与偶然二元性的产物。他认为自动机之所以能够像有机体一样实现自组织,是因为递归过程中不可避免地存在着偶然,而且偶然在系统的自组织行为中扮演着关键的角色。“在递归模型中,偶然性被预期为必要的,因为没有它就没有外在性和外在的终极性”(许煜,2020:13)。偶然因此得以成为必然性被相反相承地整合到递归系统中。因此,许煜完成了对以往的递归理论的超越。对西蒙东而言,递归强调循环因果(causalite
recurrente),由自身的因果关系实现内部共振(nal
resonance);对斯蒂格勒来说,递归等于一种重复性,单纯的递归并不能导向目的因;许煜将“偶然”引入对递归系统的理解后,其“递归”概念既对外反应环境又对内自我指涉,实现了内化与外化的双生。 在许煜看来,在技术系统的发展过程中,递归和偶然性并非对立存在,而是相互协同,共同推动技术的演化。递归提供了系统的稳定性和自我维持的机制,而偶然则引入了变化和创新的可能性。在二者的共同作用下,技术系统的进化因此沿着由单一趋向复杂、由整体趋向分割、由刚性趋向柔软、由单向趋向双向、由一维趋向多维、由单一用途趋向多用途的方向发展。1974年,海德格尔面对德国镜报记者的采访,提出了“形而上学之后是控制论”的命题。许煜将其称为“伟大的完结”:“控制论标志着形而上学的终结。”(许煜,2020:24)然而,对偶然性的再发现也许改变了这个悲观的结论,因为“偶然”,控制论并没有实现将社会过程转化为循环往复的迭代。 不过,偶然并不是一开始就被赋予这么重要地位的。在计算机科学的早期历史上,出于在模拟机械时代对于偶然的习惯性认知,偶然被看作是设计师或修理师必须规避的“错误”,在计算机发展之初,偶然的出现预示着计算的失败,偶然性是极力被避免的因素,即“噪声”。在信息(数字)传递的过程中出现的熵增都被习惯性地称为“噪声”,即“负面或破坏性干扰”,是造成有效信息丢失的原因(米歇尔,汉森,2019:131),是一种不可消除的影响信息传播的阻力。 随着信息论和控制论的不断推进,偶然性不再是必须消除的对象,它被表述为一种可能性。“如果我们把偶然性仅理解为有望发生的,就可以从概率和统计的角度理解它”(许煜,2020:16)。这样一来,偶然性便成为递归系统中一种可以被统计的必然性。“机械模型中的偶然性是一套大规模工业机械中的断裂。它可能是灾难性的,因为它中断了系统,系统由于缺乏精细的反馈而不知如何回应它。偶然性必须被重新表述为可能性,这样机械才能处理把偶然预期为可能性的固定编码”(许煜,2020:13)。 甚至,噪声成为富有新意的具有模糊性的信息,在意料之外生成了随机的、神秘的增量。贝特森把信息看作信号的“提喻”,即“所有不是信息、不是冗余、不是形式、不是限制要素的东西都是噪声,它是新模式唯一可能之源”(米歇尔,汉森,2019:134)。偶然性是技术系统不可避免的组成部分,技术系统因为偶然性的挑战而具备在开放的环境中适应和应对不可预见变化的能力。 然而,许煜没有展开论述的是,偶然也可以是无法完全内化的外部性,他的确正确评估了偶然的必要性,却并没有重视偶然之于递归的独立性,抑或偶然之于递归的非依赖性。对技术系统而言,有些意外可能意味着完全无法预期,这就是绝对偶然。绝对偶然甚至可能出现在人的认识论之外,是人之未思的他者,其最大特点是不可预期。“绝对偶然性同时意味着思维的限度和未思的限度:前者是因为当思维建立在互联主义的基础上时,它是受限的;后者是因为未思的只能把自身部分地呈现为偶然性”(许煜,2020:323)。人机围棋对弈时,任何一步棋都在AlphaGo的计算框架中,只是出现概率的不同,不会出现绝对偶然的现象。AlphaGo“闭门造车”式的机器学习模式在同一套数据库内递归、强化,通过大规模深度学习和蒙特卡洛树搜索,在这个边界清晰、变量可控的世界里不断优化策略,最终击败人类棋手。但在大语言模型的人机互动中,这种绝对偶然便有可能无处不在,它的涌现使整个系统出现高度的不确定性。 偶然性既具有推动递归系统不断优化的可能,即在高速计算的状态下,原本具有高度递归性的机器被偶然性所干扰,因而计算的模式就会不断发生自我修正(胡翼青,滕金达,2025);但与此同时偶然性也有可能导致递归系统内生态不断恶化。递归与偶然的结合即使是在计算机系统中,也是一个不透明的黑箱。而生成式人工智能恰恰是递归与偶然相结合的代表性运算体系。当前,生成式人工智能每天都“吞入”数以万亿无法控制的字节,并神奇地生成各种奇怪的文本,递归性和偶然性在黑箱之中是如何纠缠,又以何种方式作用,以及最后的结果是什么,几乎没人说得清楚。关于大数据的书籍甚至也避谈“这个过程到底发生了什么”(多明戈斯,2017:13)。 三、绝对偶然: “强化学习”的引导者与掘墓人 在不同的机器学习模式中,递归与偶然的关系不尽相同。在无监督学习模式中,递归作为内在结构使机器有规律地学习与迭代,偶然以噪声和非线性特征的形式出现,成为机器向新维度拓展的契机;在监督学习模式中,机器在监督与强化中反馈自我,构成递归闭环,而顿悟时刻则成为机器“变聪明”的关键偶然因素;在强化学习模式中,递归为系统提供了稳定的自我指涉框架,而用户的个体化需求和变化的环境成为偶然,使机器在与用户的交互中更具智能化和个人化倾向。递归与偶然的特征在机器学习中的实践和应用并非如许煜所预测的那样始终保持着一种螺旋状态,而是以相互交织的状态形塑着这个高度智能化的社会,递归与偶然的二象性纠缠才是智能化社会的外在表征与内在隐喻。 在封闭域中,监督学习模式占主导地位,因此尽管存在一定的偶然性,但处于递归算法的可控范围。然而,当这种模式被放到开放域,数据库向全网开放,“潘多拉的盒子”便被打开了,内在可以被概率计算的相对偶然性变成了外在于系统的“绝对偶然”。DeepSeek便是一个典型的案例。作为一个被提纯过的标准语料库,一旦作为开源大模型被广泛运用在各种互联网社区的开放环境中,绝对偶然的决定性意义便显现出来。网上内容,包括在与用户互动过程中生成的海量数据大量涌入语料库,形成新的递归,标准语料库很快就会被重新建构。如果大量涌入的数据是优质语料,那对DeepSeek来说是锦上添花,但若大量涌入的是劣质语料,那么DeepSeek出现各种意外状况便不可避免。对于新闻认知而言,如果大量涌入语料库的是不实信息,那就意味着人们很难接触到事实,而是真真假假似是而非的文本。克劳福德强调,训练数据集是大多数机器学习系统进行推理的核心,它们是AI系统用来生成预测基础的主要原材料(克劳福德,2024:90)。因此,训练数据是构建当代机器学习系统的基础。这些数据集塑造了AI的认知边界,从这个意义上说,它们决定了AI“看”世界的界限。但训练数据是现实情况的一种脆弱的形态——即使是最大的数据库也无法避免在一个无限复杂的世界被简化和分类时出现的基本滑移(克劳福德,2024:88)。当然,克劳福德可能没有想到的是,DeepSeek还会伪造数据。 在机器学习的过程中,有三种常见的绝对偶然,即专家提纯数据中的偶然、机器自我试错过程中出现的偶然与用户个性化使用中的偶然。这三种偶然都不出现在可预期的范围中,也不在系统内部,分别代表着算法系统之外的行动者和物体系,是不可预期的外部偶然因素。专家提纯中的偶然聚焦在预训练阶段,机器试错过程中的偶然出现在强化学习阶段,用户使用中的偶然则定位于大语言模型的应用阶段。这三种绝对偶然均会带来机器学习的差异性,并直接影响生成式人工智能的语用能力。它们可能造成正面效果,比如机器自我驱动的灵感时刻;但也可能导致负面效应,比如语料库的污染。而负面效应的风险在强化学习主导的机器学习中发生的概率最大。“偶然”在成为大语言模型走向更智能的引路人时,也有可能成为它的掘墓人。成千上万的用户,尤其是低水平用户成为机器学习的训练者后,错误、干扰信息挤占了原有数据库中的优质信息,劣币驱逐良币的“数据倒转”会改变机器学习的信息生态。监督学习的目的是依据优秀的语料进行内容的再生产,专家的介入相对更有利于语料库的不断优化,即使语料库需要扩张,也需要补充更多优质的语料。但强化学习就很难确保语料库的不断优化,当无法过滤的劣制语料大量涌入时,情况就会发生反转,而语料库的递归运作又强化了难以逃离的低水平语料生产的闭环,机器原有语用能力自然无法得到有力保障。 既然当下机器学习是三种学习方式的结合,那为什么必须是强化学习优先?为什么不能采取监督学习优先策略呢?这就与大语言模型的应用场景和运作实践有关了。 生成式人工智能不仅服务于封闭域,它最终必然面向开放域。这种对开放域的面向,既可以是公共的,也可以是商业的,但不管怎样都必须以服务亿万用户为前提,也就是说必须用户导向。这就意味着用户必须能够通过自己的AI界面生成内容,而且必须是个性化的内容。否则,这种服务并不比搜索引擎更具有吸引力。用户导向则必然意味着由用户来行使机器学习的主动权,因此用户纠错的权重被算法推向极致。有且只有用户感觉自己对AI小助手具有了“掌控感”,才会使用这项技术。这就意味着大语言模型只有采用强化学习模式才有更大流量,才具备盈利的基础。 至于商业化的生成式人工智能,还需要考虑与经营成本有关的问题。监督学习意味着高额的附加成本,甚至无监督学习也意味着相当可观的附加成本,而强化学习则意味着除固定成本之外的成本为零,因为维护机器学习的劳动者即用户是免费的数字劳工。所以,即便从成本角度也不难判断,低成本高效能强化学习是大语言模型产品的主导性机器学习方式。 此外,强化学习本身也是一种不得已而为之的更优选。无监督学习可能做到全语料库学习,但它也同样而且更加可能受制于全网低水平语料的侵害。监督学习也未必是完美的,当专家规定了数据库的结构与类型,也就限定了生成式人工智能时代人类语用的框架,甚至也就用他们的有限性框定了人类语言与思想的超越性。监督学习真的有可能导致海德格尔所说的“伟大的终结”。这与当年李普曼提出的“专家治国”或“局内人治国”的思想并没有什么不同,可是专家为什么就一定比幻影公众更具有专业性呢? 所以,大语言模型之所以能够快速崛起,依靠的是用户,但它的最终短板也必然是用户。亿万用户的涌入使大语言模型承载着不同知识背景和文化水平的对话,但总的说来,在全球范围内,互联网活跃用户的知识背景和文化水平都不太高。网络上堆积起由算法生成的海量冗余信息、虚假信息和数据垃圾,正在导致语料库的“劣币驱逐良币”。大语言模型不得不向不断制造低水平语料的用户学习,不得不听命于低水平用户的指令。低水平语料的递归闭环直接击穿了大语言模型的神话,显现出这种技术不可避免的缺陷。 四、结语 在生物进化论和社会进化论之后,人类在21世纪又迎来了技术进化论的线性思维模式。关于大语言模型的神话就是这种终极理想的产物。然而,技术的任何实践都是丰富而多元的,它是一种耦合的缔合环境。这种缔合环境并非水乳交融,严丝合缝,相反它是一种无序的有序,是多重二元的纠缠,它既是强大的又是脆弱的。不仅如此,任何技术综合体也都有自身的偏向和局限,而不是无限性的存在。 机器学习的模式互通意味着一种打破常规计算机科学思维的分类方式,它不再根植于数理层面,而是以递进、缠绕的耦合模式重塑机器学习与人的关系。而递归与偶然作为一对相互抵牾的概念,有可能在机器学习中巧妙融合,机器顿悟赋予的创新正是在递归逻辑上展开的,又反馈至个人,实现端侧智能体,不断重塑肉身本体和机器本体关系的认知,实现着一种递归式的闭环,也加速了智能社会的演进。不过,高度智能化虽得益于偶然与递归的巧妙融合,也势必会受制于这种二元关系相互纠缠和相互对抗。尤其是在流量逻辑的前提下,外在绝对偶然性的大量出现,有可能使系统整体恶化。机器学习,尤其是不断出现绝对偶然性的强化学习,既是大语言模型崛起的原因,也是它最终回归平常的原因。而强化学习主导的背后,是成本低、流量大和具有市场价值的政治经济学原理,正是这一逻辑,使技术进化论的线性思维模式在实践中必然一次次遭受重创。 基于这一局面,没有必要对大语言模型抱有不切实际的幻想。这种技术已经成型,不具有什么它自身宣称的颠覆性和革命性,那些只不过是自我宣传所炮制的营销神话。尽管这种技术还可以进一步细化,在不同专业领域里拓展,也会在各个领域带来深刻的社会变革,但这本身就说明了它的有限性——在有限发展的框架内细化和专门化。无论是DeepSeek还是ChatGPT,都终将停留在辅助用户生活的工具层面,帮助用户解决一些实际问题,它能总结和归纳一下既有的知识和事实,梳理一下用户的头绪和思路,甚至作为后台数据库,有可能成为计算机世界的语言基础设施,“正如电力系统已经蔓延到人日常生活的方方面面,作为语言基础设施的ChatGPT也将如影随形,成为人类社会交往的语言后台”(胡翼青,胡欣阅,2023)。但也就仅此而已,大语言模型所做的创意性工作顶多就是“熟悉的事物,陌生的联结”,但若要让它创生一个全新的观念,它办不到。“人工智能处理的是预先给予的、始终不变的事实。它并不能给予自身新的事实”(韩炳哲,2023:71)。库兹韦尔笔下的“奇点将近”起码就大语言模型而言只是虚幻的泡沫。当生成式人工智能已渐近天花板时,有关AI的“大他者”预言似乎不攻自破,至少在大语言模型这一应用层面来说,AI的确有着我们不可测的理解层次(刘海龙,2023),但这并非代表着人类不可触及的更高级的物种。 讨论及此,还有一个问题特别值得重视。“人工智能只是最近一次迫使人类反思自己思维的事件”(赵汀阳,2024)。大语言模型正越来越成为我们认识世界、衡量世界的参考尺度。正如沃格尔对伽利略的望远镜的分析所说的那样,人类使用技术的过程也是认识自我的过程。“伽利略通过望远镜观察天空所发生的惊人的转变在于,当伽利略通过望远镜观察星球,尤其是月球时,他首先看到的是地球”(韩晓强主编,2024,102)。以DeepSeek为代表的大语言模型被迫卷入社交媒体数据“垃圾漩涡”,这意味着什么?笔者认为,这恰恰体现出互联网的世界中人类存在的无思与无意义。在这种无思和无意义的存在状态下,人的思维和言语生成行为不可避免地带上机器的逻辑,从而变得更加无思。韩炳哲(2023:74)曾经担忧:“从机器智能中产生的首要危险是:人的思维去适应机器的智能,它自身变得机器化。”从目前的状况来看,这种情形很有可能成为现实。当人的无思与机器的自动化结合在一起,恰如“没头脑”遇到了“不高兴”,那才是悲剧的诞生。 来源:新闻记者(公众号) 编辑:张席睿 |
掌上论坛|小黑屋|传媒教育网
( 蜀ICP备16019560号-1 )
Copyright 2013 小马版权所有 All Rights Reserved.
Powered by Discuz! X3.2
© 2016-2022 Comsenz Inc.