尼克 | 乔姆斯基 vs ChatGPT - 传媒教育网

今日，保马推送尼克老师的文章《乔姆斯基 vs ChatGPT》。本文以乔姆斯基对ChatGPT能力的误判为切入点，看到了这位曾经深刻的创新者对ChatGPT所持的否定态度是由于对大语言模型的忽视。文中详述了乔姆斯基年轻时对语言学和计算机科学的贡献。乔姆斯基认为语言的交流功能是思想功能的外化，语言是比其他感知模态更加基础的官能。大语言模型要求人们对“思维即语言”的立场重新审视。乔姆斯基对于人类语言知识的本质、来源和使用问题的看法，与GPT对于非人类语言知识的本质、来源和使用问题的看法针锋相对，且GPT不具有可解释性，因此乔姆斯基才会对其作出否定性的评价。最后本文表明虽然乔姆斯基对ChatGPT可能有所误判，但他的“思维即语言”的立场依然是大语言模型引发的这场革命的哲学基础之一。

乔姆斯基对语言学、计算机科学、认知科学和哲学有深刻贡献，同时他也是在世的最有影响力的知识分子之一。有人说他位列有史以来引用数最高的十位思想者，这话即使不完全准确，应该也很接近。用Google Ngram查一下：他的名声和维特根斯坦差不多，高于波普尔、托尔斯泰、图灵和哥德尔，但逊于罗素，更不要说爱因斯坦、牛顿和希腊三贤。

ChatGPT 2022年底横空出世。2023年3月8日，近九十五岁的乔姆斯基应《纽约时报》之邀发表文章：The False Promise of ChatGPT，如文题所示，乔姆斯基对ChatGPT不买账。文中用了一个几乎在他老人家所有著作中都出现过的例句：John is too stubborn to talk to。乔姆斯基认为机器会把这个句子理解为：John太固执不愿意和人谈话；而不会正确地理解其本意：John不可理喻。但网民们把这个例句丢给ChatGPT：ChatGPT准确地知道这个句子的深层含义。乔姆斯基被打了脸。乔姆斯基对他年轻时代的新兴学科如计算机科学和认知科学的前沿成果了如指掌，但对大语言模型却持忽视态度。斯坦福大学的计算语言学家克里斯·曼宁（Chris Manning）在推文中说：“看到一位年轻时深刻的创新者，现在却保守地阻碍激动人心的新方法，真是令人悲伤。”这大概也是崇拜过乔姆斯基的两代人的普遍失望：乔老爷老了。当然，期盼年过九旬的乔姆斯基亲手微调大语言模型，是不公平的。

乔姆斯基的父母和那时大多数犹太人一样都是复国主义者，同时有强烈的不自私的社会主义色彩。作为左派犹太家庭的孩子，乔姆斯基十二岁就涉足政治，他的政治态度受他老师哈里斯的影响，不信布尔什维克，也反犹太复国主义。乔姆斯基刚结婚时曾考虑到迁居以色列，反讽的是，他出名后因为反犹立场，被以色列拒绝签证。他1960年代因参与反越战活动，曾被美国政府关押。他的同牢房狱友是诺曼·梅勒，梅勒说他是个书呆子，在监狱里还在担心没法给学生上课怎么办。他1970年冒险访问越南和老挝。为了保护乔姆斯基，麻省理工学院一度雇了两个专职保镖——相较于鸡贼的邻居哈佛，麻省理工更富理想和勇气。乔姆斯基的最新政论书《美国梦安魂曲》表现出他的博学，我们甚至有信心他可以成为一个绝妙的美国宪法律师。他的政治立场也并非一成不变，但有一个基本原则：永远站在弱势一边，借用那个“墙和鸡蛋”的比喻，乔姆斯基永远是那个鸡蛋，具体地说，就是反美反犹。在评论拉美政治时，乔姆斯基居然坚定支持笃信天主教的神父们。基辛格影响力如日中天时，乔姆斯基曾是他的激烈批评者。基辛格在大洋的另一边一直是香饽饽，但现在的大多数美国年轻人甚至不知道此人的存在。基辛格有点像西洋参，所有美国华人回国探亲前都会在中国商店买点回国送人，但西洋参真不西洋。

简单地说，“柏拉图之问”和“奥威尔之问”是驱动乔姆斯基一生的两条主线。“柏拉图之问”即后人所谓“刺激贫乏论”（poverty of stimulus）：在可借鉴的事物极端贫乏的情况下，人类是如何获取如此丰富的知识的；而“奥威尔之问”恰相反：在可借鉴事物如此之多的情况下，人类所知为何如此之少。奥威尔是第一人称叙事，他曾说：“每个生命从内部看都是一串失败。”（Any life, when viewed from the inside, is simply a series of defeats.）第一人称叙事者少有乐观派。乔姆斯基做学问时，贴近柏拉图，而从事政治活动时，遵循奥威尔。在他麻省理工学院办公室里，曾经挂着一幅巨大的罗素照片，大有罗素之后舍我其谁的架势。语言学之于乔姆斯基，就像逻辑学之于罗素。他们都关心政治和社会进步，承认平等的同时也强调自由。在乔姆斯基心中，奥威尔大概会排在罗素之前。乔姆斯基不是一般意义的左派，他是无政府主义者。

乔姆斯基虽自称是理性主义者，但内心却鄙视现代欧陆哲学。他和法国人福柯的对谈，被欧陆学界引申，但乔姆斯基自己则称两人不是严肃的对话，只是看看不借助翻译是否能听懂彼此的母语。乔姆斯基直言德里达、拉康和福柯等法国文科知识分子是“骗子”“文盲”“邪教”。他对反智极端愤恨。

如果看乔姆斯基过去二十年的著作和访谈，翻来覆去都是讲同样的几件事，核心立场并无大变。他的所有采访都被编辑成书。他讲话虽然少有激情，但语言严谨清晰且通俗，这是他能海量出版的原因，只要把演讲和采访的录音转为文字就可以了，几乎不用修改。《语言科学》（The Science of Language）一书是加拿大语言哲学家詹姆斯·麦吉尔弗雷（James McGilvray）对乔姆斯基的采访记录，这是乔姆斯基思想最通俗易懂的介绍。乔姆斯基认为笛卡尔和休谟之后，哲学家已经普遍落后于时代，只有少数几个哲学家是例外：康德、弗里格、罗素和美国哲学家中唯一被他佩服的皮尔士。《语言与心智》（Languages and Mind）是根据乔姆斯基1967年在加州大学伯克利分校的三次贝克曼讲座的内容整理而成，到2006年出第三版时增加了生物语言学的内容，篇幅增加了近一倍。更新版的《我们是谁》（What Kind of Creatures Are We）很可读，最后一章显示出他对科学史的广泛涉猎。如果把这几本书当作乔姆斯基本人的著述，别人写的必读书肯定包括英国语言学家莱昂斯（John Lyons）的《乔姆斯基》，这书附有术语表，解释乔姆斯基特定的术语。另一位英国语言学家尼尔·史密斯（Neil Smith）写的乔姆斯基学述更加全面，除了语言学，还公平地评论了他的政治，书名就叫Ideas and Ideals, 很明显，Ideas指学问，Ideals指政治。

1953年乔姆斯基和新婚妻子卡罗尔去欧洲度假，在从蒙特利尔到鹿特丹的跨洋破船上，乔姆斯基严重晕船，于是躺平，开始重新审视他老师哈里斯的结构语言学。他想出了广义文法（Universal Grammar，UG）。乔姆斯基从与他同年的数学家、逻辑学家马丁·戴维斯处了解到戴维斯的老师、逻辑学家波斯特（Post）的工作。乔姆斯基早期最有影响的文章《语言描述的三个模型》（Three Models for the Description of Language，1956）中引用了数学家罗森布鲁姆（Paul C. Rosenbloom）的教科书《数理逻辑要素》（The Elements of Mathematical Logic），其中正式地讲述了产生式系统。这篇文章后来衍生出乔姆斯基分层，对语言学和计算机科学都有深刻影响：乔姆斯基-0型文法（递归可枚举语言）等价于图灵机，1型文法（上下文相关语言）等价于线性有界非确定图灵机，2型文法（上下文无关语言）等价于非确定下压自动机，3型文法就是码农们熟悉的正则表达式，等价于有限自动机。“短语结构文法”（phrase structure grammar），在乔姆斯基早期著作中不严格地用来泛指Post系统，但后来则特指1型和2型文法。对编程语言有巨大影响的Algol-60语言是用BNF（巴克斯-诺尔范式）描述的，而BNF就是上下文无关文法。乔姆斯基认为短语结构文法不足以描述自然语言。除了四层分法，还有五层分法，即在常规的0型和1型之间，加个递归语言（recursive language），递归与递归可枚举的区别在于对应的图灵机是不是可停机。再讲下去需要点数学和计算理论的知识，就此打住。语言学家冯志伟先生的《现代语言学流派》可作为进一步的入门参考。

乔姆斯基最重要的著作《语言学理论的逻辑结构》完成于1955年，他的博士论文取自这书。他把打字稿交给麻省理工学院出版社，想作为专著出版，但审稿的语言学家们并不认可，回复是这样一个初出茅庐的年轻人提出的非常规思路应该先写成论文交给学术刊物，待学术界认可后再出书。但乔姆斯基关于此题材的第一篇论文恰被拒稿。审稿者根本就没看，直接将原件寄回。“三个模型”一文最终还是在美国电气电子工程师学会IEEE的前身IRE组织的信息论会议上宣读，后来正式发表于IRE的《信息论学报》。乔姆斯基在这次会上结识了参会的数学家所罗门诺夫，他在会上也宣读了一篇文章，并由此开辟了算法信息论。两人互相启发，所罗门诺夫早期文章常引用乔姆斯基的生成文法。如果他也像乔老爷这么长寿，就能够活着欣慰地看到：是算法信息论为ChatGPT奠定了理论基础，这个故事值得另一篇长文，暂且不表。

乔姆斯基的伯乐是比他年长几岁的同校青年教授，一位是认知心理学的创立者之一乔治·米勒（George Miller）和犹太裔语言学家莫里斯·哈利（Morris Halle）。米勒是最早看过《语言学理论的逻辑结构》的人。哈利看了乔姆斯基给本科生上课的讲稿，推荐给Mouton出版社作为现代语言学丛书的一个小册子先出版了，这就是《句法结构》。这本科普书好评如潮，奠定了乔姆斯基在语言学界的地位，而更学术的《语言学理论的逻辑结构》则要到二十年后才正式出版。他的语言学经历了几个阶段的变化：1950年代转换生成文法，1960年代标准理论，

乔姆斯基的理论在语言学界被认为是开天辟地的，所谓“乔姆斯基革命”。但从计算机科学和逻辑学的角度看，它是自然的。乔姆斯基承认广义文法（UG）受到波斯特的启发。可惜波斯特既没有被逻辑学家（如哥德尔）欣赏，也没有被数学家包容。相较于计算机科学，语言学是迟钝的：计算机科学几乎与相应的数理逻辑同步，当哥德尔和海伯伦 1934年定义了广义递归函数，图灵1936年就发明了图灵机；而波斯特的工作要到1956年才被乔姆斯基引入语言学。乔姆斯基之前，语言学是文科，乔老爷力图把语言学变成自然科学。乔姆斯基称第一次认知革命发生在十七世纪，主角是笛卡尔；而第二次认知革命发生在1950年代的麻省理工。乔姆斯基甚至把“思维即语言”回溯到基督教杨森派主要人物阿尔诺（Arnauld）写的《王港语法》，阿尔诺和同时代的笛卡尔和帕斯卡相熟，并深受他们影响。也有语言学史家认为乔姆斯基误读了《王港语法》。

与英美经验主义传统不同，乔姆斯基自称是理性主义者，他的语言学理论也被他冠以笛卡尔语言学的帽子。在语言是区分智人和其他物种的决定性因素上，认知科学家和进化心理学家都同意乔姆斯基。但在语言的来源上，乔姆斯基和大家有明显分歧。波普尔和平克等认为语言是进化的产物，所谓渐进派；而乔姆斯基则认为语言是突现的，他自称“跳跃”（saltation）派。

乔姆斯基不断地引用洪堡的说法“语言是有限手段的无限运用”。他提出的一个极为简单的机制：“合并”（merge），其实是一种原始的递归机制，考虑到通用递归函数等价于图灵机，我们不惊奇“合并”机制可以解释所有的语法现象。对乔姆斯基来说，只要能找到“合并”的生物学解释，他的计划就可以变成科学理论了——他目前都以更加谦逊的“计划”（program）而不是“理论”来指称自己的研究。如果“合并”的生物学解释成立，那么这不过是丘奇-图灵论题的一个生物学支持证据而已。如果承认语言等于思维，实际上承认了图灵机可以思维。

语言学家说“思维即语言”，有点像物理学家（例如网红迈克斯•泰格马克）说“数学等于物理”。常人看，思维肯定大于语言，而数学也大于物理。图灵测试是语言能力的测试，无关其他模态。十几年前深度学习能火起来，是因为神经网络解决了语音和视觉问题，但那时人们只是兴奋。GPT却令人惊喜甚至震撼。无论是语音还是视觉，我们都认为这是增强人的能力。但直到2022年ChatGPT在语言能力的突破才使人意识到人性可能被冒犯。语言要比听觉和视觉更接近人性。

乔姆斯基认为语言的交流功能是思想功能的外化，思想在先，交流在后。他还认为人类可能在十万到五万年前因为基因突变，导致了递归枚举能力。这种突变可能在人类更早的历史上发生过多次，只不过这次有了显著的群体效果。感觉-运动系统（sensory-motor）是语言外化的结果。乔姆斯基的妻子卡罗尔是麻省理工学院的生物语言学家，她研究过两岁前得过脑膜炎的儿童，他们丧失了视觉和听觉，但还保留有触觉。他们能通过触觉补偿语言能力，从而能思维。这证明了语言是比其他感知模态更加基础的官能。

乔姆斯基虽不愿承认还原论，但他的方法论本质上还是还原论的：他企图找到语言的生物学基础。他称赞图灵把生物学问题还原到物理学问题——图灵1952年做过形态学（Chemical Basis of Morphogenesis）。牛顿也很困惑万有引力不能归约到机械力学，即任何运动必须有某种物理的推动。乔姆斯基不认可经验主义和行为主义，他有时也称之为马赫主义。他认为深度学习就是当代的行为主义。洛克说心灵是白板，莱布尼茨说心灵不是白板，而是有纹理的大理石板。虽然图灵测试被看作是行为主义的，但一个基本假设是数据是喂给图灵机的，而图灵机不是白板。经验主义者也不得不承认思维源于某种有组织的物质（organized matter）。如果承认丘奇-图灵论题，那么所谓“有组织的物质”和理性主义者所谓“纹理”都可被看作是图灵机或者与之等价的“语言官能”。经验主义者会把学习看作记忆，而承认丘奇-图灵论题的人会把学习看作压缩。通用人工智能（AGI）不过是不熟悉计算理论的人提出的口号，如果我们认可语言即思维，那么，AGI的标准就是语言，无关乎其他模态，这就又回到图灵测试。

塔南鲍姆（Joshua Tenenbaum）是麻省理工学院大脑与认知科学系的学术新星。他父亲曾是1980年代硅谷人工智能重镇Schlumberger实验室的掌门人，后来连环创业，我和老塔同事时，小塔还没上高中，现在居然成了大佬。ChatGPT出来后，小塔跟风，企图标新立异这样一种观点：大语言模型解决了语言问题，但还是不能思维。他和几位同道学生在arXiv上挂了篇文章Dissociating Language and Thought in Large Language Models: A Cognitive Perspective，标题一目了然：分离语言与思维。他们把语言能力分为形式能力（formal competence）和功能能力（functional competence），结论大致是大语言模型解决了形式能力，而没有解决功能能力，所以思维不等于语言。小塔所谓“功能能力”就是用言语同世界打交道，换算成大模型的术语就是“多模态”。其实，他们对语言能力的划分，都是乔姆斯基玩剩下的，乔老爷早就有内部语言（I-语言）与外部语言（E-语言）之分，内部语言是天生的能力（competence），外部语言用于行为（performance），这本就是两件不同的事情。小塔的“功能能力”对应于乔老爷的外部语言。内部语言受制于生物、数学和物理的约束。乔姆斯基应该认可丘奇-图灵论题的某个版本。任何相信丘奇-图灵论题的人不会是纯粹的理性主义者，也不会是纯粹的经验主义者。乔姆斯基-0型文法等价于图灵机，所谓“语言官能”（language faculty）等价于某种自动机。这间接地支持思维即语言的论断。

内部语言关乎“真”，尺度是内在一致性；而外部语言关乎“意义”，尺度是外在对应性。意义得自交流，维特根斯坦所谓“意义即使用”，或者约翰·奥斯汀所谓“以言行事”（do things with words），“言语行为”都是指外部语言。外部语言对应于工程师们感兴趣的 embodied intelligence（中文别扭地翻译为“具身智能”）或“多模态”（视觉、听觉、触觉等）。意义是功能层在与外界交互时进行强化学习的过程。乔老爷认为外部语言是交流而不是思维。小塔并没有提出什么新东西。即使马斯克这样聪明的工程师也认为自动驾驶之类的具身智能是狭隘的（narrow form），要远比人们想象的简单，这很明显要比喜欢讨好大众的小塔更加有洞见。

设想在火星上做自动驾驶，如果所有的停车标志（STOP）都是绿色的，难道我们需要拿所有的数据重新训练一遍火星自动驾驶大模型吗？如果驾驶员是人，一条简单的指令：“注意！停车标志是绿色的”，就足以让人适应新的驾驶场景。难道在大语言模型上不可以用一条简单的提示或者“咒语”（prompt）：“把所有停车标志的颜色替换成绿色”吗？事实上，1970年代普渡大学的傅京孙就曾经用语言学的手段研究视觉，当时不被广泛认可。可惜他英年早逝。如果在“思维即语言”的立场重新审视视觉，傅京孙可算得高瞻远瞩。

2000年，麻省理工学院的人文社科学院成立五十年的庆祝大会上，乔姆斯基、普特南和平克三人参加一个论坛，题为“关于人性，我们知道什么？”（What Do We Know About Human Nature?）这场论坛被组织者称为“三大男高音”齐聚。从休谟起，人性的核心是思维。平克把认知革命归功于乔姆斯基。乔老爷和普特南曾经在宾夕法尼亚大学同学，立场偶有不同，但彼此尊重。2011年5月，麻省理工学院为配合一百五十周年校庆，召开名为“大脑、心、机器”的研讨会（Brain, Mind and Machine Symposium），本校的几位大佬乔姆斯基、明斯基、温斯顿等悉数出席，并由平克主持。乔姆斯基批评当时重新开始流行的神经网络是黑盒子：没有提供解释和知识。麻省理工学院主办的《技术评论》杂志为这个研讨会发了专文，标题故意挑事儿：“不会思维的机器”（Unthinking Machines）。时任谷歌研发总监的诺维格（Peter Norvig）很快回应乔姆斯基，他批评语言学的规则在自然语言处理上，根本就没用。现在看，诺维格的工程实践还真给了他一些先知先觉。有人用“两种文化”来总结乔姆斯基和诺维格的隔空掐架。

语言问题曾被理所应当地认为是逻辑的，现在却被用神经网络得到满意地解决，这本身就是令人惊奇的。工程师们甚至认为语言的中间任务（词分析、句法分析、语义分析）已经不需要认真对待了，因为ChatGPT代表的大模型对语言学问题给出了端到端的解决办法。语言学家就是研究各种中间步骤的，中间步骤就是解释。其实在1990年代统计方法被引入之后，自然语言处理（NLP）就越来越不需要语言学了，曾有玩笑：NLP团队每开除一个语言学家，系统的性能就提升一个台阶。估计令乔姆斯基沮丧的是：大语言模型把自己的工作彻底搞丢了。诺维格的合作者、伯克利教授斯图亚特·罗素（Stuart Russell）的态度则一直温和得多。他怀疑ChatGPT的良好表现是不是碰巧碰上的。他说：“如今的自然语言处理不再研究语言，我认为这是非常不幸的。”这和乔姆斯基的态度差不多，斯图亚特·罗素仍然把希望寄托于知识和推理。他们都认为ChatGPT是工程而不是关乎语言的科学。人类专属的技能不多了，难道我们要等到机器证明了黎曼猜想才能被彻底折服吗？

乔姆斯基与笛卡尔的不同之处在于，乔姆斯基并不是试图在心身之间划一条明确界限的二元论者。这么说，和晚年蒯因的“整体主义”也没啥太大区别，都接近皮尔士的实用主义。相同的是，他们都认为语言是人的独有能力，但乔姆斯基用语言作为人和动物的划界，而笛卡尔用语言作为人和机器的划界。笛卡尔认为人类语言是任何自动机也不能实现的，他大概不会认可丘奇-图灵论题。

乔姆斯基曾说他自己的方法是“伽利略式”的，也就是从小数据里找寻基本定律，而不是用大数据构建黑盒子。但如果人人都有低成本的黑盒子，谁还要麻烦基本定律呢？虽然乔姆斯基在技术上对ChatGPT可能有所误判，但他“思维即语言”的立场却是大语言模型引发的这场革命的哲学基础之一。