The Case That A.I. Is Thinking ChatGPT 并无内在生命,但它似乎清楚自己在谈论什么。 本文即将刊登于2025 年 11 月 10 日的《纽约客》杂志,印刷版标题为“Open Mind”。作者:作家兼计算机程序员詹姆斯·萨默斯从 2018 年开始为《纽约客》撰稿。 当一种“理解的假象”逼真到何种程度时,你才会不再将其称为假象? 人工智能公司Anthropic的首席执行官达里奥·阿莫代伊预测,到2027年,在生物学、数学、工程学、写作等领域“比诺贝尔奖得主更聪明”的人工智能或许会投入使用。他设想数百万个模型副本高速运转,每个副本都在开展独立研究,形成一个“数据中心里的天才国度”。今年6月,OpenAI的萨姆·奥尔特曼撰文称,人工智能行业即将打造出“数字超级智能”。他断言:“2030年代很可能会与以往任何时代都截然不同。”与此同时,大多数人目前日常接触的人工智能工具,让人不禁想起微软办公软件曾推出的“助手”Clippy——它实际上更像个爱纠缠的角色。Zoom的一款人工智能工具会提示你向它提问“有哪些会议破冰问题?”,或是指令它“写一条表达感谢的短消息”。Siri擅长设置提醒,但在其他方面用处不大。我的一位朋友在Gmail中看到一个按钮,上面写着“致谢并讲述趣闻”。他点击后,谷歌的人工智能编造了一个关于他去土耳其旅行的有趣故事,而他从未去过那里。 人工智能仓促且不均衡的推出,营造出一种迷雾氛围,让人很容易得出“这里没什么值得关注——全是炒作”的结论。诚然,炒作确实不少:阿莫代伊预测的时间线带有科幻色彩(人工智能模型的改进速度并没有那么快)。但认为大型语言模型只是在随意拼凑文字,同样是一种一厢情愿的想法。我过去曾认同这种观点,也曾从“人工智能与真正的智能或理解毫无关系”这一想法中寻求慰藉,甚至还为它的缺陷感到庆幸——就像在为人类“主队”加油。后来,作为一名程序员,我开始在工作中使用人工智能,因为担心不这样做就会落后。(我所在的雇主是一家贸易公司,对包括Anthropic在内的多家人工智能公司有投资,也建立了合作关系。)许多人认为,编写代码是人工智能最擅长的领域;代码比散文更具结构性,而且通常能通过自动化方式验证某个程序是否可行。我对人工智能的看法很快发生了转变。起初,我会咨询人工智能模型,而非自己去查找资料;接着,我会让它们处理一些独立的小问题;最终,我把真正的工作——那些我整个职业生涯都在学习处理的工作——也交给了它们。我看到这些模型能在几秒钟内理解数千行代码中的复杂细节,它们能发现细微的漏洞,还能设计出复杂的新功能。后来,我被调到一个快速发展的团队,该团队旨在更好地利用人工智能工具,并开发我们自己的工具。 据说科幻作家威廉·吉布森曾提出,未来早已到来,只是尚未均匀分布——这或许能解释为何人工智能似乎催生了两种截然不同的群体:一种对此不屑一顾,另一种则为之着迷。在日常生活中,能预订假期或申报税务的人工智能“代理”并不成功,但我的一些同事在编写代码时,大部分工作都依赖人工智能,有时还会同时运行多个编程代理。这些模型有时会犯低级错误,或陷入无意义的循环,但随着我学会高效使用它们,曾经需要一个月完成的工作,现在一个晚上就能搞定。不久前,我在完全不懂如何开发iOS应用的情况下,做出了两款iOS应用。 我曾有一位上司说,求职面试应考察应聘者的优势,而非纠结于其是否存在缺点。大型语言模型确实有很多缺点:众所周知,它们会编造看似合理的虚假信息;即便你出错,它们也可能一味顺从;简单的谜题就能将它们难住。但我还记得,如今人工智能模型所具备的显著优势——流畅的表达、自然的衔接、“理解”他人意图的能力——在过去曾被视为难以实现的“圣杯”。当你亲身体验到这些优势时,就会不禁思考:当一种“理解的假象”逼真到何种程度时,你才会不再将其称为假象? 今年夏天一个酷热难耐的日子,我的朋友马克斯和家人在公园游玩。不知为何,儿童洒水器没有开启,而马克斯的妻子之前向大家保证,她丈夫能修好它。面对满脸通红、年龄在六到七岁之间的孩子们,马克斯走进工具棚,希望能找到一个显眼的“开启”开关。然而,他看到的却是一堆错综复杂的旧管道和阀门。就在他准备放弃时,突然心血来潮,拿出手机,将洒水器的照片以及自己遇到的问题描述一起输入ChatGPT-4o。人工智能“思考”了片刻——也可能并没有真正思考——但它随即表示,马克斯看到的是灌溉系统中常见的防回流装置。它问马克斯是否看到底部那个黄色的球阀,认为那个阀门很可能控制着水流。马克斯按照提示操作,水流随即喷出,公园里顿时响起孩子们的欢呼声。 ChatGPT是在毫无意义地拼凑文字,还是真的理解了这个问题?这个答案或许能让我们对“理解”本身有重要的认识。加州大学伯克利分校的神经科学教授多丽丝·曹(音译)告诉我:“神经科学家必须面对这个令人清醒的事实:机器学习的进展,比神经科学在过去一百年间的任何发现,都更能让我们了解智能的本质。”多丽丝·曹最知名的研究是破解恒河猴感知面部的机制。她的团队成功预测出猴子看到特定面部时哪些神经元会被激活;更令人惊叹的是,只要知道神经元的激活模式,他们就能还原出对应的面部图像。他们的研究借鉴了关于“人工智能模型如何表征面部”的相关成果。如今,她最喜欢问别人的一个问题是:“你从ChatGPT中获得的最深刻洞见是什么?”她表示:“我自己的答案是,我认为它彻底揭开了思考的神秘面纱。” 关于我们如何走到如今这一步,最基础的解释大致如下:20世纪80年代,一小群认知心理学家和计算机科学家尝试在机器中模拟思考过程。其中较知名的有戴维·鲁梅尔哈特、杰弗里·辛顿和詹姆斯·麦克莱兰,他们后来在加州大学圣迭戈分校成立了一个研究小组。他们认为,大脑是一个庞大的网络,神经元以特定模式激活,进而引发其他神经元群的激活,如此循环往复;这种模式的动态变化就是思考。大脑通过改变神经元之间连接的强度来实现学习。关键在于,这些科学家通过构建人工神经网络,并应用一种名为“梯度下降”的简单算法来提高其预测准确性,从而模拟了大脑的这一学习过程。(可以将该算法比作一个从山顶走向山谷的徒步者:要最终找到下山的路,一个简单的策略就是确保每一步都朝着地势更低的方向前进。)在大型网络中使用这类算法的技术,被称为深度学习。 人工智能领域的其他研究者曾怀疑,神经网络是否足够复杂,能否应对现实世界的任务。但随着网络规模不断扩大,它们开始解决此前无法攻克的难题。过去,有人会花费整篇博士论文的篇幅,研究区分手写数字或识别图像中人脸的技术;而后来,深度学习算法只需消化相关数据,就能掌握问题的核心细节,让那些研究项目显得过时。很快,深度学习在语音识别、翻译、图像描述、棋类游戏等领域取得突破,甚至解决了蛋白质折叠预测这一难题。 如今最先进的人工智能模型,是通过一种名为“下一个token预测”的技术,在互联网的大量数据上训练而成的。模型通过猜测接下来会出现的内容,再将猜测结果与实际出现的内容进行对比,以此完成学习。一旦猜测错误,神经元之间连接的强度就会调整,这正是梯度下降算法的作用。最终,模型在文本预测方面变得极为精准,以至于看起来仿佛真的具备知识储备,且表达富有逻辑。这一点值得我们思考:一群研究者致力于探寻大脑运作的奥秘,当他们构建的模型规模接近大脑大小时,模型开始展现出那些曾被认为只有大脑级智能才能实现的能力。难道他们真的找到了一直在寻找的答案? 对于这种将人工智能简单化、理想化的解读,人们难免会持反对态度。泰德·蒋曾有力地反驳过这一观点,他在2023年初为本刊撰写了一篇文章,标题为《ChatGPT不过是互联网的模糊JPEG格式文件》。他的言下之意带有贬低意味:ChatGPT仅此而已。你把整个互联网的数据输入一个程序,它只是将这些数据不完美地“反刍”出来,就像一张照片经过多次复制后变得模糊——但它的表达能力足以让你误以为这个程序具备智能。今年春天,语言学家埃米莉·M·本德和社会学家亚历克斯·汉纳在合著的《人工智能骗局》一书中,也提出了类似观点。本德最知名的言论,是将大型语言模型描述为“随机鹦鹉”。《大西洋月刊》的书评作者泰勒·奥斯汀·哈珀宣称:“大型语言模型过去没有、现在没有、将来也永远不会‘理解’任何事物。”这些模型“生成文字并非通过思考,而是基于统计规律,猜测下一个词汇可能是什么”。哈珀在这些技术层面的论点之外,还加入了道德层面的批判:人工智能让强者更富,消耗的能源加速了气候变化,还导致劳动者被边缘化。他最终得出结论:“人工智能行业的根基就是一场骗局。” 一位顶尖神经科学家认为,ChatGPT“彻底揭开了思考的神秘面纱”。 但从道德层面反对人工智能,或许最终比从技术层面反对更有说服力。哈佛大学认知科学家塞缪尔·J·格什曼并非人工智能的盲目吹捧者,他告诉我:“‘随机鹦鹉’这种说法早该过时了。只有最顽固的怀疑论者,才会否认这些系统实现了许多人曾认为无法实现的功能。”普林斯顿大学的认知神经科学家乔纳森·科恩承认人工智能存在局限性,但他认为,在某些情况下,大型语言模型似乎模拟了人类大脑中一个庞大且重要的区域。科恩表示:“大致来说,大脑的新皮层就是一个深度学习机制。”相对于体型而言,人类的新皮层比其他动物大得多;而新皮层最大的物种——大象、海豚、大猩猩、黑猩猩、狗——也恰好是最具智能的物种。 2003年,机器学习研究者埃里克·B·鲍姆出版了一本名为《何为思考?》的书(我在大学图书馆的书架上偶然发现了它,书名瞬间吸引了我)。鲍姆论点的核心在于:理解即压缩,压缩即理解。在统计学中,若要理解图表上的数据点,可以采用线性回归技术,在这些点之间绘制一条“最佳拟合线”。如果数据中存在潜在规律——比如你在绘制鞋码与身高的对应关系——这条最佳拟合线就能简洁地呈现这一规律,并预测新数据点可能出现的位置。我们可以将新皮层理解为一种“提炼”工具:它从海量原始体验(声音、图像及其他感官信息)中提取核心,形成类似“最佳拟合线”的模型,用于进行预测。婴儿探索世界时,会尝试猜测玩具的味道,或是食物掉落到地上后会滚向何方。当预测出错时,神经元之间的连接就会调整。久而久之,这些连接逐渐捕捉到数据中的规律,形成一个对世界的压缩模型。 人工神经网络与真实的神经网络一样,也能对体验进行压缩。目前最优秀的开源人工智能模型之一DeepSeek,能够创作小说、提供医疗诊断建议,还能以数十种语言进行母语级别的交流。它是通过“下一个token预测”技术,在数太字节的数据上训练而成的。但当你下载这个模型时,会发现它的大小仅为训练数据的六百分之一。它就像是互联网的“精华版”,经过压缩后可以安装在笔记本电脑上。泰德·蒋将早期版本的ChatGPT比作“互联网的模糊JPEG”,这种说法有一定道理——但在我看来,这正是这些模型变得越来越智能的原因。蒋在文章中指出,若要压缩一个包含数百万道算术题的文本文件,你不会将其制成压缩文件,而是会编写一个计算器程序。他写道:“只有理解了文本内容,才能实现最高程度的压缩。”或许,大型语言模型已经开始做到这一点。 想到一个计算机程序真的能理解、真的能思考,人们可能会觉得反常,甚至反感。通常,我们认为“思考”是一种有意识的行为,比如像乔伊斯作品中那样的内心独白,或是像普鲁斯特式白日梦那样的感官记忆流动;也可能认为思考是一种推理过程:一步步解决问题。在讨论人工智能时,我们常常将这些不同类型的思考混为一谈,导致判断过于草率。有一种观点认为,ChatGPT显然不会思考,因为它显然不会像普鲁斯特那样陷入遐想;另一种观点则认为,ChatGPT显然会思考,因为它解决逻辑谜题的能力比人类更强。 但实际情况要微妙得多。我不认为ChatGPT有内在生命,但它似乎确实清楚自己在谈论什么。“理解”——即明白正在发生的事情——是一种未被充分重视的思考方式,因为它大多发生在无意识层面。印第安纳大学认知科学与比较文学教授道格拉斯·霍夫施塔特常说,认知的本质就是识别。霍夫施塔特因《哥德尔、埃舍尔、巴赫:集异璧之大成》一书闻名,该书于1980年获得普利策奖,探讨了心智与意识的奥秘。霍夫施塔特经过数十年研究提出,“看作”是思考的核心。你将一块色斑“看作”汽车,将另一块色斑“看作”钥匙扣;无论字母“A”以何种字体呈现,或是书写得多么潦草,你都能认出它。霍夫施塔特认为,同样的过程也存在于更抽象的感知层面。国际象棋大师审视棋盘时,多年的经验让他能瞬间“看出”:白方的象处于弱势;这个残局很可能是平局。你看到河中的漩涡,就知道此处不宜过河;你意识到正在参加的会议是“
掌上论坛|小黑屋|传媒教育网
( 蜀ICP备16019560号-1 )
Copyright 2013 小马版权所有 All Rights Reserved.
Powered by Discuz! X3.2 © 2016-2022 Comsenz Inc. |