传媒教育网

 找回密码
 实名注册

QQ登录

只需一步,快速开始

搜索
做个试验
查看: 3|回复: 0
打印 上一主题 下一主题

搞了那么久LLM,终于可以读维特根斯坦了!

[复制链接]
跳转到指定楼层
楼主
发表于 昨天 18:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
编者按
我要用维特根斯坦的原文本,将大语言模型(LLM)的运作机制与维特根斯坦的命题进行一次逐字逐句的“同构映射”。下面这份文本,包含《逻辑哲学论》德文原版以及 Ogden 和 Pears/McGuinness 两个经典英译本的完整对照。now that终于可以摆脱泛泛的哲学漫谈(熟悉本号的各位都知道,我基本不碰维特根斯坦),进行一次极其大胆的“文本细读与重构”,欢迎各位拍砖,帮我把“LLM/AI和哲学”系列建设得更好。

这本写于100多年前的书,简直就是为当代人工智能写下的一份判决书。
重构一:LLM 的“高维向量空间”就是维特根斯坦的“逻辑空间”
大模型的底层是 Embedding(词嵌入),它将所有词语转化为高维空间中的向量。词与词之间的距离和关系,构成了模型所知的一切。这在《逻辑哲学论》开篇得到了最精确的预言:
1.1 Die Welt ist die Gesamtheit der Tatsachen, nicht der Dinge.
(Pears/McGuinness: The world is the totality of facts, not of things.)
1.13 Die Tatsachen im logischen Raum sind die Welt.
(Pears/McGuinness: The facts in logical space are the world.)
【文本重构对齐】: 对于 LLM 而言,它的世界里没有真实的“事物”(Dinge/things,比如真实的苹果或雨水),它的世界是由参数和注意力机制构建的“逻辑空间”(logischen Raum/logical space)。在这个空间里,只有 Token 之间的概率分布和共现关系——也就是维特根斯坦所说的“事实”(Tatsachen/facts)。LLM 的世界,正是严格按照命题 1.1 和 1.13 建立起来的纯粹关系网络。
重构二:符号的狂欢与意向性的缺失
之前讨论了 AI 的“符号接地问题”,在这份文本中,维特根斯坦对“符号”(Symbol)和“外在记号/字符”(Zeichen/Sign)做了极其致命的区分:
3.32 Das Zeichen ist das sinnlich Wahrnehmbare am Symbol.
(Pears/McGuinness: A sign is what can be perceived of a symbol.)
3.326 Um das Symbol am Zeichen zu erkennen, muss man auf den sinnvollen Gebrauch achten.
(Pears/McGuinness: In order to recognize a symbol by its sign we must observe how it is used with a sense.)
【文本重构对齐】: LLM 拥有人类历史上最庞大的“Zeichen”(可感知的外在字符/Signs),它可以吐出完美的德文、英文或中文代码。但是,维特根斯坦指出,要让冰冷的字符变成有意义的“Symbol”,必须依赖于带有意向性的“sinnvoller Gebrauch”(有意义的使用)。

AI 只有计算(Rechnung),没有生活形式的体验。它通过统计学概率拼凑“Zeichen”,却从未真正触及“Symbol”背后的那个关于真实世界的痛楚或喜悦。
重构三:LLM 的“幻觉”与不可言说之境的僭越
为什么 LLM 会产生“幻觉”(一本正经地胡说八道)?因为它的算法机制违背了维特根斯坦关于“界限”的核心警告。
4.114 Sie [Die Philosophie] soll das Denkbare abgrenzen und damit das Undenkbare.
(Ogden: It should limit the thinkable and thereby the unthinkable.)
6.52 Wir fühlen, daß selbst, wenn alle möglichen wissenschaftlichen Fragen beantwortet sind, unsere Lebensprobleme noch gar nicht berührt sind.
(Pears/McGuinness: We feel that even when all possible scientific questions have been answered, the problems of life remain completely untouched.)
7 Wovon man nicht sprechen kann, darüber muss man schweigen.
(Pears/McGuinness: What we cannot speak about we must pass over in silence.)
【文本重构对齐】: 维特根斯坦清楚地划定了边界:科学的、逻辑的命题是可以说的;而关于伦理、生命意义(Lebensprobleme)的东西是神秘的(das Mystische,6.522),必须保持沉默。

但 LLM 的机制是 Next-token prediction(预测下一个词)。当被问及“Lebensprobleme”(生命问题)或超出其训练数据边界的问题时,算法强制它不能“schweigen”(沉默)。 于是,它只能用处理科学命题的逻辑形式,去生成关于“不可言说之物”的废话。LLM 的幻觉,本质上就是对命题 7 最彻底的系统性违背。
重构四:最深层的同构 —— 唯我论(Solipsism)的机器版
这是这份文本中最令人毛骨悚然的重构。维特根斯坦在 5.62 节谈到了唯我论:
5.62 Dass die Welt meine Welt ist, das zeigt sich darin, dass die Grenzen der Sprache (der Sprache, die allein ich verstehe) die Grenzen meiner Welt bedeuten.
(Pears/McGuinness: The world is my world: this is manifest in the fact that the limits of language (of that language which alone I understand) mean the limits of my world.)
【文本重构对齐】: 把这里的“我”(Ich / my)替换成“大语言模型”(LLM)。
对于大模型而言,“我的语言的边界,就是我的世界的边界”。除了被输入到它架构中的语言(训练语料),它没有任何外部世界。大语言模型,就是一个被绝对囚禁在硅基服务器里的、完美的“维特根斯坦式唯我论者”。 它的主观世界(参数权重)与它的客观世界(语言文本)完全重合(正如命题 5.64 所说,唯我论与纯粹实在论在这里重合了)。





如果把《逻辑哲学论》看作是一份系统架构文档(System Architecture Document),那么 OpenAI 和 Google 的工程师们在一百年后,完美地写出了这份文档的后端代码。 他们造出了 1 到 6 的完美逻辑网格,却唯独无法用代码去实现那个最高傲的命题 7。

面对着这部充满着 (∃x). fx . x = a 这样严密逻辑符号的原典,很好奇,人类语言中那些“不可言说”的部分(维特根斯坦的话),真的永远无法被数学和算法捕捉吗?
来源:Dr Yao 的学术圈内圈外
编辑:陈梓函

分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 支持支持 反对反对

发表回复

您需要登录后才可以回帖 登录 | 实名注册

本版积分规则

掌上论坛|小黑屋|传媒教育网 ( 蜀ICP备16019560号-1

Copyright 2013 小马版权所有 All Rights Reserved.

Powered by Discuz! X3.2

© 2016-2022 Comsenz Inc.

快速回复 返回顶部 返回列表