设为主页 |收藏

登录实名注册找回密码

传媒教育网»学堂 › 学习专区 › 新闻案例库 › 阿什比论文集集锦

阿什比论文集集锦

查看数: 239 | 评论数: 28 | 收藏 0

关灯 | 提示：支持键盘翻页<-左右->

帖子模式

刘海明

发布时间: 2026-2-2 22:12

正文摘要:

【案例】智能的机制——阿什比论文集大家好，今天开始，由我来为大家翻译控制论先驱阿什比的论文集《智能的机制》。全书共有8个专题40多篇论文，基本把阿什比（除了名著《大脑设计》《控制论导论》之外）主要代 ...

刘海明 发表于 2026-3-26 15:08:12

【案例】

智能的机制——阿什比论文集（30）

大家好，接着由我来为大家翻译控制论先驱阿什比的论文集《智能的机制》。全书共有8个专题40多篇论文，基本把阿什比（除了名著《大脑设计》《控制论导论》之外）主要代表作都囊括了。除了个别零散论文（比如《智力放大器设计》）外，大多没有被翻译为中文。我想尝试翻译出来，与群友共享。也许在今天AI浪潮几乎让人疯狂的背景下，聆听一下这位控制论先驱对智能的思考对我们有帮助，能让我们冷静下来，对AI如实观照。

我们现在翻译的《信息的极限》这一专题。今天翻译该专题两封信，一封是写给《自然》杂志编辑的，一封是写给好友的。

专题三：信息极限（Informational Limits）

3.致《科学》杂志编辑的一封信

机遇眷顾有准备的头脑（Chance Favors the Mind Prepared）
栏目： Letters（读者来信）

让我们假设问题本质上是一个选择的问题：从众多申请者中选拔少数学生，从大量人员中征召兵员，或者更一般地说，从大量可能的决策中做出一个好的决策。过去20年的根本发现是，所有这类选择过程都服从于信息论定律。第一，适当的选择只能基于必要数量的信息；第二，这种信息是可测量的且有限的。由此可知，在任何现实情境中，能够实现的适当选择量也是有限的。在任何给定时刻，一个意欲选择者只能获得一定量的信息，仅此而已。凭借这一数量的信息，他能够执行相应数量的理性、适当、有意义的选择。当信息耗尽时，便不再有进一步的理性依据存在。

因此，选择若要成为理性和可辩护的，必须基于信息。但在现实生活中，经常发生的情况是可用信息量少于必要量。通过"学院只招收男性"这一信息，可以合理地将一千名学生缩减到五百名；但如果学院只能招收50人，我们该怎么办？当然，人们不会忘记可能有更多信息可用，或许足以让整个选择变得"理性"；但如果所需信息要么无法获得，要么获取成本过高呢？基于有限信息量进行决策的基本原理可以表述如下：运用你所知道的一切，将可能性范围缩减到最小；之后，随心所欲。

牢记这一规则，我们就能明白为何那篇社论（讨论"机遇与人为判断"的社论）不能令人满意。它那个标题本身——"机遇，还是人为判断？"——就倾向于让读者将这两者视为相互排斥的竞争关系，而真相是它们实为自然的互补关系。在做出决策时，首先应让人为判断占主导；然后应将机遇用作必要的补充，以使决策达至唯一性……现代决策方法同时使用这两者——机遇与人为判断。从这个角度看，使用机遇绝非"否定理性"。相反，机遇是智者在其所知信息量少于被要求做出的选择量时所采用的遴选方法。

4.给C. Strachey的回信

计算机与决策制定

先生：

近期关于这一主题的通信表明，目前存在诸多误解，有些人未能跟上现代知识的步伐。由于今日任何试图澄清此事、建立清晰连贯理论的尝试，我愿勾勒其要点，以帮助增进清晰性和简明性。

引起我们兴趣并引发争论的过程（无论是由大脑还是数字计算机执行的），是那些最终产物显示出高度选择性的过程。例如，在《泰晤士报》社论作者昨日实际写出的一组文字，可能是成书字母的多种排列方式之一；或者计算机被要求输出一串与某未知电话号码的随机数字完全对应的数字。大多数实际活动都将这种选择性作为本质特征。概言之，得到正确答案意味着选择。

我们现在得出一个适用于所有系统的简单假设——无论是生物系统还是机械系统——即任何实现了适当选择（优于随机选择程度）的系统，都是基于所接收的信息而做到的。

替代方案是什么呢？难道我们要接受考试候选人在被告知问题之前就开始给出适当答案吗？难道我们要接受某人在火灾发生之前就向保险公司寄出索赔单吗？难道我们要接受计算机在程序带尚未装好之前就开始打印正确答案吗？显然，这些都不可能发生；除非清楚地证明存在此类现象，否则这一假设必须成立。

支持这一假设的论据可以给出更深刻、更严格的表述。此处无暇详述，但我必须提及它与香农第十定理[2]密切相关，该定理指出：将同一消息的多种"噪声"版本还原为正确原始消息的选择过程，受限于（无论由何种代理执行校正）必须伴随所选版本传输的一定信息量。人类与计算机同样受这一事实约束：如果它们要实现适当选择，就必须要么服从这一假设工作——要么依靠纯粹的魔法。

一旦接受这一假设，决策策略便不可避免地遵循以下路径。用简单概括的语言来说，它如下：

(1) 无论是生物还是机械的选择者，必须首先接收一定量的信息。然后利用这一信息将可能性领域（无论是可能的答案还是输出）缩减到最小。缩减的程度受限于信息的量。

(2) 当信息已在将可能性领域缩减至最小时用尽后，剩余的就是"无知领域"（field of ignorance）。缺乏进一步的信息，进一步的选择便失去合理性。其中的任何武断选择都不能声称优于任何其他方法（"随机与任何其他方法一样好"）。

换言之，决策的基本公式是：运用你所知的一切将领域缩减至尽可能小；之后，随心所欲。

有时会发生这样的情况：即使在无知领域内，仍然存在选择的需求。即使在这种情况下也可以执行第二次选择（例如，通过使用随机数表，就像棋手在面临具有适当可能性的局面时可能做的那样）。有时选择是本质性的，必须进行一次尝试。信息，而有时这种新信息可以获得，或更多"如果你想要成功，尝试"类型的信息——这不仅仅是向成功的一次射击——它可能是一个逐步获取更多信息的过程，从而使进一步的适当选择成为可能。

因此（仍在该假设的铁律之下），成功可能是分阶段实现的：首先利用主要信息将无知领域缩小；随后，通过尝试获得进一步信息，直到总信息量达到完成选择所需的量。

斯特雷奇先生（Mr. C. Strachey）[3月3日来信]提到的"绝望"，现在可以证明是合理的，或者说（根据假设）在无知领域内是合理的。如果问题是一个必须穷尽所有可能性、必须尝试一切的问题。但此处的"一切"只是"无知领域内的一切"；而这可能只是整体中很小，或许是非常小的一部分。

上述原理适用于大脑和计算机，适用于简单和复杂的情况。它们表明，决策制定会遇到选择，而该假设对每一个选择都成立。无论问题的本质是该假设的单一应用，还是分解为一系列应用，该假设对此特定情况都具有同等效力[3]。

最后，或许值得瞥一眼为何这些原理长期未被我们把握的原因。我认为原因在于，相对于计算机和人脑，我们在它们所接收的信息之前就对它们进行编程。我们对大脑如何工作知之甚少，所有都是隐藏的；但在为计算机编程时，我们敏锐地意识到这需要多少劳动，而在对人进行预编程方面，人类已经历了漫长的（尤其是在进化和童年时期）过程；事实上这一过程极其漫长。经过二十亿年的进化，他积累了今天人类的所有经验，通过童年和后来的训练，他积累了大量适当选择的能力，远超……当信息相关时，他便能显示出优势。

例如，在下棋之前，他通过在世界中活动就学到了大量关于三维几何的知识：行、列、角度可以通过棋盘上的一个轻拂手势向他表明，而无需详细指定几何；然而这一特定三维几何（比如说）对两者都是同等地缺乏原始信息。而计算机在同样意义上，其详尽和精细程度与人脑一样。关于"连续性"的大量信息也是如此，如果问题具有这种性质，人脑来到计算机面前时带着这种信息。这些事实表明，人脑的信息更适合描述为"预编程"（pre-programming），优于计算机。

如果充分考虑这一差异，他们的活动——无论是成功还是失败——都将被发现在基本假设上是一致的：我们在决策制定中都必须遵循相同的基本策略。

W·罗斯·阿什比 伯登神经学研究所布里斯托尔

参考文献

【1】ASHBY W R. An Introduction to Cybernetics[M]. London: Chapman and Hall, 1956.

【2】SHANNON C E, WEAVER W. The Mathematical Theory of Communication[M]. Urbana: University of Illinois Press, 1949.

【3】ASHBY W R. Design for a Brain[M]. 新版. London: Chapman and Hall, 1960: Chapters 17 and 18.

来源：宋胖说事儿

链接：https://mp.weixin.qq.com/s/-I-fBpjQqC6g_1GOMJ-zLQ

编辑：赵牧云

刘海明 发表于 2026-3-25 14:02:32

【案例】

智能的机制——阿什比论文集（29）

我们现在翻译的《信息的极限》这一专题。今天翻译该专题的综述和第一篇文章《信息处理系统面临布雷默曼极限的一些后果》。

专题三：信息极限（Informational Limits）

1.专题综述

在许多阿什比（Ashby）的论文中简要提及了一种信息极限，而在《布雷默曼极限的某些后果》一文中阐述得最为明确。这是由物理定律对实际可计算性施加的极限，其后果是：需要超过约 1070 比特的问题解答程序实际上是不可回答的。阿什比通过类似的推理表明，具有超过一定程度组合特性的适应系统，可以远远超出这一极限。更重要的是，他说这一极限具有哲学意涵——其中之一是："我们已实现的科学将永远只是关于世界较简单相互作用的科学。如果存在复杂的自然法则，我们永远无法认识它们。"

特别是在后期的论文中，阿什比反复强调了这一主题。然而，对于布雷默曼极限（Bremermann's Limit）存在一种常见的、 unnecessarily pessimistic（过于悲观）的解读，即："如果一个问题涉及从 21070 个或更多元素的集合中选出一个元素，那么回答它需要1070 比特的信息，因此布雷默曼极限告诉我们这个问题是不可回答的。"这种解释是错误的[105]。如果使用的方法是 1070 次二分法（每次1比特），那确实不可能，但可能存在其他方法来进行选择。

第二种信息极限是施加于决策者身上的限制，其可用信息量有限。阿什比在《机遇眷顾有准备的头脑》（致《科学》杂志编辑的一封信）中通常提到这一点，在《计算机与决策制定》中则有更详尽的阐述。他有力地指出，选择过程受到可用信息的限制。这是他著名的必要多样性定律（Law of Requisite Variety）的一种表述，但之所以特别放在本节而非下一节，是因为它们被清楚地展示为施加于信息信道或信息极限上的限制。阿什比说，基本规则是：利用你所知道的一切尽可能缩小范围；然后随心所欲。当信息极限已经达到时，机遇（chance）与其他任何决策方法一样理性。

注释：

布雷默曼极限（Bremermann's Limit）：由Hans Bremermann提出，指物理定律对计算速度的理论上限（约 1070 bits/gram/sec 量级），超过此极限的计算在物理上不可实现。

必要多样性定律：只有多样性才能吸收/控制多样性（Only variety can absorb variety），即控制系统必须具有至少与被控系统同等程度的多样性才能有效控制。

1070 bits：约等于整个宇宙质量在宇宙年龄内所能处理的信息量上限。

信息处理系统面临布雷默曼极限的一些后果

W·罗斯·阿什比
伊利诺伊大学，厄巴纳，伊利诺伊州

在先进计算的道路上存在着诸多限制。其中一些限制，如预算限制，可以随时消除；另一些限制，如科学家相互交流所用语言结构造成的限制，也许可以通过足够的努力来消除。然而，本文希望探讨的是布雷默曼（Bremermann, 1962, 1965）所确立的特定极限的后果：

"任何封闭信息传输或处理系统的容量不超过 mc2/h 比特每秒。"

（其中m 为系统质量，c 为光速，h 为普朗克常数）。若令m 等于1，并代入 c 和h 的已知数值，该极限在数值上约为每秒每克1048 比特。

几个世纪的时间和成吨的计算机仅能将这一数值提高到约1070 比特。超过这一数量，任何我们所知的物质构成的东西都无法达到。

这一极限允许高达约1070 比特的事实，乍看之下似乎实际上没有任何限制。然而，事实上，我们希望用于先进（类脑）计算的过程很快就会遇到这一极限。为证实这一点，我举两个典型例子：

例1：一个由20×20共400盏灯组成的屏幕，每盏灯只有亮或不亮两种状态，呈现出各种图像。我们希望将这些图像分成具有某种属性的和不具有该属性的两组。假设我们问："什么是最佳分组？"这个看似朴素的问题要求从一组可能中选择一个。如果有400盏灯，可能的图像就有 2400 ，即10120 种，而可能的分组方式则有2的 10120 次方种。因此，从这个集合中选出特定分组（除非有其他限制介入）至少需要10120 比特。这个表面上简单的问题提出了一个远超该极限的需求。

例2：一个人工视网膜有一百万个敏感单元，每个单元只有兴奋或不兴奋两种状态。它通过一个网络产生输出，输出只有1比特：移动或不移动。假设我们问："输入和输出之间的关系是什么？"这个问题本质上要求的是从输入状态集合（共 21,000,000 种）到输出状态集合（共2种）的映射。映射的数量等于输出数量的输入数量次方。因此，从 21,000,000 种映射中选出特定映射（除非有其他限制介入）至少需要10300,000 比特。又一次，一个表面上简单的问题要求的信息处理量远超该极限。

这些例子足以说明，我们多么容易就能提出远超布雷默曼极限的问题或计算过程。它并非遥不可及的、几乎只是想象力的好奇之物，而是一旦我们尝试更先进的信息处理形式，它立即就会挡在我们面前。

极限在仿生学中的后果

这一极限的后果是多方面的。在此我只提及几个在我看来在仿生学背景下尤为突出的后果。

由于"调节与控制"具有最高的实践重要性，让我们首先在此应用这一极限。一个简单的例子有助于阐明基本概念。假设一支舰队正要离港执行现役任务，却发现其通讯系统失效；结果，现在只能通过旗语进行船对船协调，且只有一些配备手操作闪光灯的人工信号员可用。我们这里有一个动态系统，其目标由当前海军战略明确定义，且受制于内部可发生通信量的限制，这一限制由信号员的容量决定。现在很清楚，海军上将可以用各种方式部署舰船，可能没有任何对整个舰队的单一机动是不可宣布的，然而常识告诉我们，敌方海军上将在一段时间后会注意到这一点。

"在机动中实现协调"意味着所有可能的运动组合（包括导致碰撞的组合）的总集合必须被限制为组合的一个特殊子集（经海军战略批准的组合）。实现这一限制需要相应的传输量（根据香农第十定理或必要多样性定律）。因此，为更明确起见，假设有100艘舰船，机动的唯一要求是所有舰船必须向同一方向转向，且信号员作为信道的总容量每次通信提供200比特（99条指令，3小于200）。在没有信号员分布或编码安排的情况下，无法通过增加"半右舵"和"半左舵"来细化方向选择（99条指令，5大于可用的200比特）。因此，可传输信息总量的极限存在，对可实现的调节或控制量设置了绝对限制。

这个例子的算术表明，布雷默曼极限在直接调节的情况下是一个直接的威胁。一百万艘舰船，每艘都必须精确移动到百万分之一，每次航向设置需要106log2106 比特，即约2×107 比特——远未达到极限。但这种小量并不意味着当我们转向仿生科学时可以忘记这一极限。在这里，调节和控制通常针对某种复杂模式的事件，各部分之间存在强烈的内部作用（或所有陈述高度条件化）。在这种情况下，当组件数量增加时，信息量往往以爆炸性的指数速率而非温和的多项式速率增长。

复杂目标效应的一个著名例子是机械象棋程序。目标（"将死"）看起来简单，但要明确界定其在每一步棋中的含义，目前唯一可靠的方法是写下所有可能的走法，并将每一步标记为"好"或"坏"。如果走法数量至少有 10120 种，布雷默曼极限就是一道不可逾越的屏障。由于象棋游戏比生活之战简单，我们可以预期这一极限远非仅仅是数值上的好奇，而是将在真实而实际的情境中频繁地自我显现。

舰队所用的温和信息量与象棋所要求的过度信息量之间的突然跃升，当然是由于象棋的组合特性：一个棋子的位置是好是坏，取决于其他棋子的位置。这种条件性使多样性以组合方式（通常是指数级）增长，而较简单的形式仅以加法或简单乘法速率增长。由于在仿生学和先进计算中，我们特别关注这些组合过程，因此在我们的科学中，我们很可能在工作的早期就遇到这一极限。那些特别可能意味着各部分之间存在高度相互作用的主题，尤其涉及以下概念：

系统（System）	有序/秩序（Order）
组织（Organization）	子集（Subset）
模式/图案（Pattern）	属性/性质（Property）
网络（Net）	关系（Relation）
自动机（Automaton）	约束/限制（Constraint）

所有这些都与"先进信息处理"和"机械大脑"高度相关。因此，在我们的研究中，尤其是在仿生学和人工智能领域，我们很可能在很早期就遇到这一极限。但这一主题在哲学上具有更为广泛的意涵，我想在此略作探讨。

最明显的事实是：我们自身以及我们的大脑都是由物质构成的，因此绝对服从于这一极限。不仅作为个体的我们如此，整个世界科学的合作组织也是由物质构成的，因此也受制于这一极限。因此，无论是个人能够使用的总信息量，还是世界科学能够使用的信息量，在任何常规尺度上都被限制在约1040 比特左右。无论我们未来的科学将发展到何种程度，所有的一切都将低于这一上限。

我们无法因为自己在生物界中的卓越地位而声称享有任何特殊优势。我们之所以成为现在的样子，是自然选择过程塑造和选择的结果。作为一种选择，这一过程可以用信息量来衡量：因此它也受制于其极限。在任何行星条件下的任何选择类型中，由物质构成的行星表面无法以超过某一有限速率的速度产生适应性。无论我们自认为多么优秀，1070 比特衡量的是我们大脑无法超越的界限。未来的科学将由大脑构建，而这些大脑在其运作中使用的比特数不可能超过1040 。因此，它们自身的进步也只能在远低于1070 的范围内进行。这就是我们的信息宇宙：超出此范围者，不可知。

我们多少能看出些什么将是不可知的。有时自然法则具有简单的信息结构。例如，引力定律被发现只关联两个粒子之间的吸引力，比如i 和 j ；这种关系不以其他粒子 k,l,m 等的位置为条件。这种无条件性意味着，随着更多粒子的加入，复杂度的增长是适度累加的（势能以简单的加法方式组合）。将这种情况与（比如）社会系统相对比，在社会系统中，两个变量 i 和 j 之间的关系可能依赖于其他变量。如果引力中 i 和 j 之间的吸引力定律会因 k 的取值而改变，这就会成立。在这种情况下，复杂度以某种近似指数的方式增长。因此，这一极限的存在告诉我们：我们已实现的科学将永远是关于世界较简单相互作用的科学。如果存在复杂的自然法则，我们永远无法认识它们。

因此，这一极限在复杂科学中可能特别具有阻碍性。其中之一就是社会学，刚才已作为例子提及。另一个就是我们自己的仿生学科学，尤其是当我们着手解决人工智能问题时。我们该怎么办？

对这一极限的一种反应就是简单地忽视它，只在必须注意到它时才注意到它。但科学史反复表明，当一种棘手的限制出现时，科学往往会变得停滞，直到它将这一限制纳入其工作概念结构的一部分为止。我必须以显微镜为例：起初，人们将光和波长所施加的限制视为纯粹的麻烦。眼见为实，直到阿贝（Abbe）和亥姆霍兹（Helmholtz）发展出新的显微技术，在其中衍射和干涉的波动特征成为理论的内在工作部分。微观物理学也陷入了日益增长的困境，直到它重塑其基本理念，构建了一个将基本限制（由于量子限制和不确定性）内置其中的新理论。因此，有充分的理由建议，面对这一极限，我们最好的方式是研究它，并使其成为我们工作理念的一个组成部分。

如何实现这种整合？我在这里只能提供一个粗略的建议，希望它将来能被证明是有用的。这项工作的大部分在于未来的研究。

首先，我们知道数学家和工程师从"线性"过程（矩阵代数、拉普拉斯变换等）的发展中获得了巨大优势。有了这些过程，他们可以在线性世界中进行广泛的工作，而无需担心在每一次操作中都陷入复杂得多的非线性世界。

这个例子表明，可以发展出一套广泛的操作集，使得在集合内可以完成大量有价值的工作，而操作本身自动防止工作者误入"禁区"。布雷默曼极限正是规定了这样一个禁区。

明斯基（Minsky, 1963）总结了"人工智能"问题的本质，对此我完全同意："真正的问题在于找到能够显著延缓明显不可避免的搜索树指数增长的方法。"只要所研究的指数系统是真正组合性的，指数增长就是不可避免的，而布雷默曼极限就以最大强度起作用。我们仿生学中的问题很大程度上实际上受制于强内部约束（其中大多数最终源于原子层面表现出的强烈冗余和重复性）。最普遍、最广泛的约束之一是系统在某种程度上是可约化的，即可以分块研究。当情况如此时，一个看似需要过量信息处理的系统，实际上可能允许用较少的信息完成其研究。（根本原因在于，如果一个量按 an 指数增长，可以分 k 个阶段处理，分支数就会按 ak 的量级下降。当n 很大时，k 对指数的分割作用远比其作为乘数的作用强大。）"分而治之"的方法如此普遍且强大，因此很值得尝试发展所有那些不会破坏可约性的操作。当我们知道这套操作时，其中的操作将形成一种微积分，类似于线性系统的微积分——使我们在集合内可以随心所欲，而无需担心将问题转化为在极限下无法求解的问题。朝这个方向的开创性工作是通过"柱度"（cylindrance）的公式化（Ashby, 1966）实现的，它衡量任意 n 个变量之间的关系可以在多大程度上被视作由子关系构成，每个子关系只涉及变量的某个子集。它自然地处理了关系由 k 个完全独立的子关系组成的相当明显的情况，但也处理了更有趣的情况：整个关系在实际上仍然连接的同时，具有某种 k 重划分的简单性。（一个基本例子是一个国家的电话通信：尽管所有用户在潜在上都可以相互连接，但实际上几乎所有的通信都是成对进行的。）

约1070 比特的极限意味着我们永远无法研究超过约270个变量之间的完全一般性关系；270个二元变量就提供了这个数量。由于柱度（一种内在复杂度的度量）不可能超过变量数，这一极限意味着我们永远无法研究其内在复杂度（如果用柱度衡量）超过270的完全一般性关系。

因此，如果我们打算研究一个系统（比如一个活脑），其中的关系不具有超过270的柱度，我们就有一个潜在可研究的系统。但如果我们不明智地提出问题或执行操作，将柱度提高到这个数字以上，每一种研究方法都会使它变得不可研究。现在已经知道，柱度在交集操作下是安全的（当关系被视为积空间的子集时），但在并集操作下很容易升高。

这项工作仍在进行中，但它已经表明可能存在特别适合研究复杂系统的方法，其使用看似将我们引向一种令人尴尬的处境：我们发现，正是我们自己的方法将一个潜在可研究的系统变成了一个在极限下现在本质上不可研究的系统。

结论

物质构成的东西每秒每克传输或处理信息的速度不能超过1048 比特，这一点看似实际意义不大。事实上，许多为具有人工智能的机器提出的过程所需的信息传输远远超出这一极限。文中给出的例子表明，大规模的组合丰富性过程极容易触及这一极限。

不仅我们的机器受到如此限制，科学家的大脑（由物质构成）也受到同样限制。因此，我们的个人知识、哲学和科学也在同等程度上受到限制。

文中讨论了其在科学中的一些后果。如果我们的科学要具有现实性，我们的理论必须被构建成使这一极限成为其组成部分。文中就如何实现这种整合提出了一种建议。

参考文献

【1】ASHBY W R. Constraint analysis of many-dimensional relations[M]//WIENER N, SCHADE J P. Progress in biocybernetics. Amsterdam: Elsevier Publishing Co., 1965: 10-18.

【2】BREMERMANN HJ. Optimization through evolution and recombination[C] //YOVITS M C, et al. Self-organizing systems 1962. Washington, D.C.: Spartan Books, 1962: 93-106.

【3】BREMERMANN H J. Quantum noise and information[C]//Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability. Berkeley: University of California Press, 1965.

【4】MINSKY M L. Steps towards artificial intelligence[C]//FEIGENBAUM E A, FELDMAN J. Computers and thought. New York: McGraw-Hill Book Co., 1963: 406-450.

来源：宋胖说事儿

链接：https://mp.weixin.qq.com/s/KdhRATVezokr9AEGvqOZSQ

编辑：赵牧云

刘海明 发表于 2026-3-24 18:30:46

【案例】

智能的机制——阿什比论文集（28）

我们现在翻译的《系统中的信息流》这一专题。今天翻译该专题的第四篇文章《论系统内部信息交换的测量》第四部分。

论系统内部信息交换的测量

作者：W. Ross Ashby（英国），

伊利诺伊大学厄巴纳分校教授（美国）

动态系统

必须认识到，尽管前文中的例子经常涉及动态系统——即在时间中主动变化的系统，如舰队、神经系统、社会——但信息论及其定理与实时并无直接或自然的关联：该理论的使用者完全可以自由决定他的变量如何关联（如果有关联的话）到实时中的事件。尽管该理论最初应用于实时事件（消息从发送者发出，经过一段时间后在接收者处到达），但其思想仅基于事件的配对或对应关系，我们可以自由选择适合特定目的的对应关系。例如，传输量被定义为

H(X)+H(Y)−H(X,Y)

但它完全不关心事件 X 和 Y 彼此发生在何时。

引入实时的一个明显方法就是让其中一个变量（比如 X）成为实时（时钟读数）；但这种方法从根本上来说不适合作为信息来源：秒表在最初两下滴答之后发出的每一个信号都是完全冗余的！一个更有前景的方法似乎如下所述。

对真实动态系统的持续观测，首先会得到一份原始记录，记载各变量在不同时间所取的值。因此，若变量为X1,X2,…,Xn ，且观测到的系统用下标表示时间，则该记录将为每个符号赋予实际值：

file:///C:/Users/HP/AppData/Local/Temp/ksohtml5316/wps45.jpg

最重要的情况发生在系统是状态决定的时候，即当n 元组xt+1 无论j 取何值都是同一函数f 时。该记录 Then 可以用单一函数 f 等价表示为：

xt+1=f(xt), 或 x′=f(x)

当这种情况成立时，一组重要的新变量（共2n 个）

⟨x1,x2,…xn,x1′,x2′,…xn′⟩

即表示状态转移，也就是实时行为——新系统（由 2n 个变量组成）的一个状态对应于旧系统的一次转移。

在这2n 个新变量之间，所有各种熵、传输量和交互作用的度量都可以像对任何其他变量集一样精确计算，但现在可以通过它们与实时的关系来解释。因此，T[Xi:Xi′] 度量了Xi 的取值在多大程度上依赖于其紧邻的前一个值。

同样，T[Xi:Xj] 度量了与我们朴素的"因果关系"概念非常接近的东西，因为它度量了Xi 的后来值在多大程度上依赖于Xj 的先前值。如果在X1…Xn 全部保持不变（除了Xi ）时也发现这两个变量之间存在传输量，则这个新数值度量了Xj 对Xi 的直接影响程度。

如果研究更大的集合，像T(Xit:Xjt+s) 这样的传输量将度量变量Xi 在s 步之后显示出其先前值影响的多少。因此，该度量抓住了Xi "记忆"概念中的某些本质内容。这种方法因此用完全统一的概念和方法来处理跨越空间间隙（在n 个变量中的两个之间）和跨越时间间隙（"记忆"效应）的通信。

这一课题还有待广泛发展，但有充分的理由相信这些度量可能为深入理解诸如大脑、细胞生物化学和现代社会经济等系统提供一种方法。读者会注意到大部分计算工作相当常规，因此非常适合委托给现代计算机来完成。

采样变异

显然，只有在事先掌握了关于随机采样的变幻莫测可能导致何种结果的相关知识时，才能将这些方法应用于实际数据。这一课题已由 MILLER [6] 讨论过。

结论

信息论始于研究两个变量——发送者与接收者——之间的关系，但它可以很容易地推广到研究任意数量变量之间的关系。这种推广对于研究大型计算机各部分之间、大脑各细胞之间，或大型社会各成员之间的全部内部信息交换将是有用的。

本文概述了该方法，并给出了一些基本方程。当系统由大部分相似的部件组成时，平均值变得适用并具有特殊性质，其中一些已被列成表格。

该方法的一个特别吸引人的特点是，它能够轻易地将系统中简单的部分与本质上复杂的部分分离开来。因此，如果系统内隐藏着简单性，该方法提供了一种发现它们的可能途径。

参考文献

[1] BREMMERMANN, H. J. Optimisation through evolution and re-combination. In Self-organizing systems. Eds. M. C. Yovits, G. T. Jacobi and G. D. Goldstein, Spartan Books, Washington, 1962, pp. 93-106.

[2] McGILL, W. J. Multivariate information transmission. Psychometrika, 19, 97-116, 1954.

[3] SHANNON, C. E. and WEAVER, W. The mathematical theory of communication. University of Illinois Press, Urbana, Illinois, 1949.

[4] GARNER, W. R. An information analysis of absolute judgements of loudness and dissonance. Psychometrika, 21, 219-228, 1956.

[5] MILLER, G. A. On the bias of information estimates. In Information theory in psychology. Editor H. Quastler, The Free Press, Glencoe, Illinois, 1955.

来源：宋胖说事儿

链接：https://mp.weixin.qq.com/s/Q_5_TKMumFpXhVfkOm1ByQ

编辑: 赵牧云

刘海明 发表于 2026-3-19 21:03:54

智能的机制——阿什比论文集（25）

[color=rgba(0, 0, 0, 0.9)]大家好，接着由我来为大家翻译控制论先驱阿什比的论文集《智能的机制》。全书共有8个专题40多篇论文，基本把阿什比（除了名著《大脑设计》《控制论导论》之外）主要代表作都囊括了。除了个别零散论文（比如《智力放大器设计》）外，大多没有被翻译为中文。我想尝试翻译出来，与群友共享。也许在今天AI浪潮几乎让人疯狂的背景下，聆听一下这位控制论先驱对智能的思考对我们有帮助，能让我们冷静下来，对AI如实观照。

[color=rgba(0, 0, 0, 0.9)]我们现在翻译的《系统中的信息流》这一专题。今天翻译该专题的第四篇文章《论系统内部信息交换的测量》第一部分。

论系统内部信息交换的测量

作者：W. Ross Ashby（英国），

伊利诺伊大学厄巴纳分校教授（美国）

如果说过去十年的控制论研究证明了什么，那就是真正的大型系统——活体大脑、现实社会、大型计算机系统、细胞内的生化过程、神经网络——都具有极其庞大的复杂性。科学家可用于研究和控制这些系统的资源相对有限，因此必须进行简化。他必须一次只关注某一个方面，暂时忽略所有其他方面。

这一论点的说服力最近已变得势不可挡。当需要处理大量信息时，人们过去常常认为，只要再增加一点复杂性、采用新的原子机械装置，或者将计算机规模扩大一倍左右，就万事大吉了。然而，布里渊（BRILLOUIN）[1] 现已证明：任何由我们今日所知的物质构成的系统，只要受制于质能关系和海森堡不确定性原理，其处理能力就不可能超过每秒每克 10^27 比特。即便动用成吨的计算机、耗费数个世纪的时间，也只能在这一极限上增加几乎可以忽略不计的几个单位。例如，假设一台机器有一万个双态继电器——那么只要想到要搜索其所有构型，就立刻需要至少进行 2^10000，即 10^3000 次运算。这个数字在物理上是不可能的，相差了近 3000 个数量级。因此，控制论当今迫切需要能够提供我们实际所能获得之物的方法——提供我们真正想要的东西，而非我们自以为想要的东西。寻找简化方法，正是当今控制论问题的核心。

其中一个方法就是从信息的角度来研究系统。本文旨在说明如何以数学的、科学的且可操作的方式来处理这一角度。信息论最初研究的是两个变量：发送者状态和接收者状态。麦吉尔（McGILL）[2] 研究了三到四个变量之间的信息关系，并指出这些关系如何推广到 n 个变量。在此，我想探讨 n 个变量之间的关系，特别是当 n 非常大的时候——比如说，达到人脑细胞数量级的规模，约 10^10 个。

推动本文的基本思想可以通过一个实际例子最直观地理解。假设一支舰队配备了所有现代化的通信设备，但在即将启航参战之际，发现整套设备中使用的一个关键部件存在缺陷，结果舰队只能依靠五十盏老式的手提信号灯在舰船之间进行通信。显然，舰队司令可以将这五十名信号兵以不同方式分配到各舰，而且舰队的整体机动可能并非完全不可能——然而，这种通信能力的匮乏必然会在舰队的机动方式上留下某种特征，因为司令从一开始就会意识到，敌方司令很可能会说："这支舰队的机动方式强烈向我暗示，其内部通信严重不足。"

带着这一思路，我想探讨如何测量系统内部信息交换的总量，特别是在动态系统（如舰队或大脑）中的测量。我们可以将这个量称为信息"流"的总"周转量"或"流量"。在这一点上提出要求，很容易只会导致一堆毫无明确意义的空话；我们需要一个术语来确保我们发展的思想具有完全清晰且可操作的基础。

什么是"信息论"？

在我看来，R. B. Banerji 博士 [3] 的建议是正确的——信息论本质上就是计数，仅仅是组合数学的一个分支。当一个人说："你只有八个信号，不可能从那颗卫星上获得十种机动动作"，他正是在运用信息论的精髓——他在计算不同原因的数量、不同效果的数量，并比较这些数字。香农 [4] 所展示的技艺，并不在于哲学（或某种新的神秘主义），而在于他展示了如何将这种计数嵌入到那些足以难倒银行出纳员计数方法的情形中——在那些情况下，原因是连续的（以波形形式存在），相关原因与无关原因（"噪声"）混杂在一起，等等。因此，如果我们研究系统内部的"信息交换"，我们实际上是在研究系统内的多样性——以及系统内部的运行机制。plogp 函数之所以进入讨论，仅仅是因为，正如香农所展示的，这个函数，且唯有这个函数，能够给出与等效原因数量保持成比例的数值。

来源：宋胖说事儿

链接：https://mp.weixin.qq.com/s/snMwhGpjfvYkLHD959hHbQ

编辑：金语垚

帐号		自动登录	找回密码
密码			实名注册

阿什比论文集集锦

正文摘要:

回复