阿什比论文集集锦

刘海明 · 发表于 2026-3-10 19:36:07

智能的机制——阿什比论文集（21）

[color=rgba(0, 0, 0, 0.9)]大家好，接着由我来为大家翻译控制论先驱阿什比的论文集《智能的机制》。全书共有8个专题40多篇论文，基本把阿什比（除了名著《大脑设计》《控制论导论》之外）主要代表作都囊括了。除了个别零散论文（比如《智力放大器设计》）外，大多没有被翻译为中文。我想尝试翻译出来，与群友共享。也许在今天AI浪潮几乎让人疯狂的背景下，聆听一下这位控制论先驱对智能的思考对我们有帮助，能让我们冷静下来，对AI如实观照。

[color=rgba(0, 0, 0, 0.9)]我们现在翻译的《系统中的信息流》这一专题。今天翻译该专题的第二篇文章《协调系统中的信息流》的第二部分。

协调系统中的信息流*W. 罗斯·阿什比美国伊利诺伊大学，伊利诺伊州厄巴纳3.1走钢丝者作为例子，让我们考虑走钢丝者所展示的那种经典协调类型。焦点条件（Sommerhoff，1950）显然是他的四肢必须始终处于这样的位置：它们的重心位于钢丝正上方。（为了保持例子简单，这里我忽略了诸如角动量之类的复杂因素。）不熟练的人也许能够像专家一样让他的四肢活动同样大的范围，但不熟练的人会使用那些专家会避免的位置组合，比如所有四肢都偏向左侧。因此，不熟练者与专家之间的对比可以通过这样一个事实来表明：专家将其动作限制在那些解剖学上可能的动作中的一个特定子集内。当然，这个建议并不仅仅来源于走钢丝。正如Sommerhoff（1950）在生物学例子中广泛展示的那样，也正如Ashby（1967）用集合论和二进制关系术语所表明的那样，将"协调"识别为"在n维频率表中偏离统计独立性"既是广泛的也是严格的。给定任何明确定义的n个变量之间的协调，就意味着在n维空间中的事件上存在一个频率分布，对此可以应用香农型的信息度量。现在通过例子继续会更简单。为了避免无穷小量，假设四肢中的每一个都可以去到位于中央平面距离-2、-1、0、+1、+2的五个位置之一。因此，如果四肢L₁、L₂、L₃、L₄分别位于-1、+2、-1、+1，平均值就是+0.25，它们的重心就偏离了中央平面。（如果我们允许两个或更多肢体位于同一距离，那么就有5⁴种可能的分布（姿势），其中只有子集会被专家使用。很容易验证，在这625种姿势中，有85种具有协调姿势的零平均值（在对称分布的6种类型中有61种，如00400、01210等；在不对称的10120及其镜像中各有12种）。为了获得必要的频率（或在除以总数后的概率），我们可以基于两种假设中的任一种进行（事实上，这两种假设会导致相同的数值结果）。一种方法是假设不熟练者的625种姿势和专家的85种姿势实际上都是等概率的，这是一个非常任意的假设，当我们考虑真实的人时很可能是错误的。另一种方法是考虑必须提供传输设施的情况，并问：假设最坏的情况发生——在没有传输的情况下所有625种姿势都出现了，而专家（由于其他原因）可能被迫产生全部85种：为了保险起见，我们必须提供的最小传输设施量是多少？这第二种问题形式似乎没有异议（不像第一种），所以我将把它作为要提出的问题。在假设频率相等（或除以85后的概率）的情况下，我们现在可以找到基本熵。这些以通常的方式定义：

然而，由于我们将在这里使用频率，如果频率是n1,n2,…,nr,… ，总和为n ，那么算术上更方便的方法是求H(X) 为：

（当ni都是整数时，可以避免大量的插值。）

在一般情况下，这些熵将通过任何适当的方法找到。在这个例子中，我们很快可以发现L₁在协调姿势中具有以下频率分布。

因此，H(L1)=2.315 比特/姿势。根据对称性，H(L2) 等也具有该数值。

⟨L1,L2⟩ 在其25个可能取值上具有以下分布。

因此，H(L1,L2)=4.544比特/姿势。⟨L1L2L3⟩的全部85个取值都是不同的，所以H(L1L2L3)=log85=6.409。类似地，H(L1L2L3L4)=6.409比特/姿势。如果一种姿势在（比如说）0.5秒的时间跨度内是显著的，那么这些数值的两倍就会给出以比特每秒为单位的熵。

来源：宋胖说事儿

原文链接：https://mp.weixin.qq.com/s/aptdECQptlUU97gX6K03OQ

编辑：马丽萍

刘海明 · 发表于 2026-3-11 20:14:05

智能的机制——阿什比论文集（22）

[color=rgba(0, 0, 0, 0.9)]大家好，接着由我来为大家翻译控制论先驱阿什比的论文集《智能的机制》。全书共有8个专题40多篇论文，基本把阿什比（除了名著《大脑设计》《控制论导论》之外）主要代表作都囊括了。除了个别零散论文（比如《智力放大器设计》）外，大多没有被翻译为中文。我想尝试翻译出来，与群友共享。也许在今天AI浪潮几乎让人疯狂的背景下，聆听一下这位控制论先驱对智能的思考对我们有帮助，能让我们冷静下来，对AI如实观照。

[color=rgba(0, 0, 0, 0.9)]我们现在翻译的《系统中的信息流》这一专题。今天翻译该专题的第二篇文章《协调系统中的信息流》的第三部分。

协调系统中的信息流*W. 罗斯·阿什比美国伊利诺伊大学，伊利诺伊州厄巴纳

3.2信息流的划分

进一步的分析使用麦吉尔（McGill，1954）引入并由加纳（Garner，1962）和阿什比（Ashby，1965，1969）发展的方法。现在所需的最重要的量是总传输量，其表示和定义为：

它度量了由协调所隐含的、偏离统计独立性的总量（给定边缘分布）。这里其数值为2.850比特/姿势。其重要性在于，如果内部传输总量少于这个数值，协调就无法得到保证。值得注意的是，所需的总传输量并不是明显的log2625−log285(=2.878) ，而是比它小0.028的量。原因是，较大的那个量只有在每个变量Li 均匀分布在五个取值上时才会适用。事实上，（在协调情况下）分布并不均匀。因此，如果将变量的分布从17, 17, 17, 17, 17改为15, 18, 19, 18, 15，这一改变将使四变量联合分布更接近协调形式，而无需在变量之间使用任何传输。因此，代数分析和数值分析已经揭示了一种节约和提升效率的可能性，否则这一点可能会被忽视。（在这个例子中，收益微不足道；但在其他情况下，它可能具有重大意义。）
所需的总传输量可以通过累加各种分量来获得。一种可能的方法是利用T(L1

2

3

4) 恒等于以下事实：

如果总协调是通过以下机制或通道实现的，这种划分将是适当的：(1) 实现L1 和L2 之间（比如说手臂之间）的适当协调，而不考虑腿的位置；(2) 实现腿之间的协调，而不考虑手臂；(3) 以不依赖于手臂之间关系细节的方式协调手臂和腿（例如，如果手臂对的重心在+0.5，那么腿对的重心必须在-0.5）。这三个量分别为0.086、0.086和2.678，总和当然为2.850。

这些数字可能有各种用途。因此，假设只有2比特的通道可用。为了获得2.678的传输量，与其使用两个这样的通道，我们可以尝试另一种分配传输的方式。

另一种方式用以下划分（总量）来表示：

如果协调是通过以下步骤实现的，这种划分将是适当的：首先，L1 和L2 之间存在一个约束；其次，这一约束的结果（向量⟨L1L2⟩ ）作用于约束L3 ；然后，由此产生的⟨L1L2L3⟩作用于约束L4 。

所需的量分别为0.086、0.449和2.315——最后一个量仍然过高。然而，我们还有，这最后一个量可以进一步划分：

来源：宋胖说事儿

原文链接：https://mp.weixin.qq.com/s/q3yzD28apMZCcIQScnux0w

编辑：马丽萍

、

刘海明 · 发表于 2026-3-12 15:33:11

智能的机制——阿什比论文集（23）

[color=rgba(0, 0, 0, 0.9)]大家好，接着由我来为大家翻译控制论先驱阿什比的论文集《智能的机制》。全书共有8个专题40多篇论文，基本把阿什比（除了名著《大脑设计》《控制论导论》之外）主要代表作都囊括了。除了个别零散论文（比如《智力放大器设计》）外，大多没有被翻译为中文。我想尝试翻译出来，与群友共享。也许在今天AI浪潮几乎让人疯狂的背景下，聆听一下这位控制论先驱对智能的思考对我们有帮助，能让我们冷静下来，对AI如实观照。

[color=rgba(0, 0, 0, 0.9)]我们现在翻译的《系统中的信息流》这一专题。今天翻译该专题的第二篇文章《协调系统中的信息流》的最后部分。

协调系统中的信息流*W. 罗斯·阿什比美国伊利诺伊大学，伊利诺伊州厄巴纳3.3记忆在上述协调中，假设变量同时指定了四肢的位置。完全相同的逻辑和代数方法也适用于协调随时间发生的情况：当较后的事件必须与较早的事件协调时。H(X,Y) 可能是两个遥远事件同时发生的熵，但同样可能的是，X 和Y 只在时间上分离，因此可以说X=Z(t) ，Y=Z(t+k) 。现在，如果系统要协调X 和Y ，它必须在时间跨度k 上以某种形式拥有"记忆"。一个例子将展示这种方法及其某些可能性。同样，由于缺乏现有的真实数据，它是人为的。让我们假设三辆无人飞行器将降落在某个行星上，该行星有五个感兴趣的地方。要求这三辆飞行器：(1) 在某个时间前往五个地方中的某三个（没有两辆飞行器去同一个地方）；(2) 在另一个时间，全部三辆在一个它们单独访问过的其他地方会合。（事件(1)和(2)可以按任一顺序发生。）并且要求协调对记忆的需求必须最小。计算是直接的。我们为最坏情况做准备，其中所有事件和分布都是等概率的。设五个地方为{1,2,3,4,5} ，三辆飞行器为{A,B,C} 。设A,B,C 表示它们在第一次实时中的位置（无论实现事件1还是2），A′,B′,C′ 表示它们在较后一次的位置。因此，如果向量A,B,C,A′,B′,C′ 的值为(4,4,4,5,5,2,1) 或(2,5,3,1,1,1) 以及其他类似组合，它就显示了所定义的协调。在"协调"情况下，基本熵很容易找到。（1）A 的5个取值都以频率48出现，因此H(A)=log25=2.322 。H(B),…,H(C′) 同理。(2) AA′ 的20个允许值都以频率12出现，因此H(A,A′)=4.322 ；H(B,B′) 和H(C,C′) 同理。(3) 对于ABC ，5个值（事件1）每个以频率24出现，60个值（事件2）每个出现两次。因此H(A,B,C)=5.114=H(A′,B′,C′) 。(4) ABCA′B′C′ 的240个允许值每个出现一次；因此H(A,B,C,A′,B′,C′)=7.907 。单位是比特每双重事件。组织该系统的一种明显方式是在两个时间的每个事件内进行协调，并且也在两个时间之间进行协调。两种飞行器分布所需的总传输量为6.625比特，分析如下：

实现协调的另一种组织方式，是考虑每辆飞行器所采取的"轨迹"（或转移），例如A 可能从4→5 ，B 从4→2 ，C 从4→1 ，然后协调这些轨迹。这将需要以下量：

T(A:A′) 这一术语表示只影响飞行器A 的"记忆"，而不考虑其他飞行器做什么；B 和C 同理。引人注目的是，这种类型的三个"记忆"只需要0.966比特，相比之下，单一的、更明显的第一种类型需要2.322比特。因此，这种方法使得可以检验各种"记忆"的功能形式的各种特性。

当然，人们还必须考虑用于实现转移之间协调的物理方法，T(AA′:BB′:CC′) 。我们只需注意到，这些数值分析仅涉及偏离统计独立性的量，而不涉及任何原因或物理起因。因此，任何这里称为"传输"的量T ，不一定需要工程师的通信通道：对共同信号的适当配对响应很可能提供这些恒等式所要求的形式上的"传输"。

编码问题依然存在，但如果我已经表明协调与整合的基本概念是可以测量的，并且这些测量可能给出比简单直觉所能获得的更深入的系统信息，我就心满意足了。

参考文献

[1]Ashby, W.R. (1965). "Measuring the internal informational exchange in a system". Cybernetica, 8, 5-22.

[2]Ashby, W.R. (1967). "The set theory of mechanism and homeostasis". In Automaton Theory and Learning Systems (Ed. D.J. Stewart). Academic Press, London. pp.23-51.

[3]Ashby, W.R. (1969). "Two tables of identities". Bull. Am. Soc. Cybernetics.

来源：宋胖说事儿

原文链接：https://mp.weixin.qq.com/s/s1snYzNY7MryTGq0exJeuQ

编辑：马丽萍

刘海明 · 发表于 2026-3-13 17:38:11

智能的机制——阿什比论文集（24）

[color=rgba(0, 0, 0, 0.9)]大家好，接着由我来为大家翻译控制论先驱阿什比的论文集《智能的机制》。全书共有8个专题40多篇论文，基本把阿什比（除了名著《大脑设计》《控制论导论》之外）主要代表作都囊括了。除了个别零散论文（比如《智力放大器设计》）外，大多没有被翻译为中文。我想尝试翻译出来，与群友共享。也许在今天AI浪潮几乎让人疯狂的背景下，聆听一下这位控制论先驱对智能的思考对我们有帮助，能让我们冷静下来，对AI如实观照。

[color=rgba(0, 0, 0, 0.9)]我们现在翻译的《系统中的信息流》这一专题。今天翻译该专题的第三篇文章《日常生活中人类的信息处理》的第一部分。

日常生活中的人类信息处理*W. Ross Ashby（罗斯·阿什比）作者系伊利诺伊大学厄巴纳分校电气工程系教授。迄今为止，人类的信息处理能力主要是通过测定其在某些高度专业化任务（如弹钢琴或语音速记）中的极限容量来测试的。据我们所知，其在日常生活中的信息传输量尚未被估算。然而，这一数量可能是研究其高级心理生理学的基础。因此，我们尝试对此进行评估。

我们很快发现，虽然获得数值估计是容易的，但这些估计的差异如此之大——相差百万倍甚至更多——以至于清楚地表明，真正的问题不是获得数字，而是获得数字之前的那些决策。在本文中，我们报告并仅限于讨论我们现在认为的关键要点。信息处理要发挥作用，必须基于某种最小量的考量，这种考量必须发生在某件日常活动成功完成之前。因此，如果一个人要行走哪怕一步，其髋部、膝部和踝部的各种运动（及其附属运动）必须协调一致；也就是说，各种运动不能以统计独立的方式发生。成功的行走意味着与独立性存在重大偏差，而这种偏差可以用香农（1949）和麦吉尔（1954）的"传输"测量方法来测量。每秒比特数的"传输"并不意味着必须从髋部的感觉末梢向膝部的控制肌肉发送 *a* 比特；但它确实意味着，如果整个协调活动要由正常的因果过程产生，则每秒至少 *b* 比特必须以某种适当的方式在系统中的某个地方传输。为了使这一基本概念完全清楚，让我们考虑以下一个简单的协调例子（不完全来自日常生活）：一位钢琴家在演奏一段乐曲时，弹奏音符A、B、C、D、E、F，但只是为了产生三度音程的和弦。如果我们建立一个频率表，显示两个手指（X和Y）敲击各种配对的频率，结果如表1中带星号的单元格所示。

如果最单调的频率均等出现，在最严格的情况下，Y的熵（= Σ Pᵢ log₂ᵢ）将是概率⅙、⅙、⅙、⅙、⅙、⅙的熵，因此为2.5比特。H(X)具有相同的数值。H(X:Y)在两组频率下为3.0比特。配对限制所隐含的传输量则为2.5+2.5−3.0，即每和弦2.0比特。同样，两个变量之间的任何其他限制或条件都意味着这些变量之间存在最小量的传输。应当注意，问"一个人最少能传输多少？"与问"实现给定协调所需的最小传输量是多少"绝不是一回事。后者可以类比于一个人（发送者）必须发送的最小词汇量才能转动钥匙、开门等。后一数量在任何能量问题中都是基本的：我们的数量在任何协调问题中具有类似的地位。

设变量X，比如说，实现给定协调所需的总传输量将由T(X,x : X₂, x₂, ...) = H(X,x) − H(X,x | X₂, x₂, ...)给出。[McGill, 1954; Ashby, 1965.]

带着这些概念，我们将以下定义的动作作为研究基础，并作为"日常生活"中 reasonably 典型的片段。

（人类主体在阅读时遇到一个不熟悉的法文单词。

变体：他穿过房间走向书架（避开路径上的一把椅子），在100本其他书中找到他的法文字典，找到该词，将其翻译成正确的英文单词。

如今，"信息"只有在定义于某个样本空间上时[香农，或者等价地说，当可能性的多重性至关重要时，才具有意义。因此，如果我们认为这个动作是由特定宇宙状态下特定房间中的特定人完成的，那么它没有多重性，任何关于其信息属性的问题都是不恰当的。为了使这个事件与 variety 的传输产生某种关联，我们必须将其扩展为一组动作。在我们看来，这种扩展是发展逻辑上可辩护的方法的关键和必要步骤，并且可以通过考虑概率测量中的一个相关问题而使其更加合理。假设我们观察一所房子的门，观察到在中午12点前最后一个穿过门口的人是男性这一独特事实。（这是"特定事件"。）那么可能会提出这样的问题：这个事件的概率是多少？

这个问题需要一个样本空间：尚未定义。如果要深究概率问题，就必须提供一个样本空间。显然，具有概率的特定事件将被提供。我们可以将事件扩展为包括整天所有 hours 穿过门口的那些人；或者，将时间保持在中午，我们可以将其扩展为包括街上商店的门；还有许多其他扩展是可能的。显然，选择哪种扩展必须取决于其他标准，取决于最初提出这个问题的原因。

在这里我们只需要注意到，就这个例子而言，必须选择某个样本空间。

在我们看来，以下对独特动作的扩展相当符合我们将研究限定于'日常生活'的原则：

1）即使主体试图立即重复其动作时也会发生的变体。 a）由于肌肉运动不准确导致的变体，如同任何行走中的情况。 b）主体查找单词时字典翻开在哪一页。

2）如果在其他日子采取类似动作可能不会发生的变体。 a）所查找的特定法文单词。 b）障碍椅子的位置。 c）字典在其他100本书中的位置。 d）椅子相对于其他100本书的位置。 3）并非非常本质的。

上述不在(1)、(2)或(3)中的所有变量：特别是： a）房间的建筑特征。 b）主体在房间中的初始位置。 c）法文字典。 d）其他100本书。 e）主体本人、他的过去经验和记忆。

随着动作集合被很好地定义，我们现在可以获得关于变量之间必要传输量的良好定义估计，以实现协调和成功的动作。（由于普通成年人每天进行许多这样的动作，我们可以确定普通成年人确实至少传输了那个数量；如果他传输得更多，那他就是在测量他的低效率。）

这种观点及其逻辑，如果接受以下命题作为公理，或许可以更加清楚：一旦样本空间或集合（在其上计算传输量）被定义，无论主体是智能人类还是设计为以完全相同方式执行动作的机器人，传输量的计算都以完全相同的方式进行，并且必须得出相同的数字。通过这一公理的方法可能大大减少人们对必要传输量的初始直观估计。特别是，它将神经机制的庞大质量从我们的考虑中移除，因为这些活动既不在定义的动作集合中被描述，也不在其中变化。（如果读者倾向于将神经变体引入这九个连续成分中，他的估计将与我们的不同：然而，方法将是相同的。本质上，他将在回答一个不同的问题。）

我们接下来自然而然要研究的问题是关于九个相继的成分，它们足够独立，其传输量可以通过简单相加来复合。这九个成分在表2中给出，附带我们对连续成分传输量的估计（细节在附录中给出）。虽然可以进行许多修改，但我们的经验表明，这种修改不太可能使估计值改变超过约2倍。我们满足于以后可以做出更好的估计；在本文中，我们的重点本质上是方法的逻辑。

表2

序号		动作描述	信息量
-1	双腿行走10步，同时保持正常直立姿势		30 比特
-2	为避开椅子而偏离行走路径		10 比特
-3	在100本其他书中找到该字典		7 比特
-4	伸手取字典、抓住它并将其从书架上取下		22 比特
-5	翻开书（书必须打开），确定翻开的位置与目标单词的关联		10 比特
-6	通过手指动作重复翻阅，直到翻到目标单词所在页面		39 比特
-7	阅读法文单词（以确认找到了正确的单词）		6 比特
-8	找到对应的英文单词（将其存入某个"中枢""大脑"存储区）		14 比特
-9	通过手指动作将存储的单词转换为书写文字		31 比特
总计			169 比特

讨论

对我们来说，最终结果最令人惊讶的特征是这个数字之小：大约一分钟的活动仅需169比特，或者说每秒3比特。然而，经过进一步考虑，我们得出结论，这一估算可能基本上是合理的，理由如下。

这个问题实际上是在问：如果建造一个机器人来执行上述特定动作，需要具备哪些信号辨别和纠正动作，必须提供多少传输量？答案与我们的估算不会相差太远，因为要么这台机器只是简单地模仿这个动作（表现得极其笨拙），要么它明显在浪费传输能力。然而，即使它（或人类执行者）的效率比实际需要高出1000倍，人们仍然想知道：比如说，为什么人类的视神经拥有大约50万根纤维，每秒至少能提供同等数量的比特。为什么感觉运动系统不能接受所有额外的信息呢？

一旦我们意识到以下两种系统之间的区别，就能找到一个可能的答案：一种是执行特定动作且"仅此而已"的机器人（或人），另一种是现实生活中的人——后者不仅能执行这个动作（称之为甲），还能执行大量的动作甲₂、甲₃、甲₄……即使在执行动作甲的过程中，正常人也能对其他变量的干扰做出反应：电话铃声响起、发现字典不见了、书架倒塌，以及我们上述"日常变体"列表中未提及的种种情况。这些活动需要一种"更高层次"的信息处理活动，其处理的是任何特定动作甲之外的信息。我们的估算表明，当一个动作正在进行时，这种"更高层次"的活动实际上要比用于更明显动作本身的传输量大得多。

说到这里，我们想起阿什比关于计算机的评论：计算机主要忙于执行组织活动，这些活动与直接计算无关，而是与"可能发生什么样的计算，以及在哪里发生"有关。当然，对这些高层次信息处理量的任何估算，都需要考虑本研究的样本总体。最后，这些估算严格依赖于所选择的样本空间（且这种选择是任意的），这一事实可能会令挑剔的读者感到不安；但如果允许这种缺陷存在，选择者可以在这里取值，在那里取值，可以取169比特，也可以取任何他喜欢的数值。那么，这种任意的估算是否具有任何科学价值或用途呢？

在此我们要指出，类似的情况也存在于"势能"概念中。比如说，一块砖的势能可以被赋予任意数值，要么是在它下面挖一个足够深的井（它可以落入其中），要么是拿一个足够冷的物体靠近它（它可以向该物体辐射热量），甚至可以是搬来一些反物质。然而，物理学中的势能概念显然绝非无用。在实践中，人们当然会选定一个参考水平面，这使得增量能量的计算让任意的总值变得无关紧要。此外，增量能量这一数值总是结合它作为我们所做工作的结果而出现的操作来讨论的。本文工作的目的正是要表明，生物系统中的"信息量"最好不要被视为一个绝对数值，而应结合它所积极参与的一系列特定操作来考虑。

附录估算

成分1。这为行走提供了一个最小类比模型：腿部位置有4种状态，每只手臂有4种状态用于保持平衡，并假设用7个位置的铅垂线表示躯干姿势，以此给出运动轨迹。左臂与右臂之间的传输量为4 log₂ 4，即8比特。双臂行走时：8比特。启动和停止时，生物体还需要让双臂各转动360度，因此需要额外的6比特。

成分2。如果他能在10英尺宽的范围内选择到约半英尺的精度（= log₂ 20，即4.3比特），并且能在30英尺的行进距离中选择到半英尺的精度以避开障碍物，则增加3.9比特。因此，避免碰撞所需的传输量不超过10.2比特。

成分3。从100个物体中选择一个，log₂ 100，即6.6比特。实践中可能需要更多，因为编码的困难可能会略微增加比特需求。但无论如何不需要超过100比特，因为这已经足够应对极低效的方法（即当字典和目标单词都未知时，逐个检查它们）。

成分4。为了到达特定位置，肩关节、肘关节和腕关节的角度分别约有32、16和8个位置。这三者并非完全独立，因此它们的传输量总和小于12比特之和。一旦手靠近书本，可能还需要食指弯钩勾住书本，然后中指关节发力握持，末端关节有2种状态（= 5比特），以及拇指的类似动作以获得可对掌的握力（即刚性拇指）。

成分5。由于书本被成分6打开时，大约是双页厚度，且目标法语单词位于翻开处之前或之后，这所需的传输量不超过约1比特。然而，使用如此少的传输量（识别它是字母表中的哪个字母），翻开动作需要log₂ 26，即4.7比特，而通过5次二分法到达目标则是最小值。

成分6。一本1024页（=2的10次方）的书需要10次二分。如果眼睛的视域约为页宽的五分之一，即一个区块的五分之一，则log₂ 5，即2.3比特，这虽不精确但足以作为估算。此外，每次二分后，决定操作左半部分还是右半部分需要1比特；两者共需3.3比特。十个这样的阶段加上这最后一次，在最后一页上，还必须从（比如说）50个单词中选择一个，进一步需要5.6比特。

成分7。检验字典中找到的单词是否与目标单词相同，所需的传输量不超过：首先判断首字母是否相同（1比特），如果需要进一步辨别，则随后每个后续字母各需1比特。因此，一个平均6个字母的单词基本上需要6比特。实验对象的技术可能达到这一最小值；但实际要求通常会略高一些。

成分8。要在皮层中获得与两万个单词中的某一个相对应的状态，需要传输log₂ 20,000，即14.3比特（熵值甲等于熵值乙等于log₂ 20,000）。

成分9。转录存储的单词，考虑到实验对象有书写整个字母的经验，每个字母所需的传输量小于log₂ 26比特（4.7比特），假设每10个字母中有1个错误（位置已知），因此每个字母的平均值为4.7加上1.1，共31比特。

致谢

本文的研究部分由空军第7-67号资助项目、空军系统工程组以及国家航空航天局赞助。

（参考文献）

1. **Ashby, W. Ross** (1965). "Measuring the internal informational exchange in a system". *Cybernetica*, 8: 5-22.

2. **McGill, W. J.** (1954). "Multivariate information transmission". *Psychometrika*, 19: 97-116.

3. **Shannon, C. E., and W. Weaver** (1949). *The Mathematical Theory of Communication*. University of Illinois Press, Urbana.

来源：宋胖说事儿

原文链接：https://mp.weixin.qq.com/s/DDA4CwEY85HzAcv02V21YA

编辑：马丽萍

刘海明 · 发表于 2026-3-19 21:03:54

智能的机制——阿什比论文集（25）

[color=rgba(0, 0, 0, 0.9)]大家好，接着由我来为大家翻译控制论先驱阿什比的论文集《智能的机制》。全书共有8个专题40多篇论文，基本把阿什比（除了名著《大脑设计》《控制论导论》之外）主要代表作都囊括了。除了个别零散论文（比如《智力放大器设计》）外，大多没有被翻译为中文。我想尝试翻译出来，与群友共享。也许在今天AI浪潮几乎让人疯狂的背景下，聆听一下这位控制论先驱对智能的思考对我们有帮助，能让我们冷静下来，对AI如实观照。

[color=rgba(0, 0, 0, 0.9)]我们现在翻译的《系统中的信息流》这一专题。今天翻译该专题的第四篇文章《论系统内部信息交换的测量》第一部分。

论系统内部信息交换的测量

作者：W. Ross Ashby（英国），

伊利诺伊大学厄巴纳分校教授（美国）

如果说过去十年的控制论研究证明了什么，那就是真正的大型系统——活体大脑、现实社会、大型计算机系统、细胞内的生化过程、神经网络——都具有极其庞大的复杂性。科学家可用于研究和控制这些系统的资源相对有限，因此必须进行简化。他必须一次只关注某一个方面，暂时忽略所有其他方面。

这一论点的说服力最近已变得势不可挡。当需要处理大量信息时，人们过去常常认为，只要再增加一点复杂性、采用新的原子机械装置，或者将计算机规模扩大一倍左右，就万事大吉了。然而，布里渊（BRILLOUIN）[1] 现已证明：任何由我们今日所知的物质构成的系统，只要受制于质能关系和海森堡不确定性原理，其处理能力就不可能超过每秒每克 10^27 比特。即便动用成吨的计算机、耗费数个世纪的时间，也只能在这一极限上增加几乎可以忽略不计的几个单位。例如，假设一台机器有一万个双态继电器——那么只要想到要搜索其所有构型，就立刻需要至少进行 2^10000，即 10^3000 次运算。这个数字在物理上是不可能的，相差了近 3000 个数量级。因此，控制论当今迫切需要能够提供我们实际所能获得之物的方法——提供我们真正想要的东西，而非我们自以为想要的东西。寻找简化方法，正是当今控制论问题的核心。

其中一个方法就是从信息的角度来研究系统。本文旨在说明如何以数学的、科学的且可操作的方式来处理这一角度。信息论最初研究的是两个变量：发送者状态和接收者状态。麦吉尔（McGILL）[2] 研究了三到四个变量之间的信息关系，并指出这些关系如何推广到 n 个变量。在此，我想探讨 n 个变量之间的关系，特别是当 n 非常大的时候——比如说，达到人脑细胞数量级的规模，约 10^10 个。

推动本文的基本思想可以通过一个实际例子最直观地理解。假设一支舰队配备了所有现代化的通信设备，但在即将启航参战之际，发现整套设备中使用的一个关键部件存在缺陷，结果舰队只能依靠五十盏老式的手提信号灯在舰船之间进行通信。显然，舰队司令可以将这五十名信号兵以不同方式分配到各舰，而且舰队的整体机动可能并非完全不可能——然而，这种通信能力的匮乏必然会在舰队的机动方式上留下某种特征，因为司令从一开始就会意识到，敌方司令很可能会说："这支舰队的机动方式强烈向我暗示，其内部通信严重不足。"

带着这一思路，我想探讨如何测量系统内部信息交换的总量，特别是在动态系统（如舰队或大脑）中的测量。我们可以将这个量称为信息"流"的总"周转量"或"流量"。在这一点上提出要求，很容易只会导致一堆毫无明确意义的空话；我们需要一个术语来确保我们发展的思想具有完全清晰且可操作的基础。

什么是"信息论"？

在我看来，R. B. Banerji 博士 [3] 的建议是正确的——信息论本质上就是计数，仅仅是组合数学的一个分支。当一个人说："你只有八个信号，不可能从那颗卫星上获得十种机动动作"，他正是在运用信息论的精髓——他在计算不同原因的数量、不同效果的数量，并比较这些数字。香农 [4] 所展示的技艺，并不在于哲学（或某种新的神秘主义），而在于他展示了如何将这种计数嵌入到那些足以难倒银行出纳员计数方法的情形中——在那些情况下，原因是连续的（以波形形式存在），相关原因与无关原因（"噪声"）混杂在一起，等等。因此，如果我们研究系统内部的"信息交换"，我们实际上是在研究系统内的多样性——以及系统内部的运行机制。plogp 函数之所以进入讨论，仅仅是因为，正如香农所展示的，这个函数，且唯有这个函数，能够给出与等效原因数量保持成比例的数值。

来源：宋胖说事儿

链接：https://mp.weixin.qq.com/s/snMwhGpjfvYkLHD959hHbQ

编辑：金语垚

刘海明 · 发表于 2026-3-19 21:10:49

智能的机制——阿什比论文集（26）

[color=rgba(0, 0, 0, 0.9)]大家好，接着由我来为大家翻译控制论先驱阿什比的论文集《智能的机制》。全书共有8个专题40多篇论文，基本把阿什比（除了名著《大脑设计》《控制论导论》之外）主要代表作都囊括了。除了个别零散论文（比如《智力放大器设计》）外，大多没有被翻译为中文。我想尝试翻译出来，与群友共享。也许在今天AI浪潮几乎让人疯狂的背景下，聆听一下这位控制论先驱对智能的思考对我们有帮助，能让我们冷静下来，对AI如实观照。

[color=rgba(0, 0, 0, 0.9)]我们现在翻译的《系统中的信息流》这一专题。今天翻译该专题的第四篇文章《论系统内部信息交换的测量》第二部分。

[color=rgba(0, 0, 0, 0.9)]论系统内部信息交换的测量

[color=rgba(0, 0, 0, 0.9)]作者：W. Ross Ashby（英国），

[color=rgba(0, 0, 0, 0.9)]伊利诺伊大学厄巴纳分校教授（美国）

推广到 n 个变量McGILL [2] 以及后来 GARNER [5] 所迈出的最初几步是自然的，在此阶段无需为其辩护。我将展示它们更为广泛的推论，并希望这些推论能够证明当初将其排除在外的合理性。读者将会领悟到，在其他发展中可能存在其他可取的推广形式。我假设我们面前有某个明确定义的变量集J —— A, B,... I... N —— 共有 n 个变量。（我通常用大写字母表示集合或变量，用小写字母表示元素或数值。）这n 个变量可以是，例如，指定舰队中舰船位置的n 个坐标，或一个国家n 个地点的气压，或电阻网络网格上n 个点的电位，1,2,…,n 。许多这样的状态将提供一个频率表，而在极限情况下则是概率。因此，我们从客观基础出发来计算熵，完全符合 SHANNON 的原始定义。于是，H(A) 表示在忽略所有其他变量时变量 A 的熵（散布、不确定性、多样性等）；熵将通过求和计算。H(A,B,C) 类似地表示三个变量集合{A,B,C} 的熵，以此类推。H(A,B,…,N) ，我们简记为H(J) ，是n 个状态整个集合的熵。对于每一个特定的保留，J−I 将用来表示去掉I 后的集合；类似地，J−[I,J] 表示同时去掉I 和J 的集合。下标将按 SHANNON 的方式使用：表示保持恒定的变量（或假设已知的变量，或熵为零的变量）。首先我们可以注意到，HJ−I(I) ，它可以表示为H(J)−H(J−I) ，度量的是当系统中所有其他变量保持恒定时，变量I 的变化量（在熵的尺度上）。这显然来自"因果"的观点：I 的变化中有多少不能分配给任何其他变量，因此必须分配给标记为"噪声"的残余。因此，它精确地度量了变量 I 的"内在噪声"。对于任何值得研究的系统，所有这些熵——对于 A,B,…,N 中的每一个——都必须足够小。当然，所有这些都可以直接从观测频率中测量出来。遵循 SHANNON 和 McGILL 的方法，我们定义任意两个变

量 I 和J 之间的"传输" T(I:J) 为：

这是简单忽略所有其他变量时的传输，即通过求和形成仅显示I 和J 值频率的双向表而丢失的信息。

这是变量L 与向量IJK 之间的传输，将IJK 视为一个变量（具有三个分量）来处理：

这种传输是所有变量之间的"总"传输。它或许是系统中最重要的量，因为它度量了系统所受的总约束（给定各个变量的熵）。因此，它度量了系统中存在的关系的总量——或者说，度量了系统中定律的总量。一旦系统产生了事实数据的主体，"总传输"就被计算出来，因为它度量了可以从这些数据中提取的定律的总量。因此，在发现定律（或诸定律）的具体细节之前，就有可能度量给定数据体包含多少定律。

I 和J 之间的直接传输

通常令人感兴趣，因为它度量了当所有其他变量保持恒定时I 和J 之间的传输。因此，它度量了它们之间的直接传输。（T(I:J) 可能包括由于I 和J 与其他共同变量之间的关系而产生的I 和J 之间的关系。）

"交互" Q 通过传输以及与较少变量的交互来定义：

在给出与这些量相关的一些方程后，将讨论它们的性质。

以下所有方程要么以前已经给出（由 SHANNON、McGILL 或 GARNER 给出），要么可以通过基本定义经初等代数运算轻易导出；或者，根据 McGILL 和 GARNER 的规则——如果一个方程成立，那么当其中每一项都加上相同的下标时它仍然成立——可以发展出大量方程：这里我只给出那些特别重要的方程。

第一组：

在这些求和中，本文将始终使用如下规则：求和仅对不同的形式进行；那些因对称性而必然相同的形式将被忽略和省略。因此，如果J={A,B,C} ，则ΣIT(I:J) 表示量

其中相同的项T(B:A) 、T(C:B) 和T(C:A) 被省略。

方程或展开式 (7) 至 (10) 都直接令人感兴趣。它们适用（与稍后给出的那些方程相比）于每个变量本质上具有个体特征的情况，因此个体的特性必须保持。它们都展示了整体的某种总量特征如何通过加法组合与部分相关的量而建立起来。因此，关于H(A,B,…,N) 的方程 (7) 展示了总熵如何与通过一次检查一个变量（按某种序列或自然顺序）而获得的熵相关联。因此，第一项贡献 H(A) 可以通过单独观测A 轻易获得，HA(B) 可以通过仅控制A 并仅观测B 获得。以此类推。

看待这种展开式的另一种方式是注意到量

是一个已知常数（实际上为零），因此该方程可以在某些分量容易测量而另一些难以测量或根本无法测量时使用。那么，通过该方程进行的简单测量将为估计那些可能保持不可测量的量提供一种方法。（物理学家和工程师正是以这种方式不断地使用能量守恒定律，用已知的能量来推导出缺失的、未知的能量。）

接下来的两个方程 (8) 和 (9) —— 与总传输相关 —— 展示了表征整个系统的这个量如何可以划分为常常令人感兴趣的量。因此，方程 (8) 展示了当两个变量 A 和B 占据主导地位，而其他变量归入某种自然序列C,D,…,N 时，它可以如何被分析。它将整个传输分析为A 和B 之间的传输，加上子系统AB 与变量C 之间的传输，再加上子系统ABC 与变量D 之间的传输，以此类推。

交互

方程 (9) 将总传输分解为与系统中不同复杂程度相关的部分。首先是 ΣT(I:J) ，即所有两变量"交互"的传输之和。接下来是所有三变量"交互"之和（本文前面已定义）。如果写出 n=3 时的方程，其意义就最清楚了：

在这里，交互Q 被明确识别为不能归因于任何成对变量的总传输部分。换句话说，它代表了仅可归因于三变量作为唯一三元组共同作用的传输量（约束、定律、熵）。（下面给出一个例子。）因此，它度量了系统（此处为三个变量）的不可约复杂性程度，即不能通过每次检查两个变量来处理的程度。反之，如果Q(A,B,C) 为零，这一事实立即告诉我们，该系统的定律可以逐片处理，每次处理两个变量，且总约束仅仅是每对变量之间约束的总和。

推广到更多变量现在很容易。Q(A,B,C,D) 度量了变量A,B,C 和D 作为原因彼此作用的复杂程度，这种作用不能归因于它们三个一组的交互。只能通过它们作为唯一四元组的共同作用来解释。

交互的数值和分布对于研究任何复杂系统都是基础性的，因此有必要进行一些进一步的讨论。作为第一个性质，我们可以注意到Q 是其参数的对称函数，即单纯重新排列括号内的字母不会改变数值，例如Q(C,B,D,A) 必然具有与涉及这四个变量的任何其他排列相同的数值，尽管代数上似乎只有一个交互，而方程 (5) 和 (6) 可能暗示相反的情况。对称性的简单证明可以通过用基本熵 H 表示Q(A,B,…,G) 来给出：

其中Σ(g-1) 表示从g 个变量A,B,…,G 中取 g-1 个变量的所有熵之和，以此类推。最后两个求和遍历相同的集合。由于已知（从 H 函数的对称性）H 函数是对称的，函数Q 显然也是对称的。在这方面，这些"交互"与 Fisher 的方差分析密切相关，McGill 和 Garner [5] 已经详细追溯了这种相似性。

在方程 (9) 中，系统提供的数字在很大程度上是对交互的度量：因此，这种"信息分析"实际上是在说：系统是极度复杂的，内部 richly connected（ richly connected 保留原文或译为" richly 连接"），必须被接受为复杂的。然而，系统有时被证明本质上是简单的：这一事实将反映在高阶交互的消失上。因此，所有研究大型系统、希望在其中找到一些不如看起来那么复杂的系统的人，都将对那些高阶交互全为零的系统特别感兴趣。关于这种情况能说些什么呢？这个课题值得广泛处理：这里我只引用几个精选的事实来指明趋势。

作为第一个例子，考虑这样一种情况：一百个家庭，每个家庭由父亲、母亲、儿子和女儿组成，正在一个度假村度假。400个变量将被明确定义：400个人在任何时候可能所在的400个地点。让我们假设儿子在某个可变点 x 的位置提供了关于 Mr. X 在哪里、以及他的儿子和女儿在哪里的信息。再假设不同家庭之间互不了解，且他们的行动完全独立。在这样一个400变量的系统中，在观察到许多"状态"并计算出熵、传输和交互后，我们发现以下事实：所有非零的交互（那些参数涉及同一家庭的交互），所有五个或更多变量的交互都为零。因此，尽管该"系统"有400个变量，但它实际上由100个独立的子系统组成（每个子系统有四个变量），这一事实将反映在所有五个或更多变量的交互 Q 都为零的事实上。

这一事实可以更精确地表达为以下定理，很容易证明，只要记住 X 和 Y 之间的"独立性"对应于定量关系：

H(X)+H(Y)−H(X,Y)=0

定理 1. 如果Q(A,B,…,G) 的参数集可以被划分为两个集合，使得其中一个集合的所有子集在概率上独立于另一个集合的所有子集，那么Q 必须为零。

定理 2. 如果变量集J （包含A,B,…,N ）满足如下条件：任何子集在不包含至少一个与其余部分完全独立的变量的情况下，其大小不能超过k 个变量，那么所有k+1 个或更多变量之间的交互都将为零。

上述例子以k=4 说明了这一定理。因此，真正由独立子系统组成的"系统"其高阶交互为零。借助这一事实，我们可以开始理解零交互与将表面上复杂的系统分解为更简单系统的可能性之间的关系。

然而，绝不能立即得出结论，认为高阶交互的消失就证明了系统必须由物理上独立的部分组成。一个反例就足以说明问题。考虑一个由三个变量组成的系统——A 、B 和C ，每个变量只取两个值0 和1 ——其八种状态出现的概率为

来源：宋胖说事儿

链接：https://mp.weixin.qq.com/s/BRHvefrdKV8_kwynn126kQ

编辑：金语垚

刘海明 · 发表于 2026-3-24 18:30:46

【案例】

智能的机制——阿什比论文集（28）

大家好，接着由我来为大家翻译控制论先驱阿什比的论文集《智能的机制》。全书共有8个专题40多篇论文，基本把阿什比（除了名著《大脑设计》《控制论导论》之外）主要代表作都囊括了。除了个别零散论文（比如《智力放大器设计》）外，大多没有被翻译为中文。我想尝试翻译出来，与群友共享。也许在今天AI浪潮几乎让人疯狂的背景下，聆听一下这位控制论先驱对智能的思考对我们有帮助，能让我们冷静下来，对AI如实观照。

我们现在翻译的《系统中的信息流》这一专题。今天翻译该专题的第四篇文章《论系统内部信息交换的测量》第四部分。

论系统内部信息交换的测量

作者：W. Ross Ashby（英国），

伊利诺伊大学厄巴纳分校教授（美国）

动态系统

必须认识到，尽管前文中的例子经常涉及动态系统——即在时间中主动变化的系统，如舰队、神经系统、社会——但信息论及其定理与实时并无直接或自然的关联：该理论的使用者完全可以自由决定他的变量如何关联（如果有关联的话）到实时中的事件。尽管该理论最初应用于实时事件（消息从发送者发出，经过一段时间后在接收者处到达），但其思想仅基于事件的配对或对应关系，我们可以自由选择适合特定目的的对应关系。例如，传输量被定义为

H(X)+H(Y)−H(X,Y)

但它完全不关心事件 X 和 Y 彼此发生在何时。

引入实时的一个明显方法就是让其中一个变量（比如 X）成为实时（时钟读数）；但这种方法从根本上来说不适合作为信息来源：秒表在最初两下滴答之后发出的每一个信号都是完全冗余的！一个更有前景的方法似乎如下所述。

对真实动态系统的持续观测，首先会得到一份原始记录，记载各变量在不同时间所取的值。因此，若变量为X1,X2,…,Xn ，且观测到的系统用下标表示时间，则该记录将为每个符号赋予实际值：

file:///C:/Users/HP/AppData/Local/Temp/ksohtml5316/wps45.jpg

最重要的情况发生在系统是状态决定的时候，即当n 元组xt+1 无论j 取何值都是同一函数f 时。该记录 Then 可以用单一函数 f 等价表示为：

xt+1=f(xt), 或 x′=f(x)

当这种情况成立时，一组重要的新变量（共2n 个）

⟨x1,x2,…xn,x1′,x2′,…xn′⟩

即表示状态转移，也就是实时行为——新系统（由 2n 个变量组成）的一个状态对应于旧系统的一次转移。

在这2n 个新变量之间，所有各种熵、传输量和交互作用的度量都可以像对任何其他变量集一样精确计算，但现在可以通过它们与实时的关系来解释。因此，T[Xi:Xi′] 度量了Xi 的取值在多大程度上依赖于其紧邻的前一个值。

同样，T[Xi:Xj] 度量了与我们朴素的"因果关系"概念非常接近的东西，因为它度量了Xi 的后来值在多大程度上依赖于Xj 的先前值。如果在X1…Xn 全部保持不变（除了Xi ）时也发现这两个变量之间存在传输量，则这个新数值度量了Xj 对Xi 的直接影响程度。

如果研究更大的集合，像T(Xit:Xjt+s) 这样的传输量将度量变量Xi 在s 步之后显示出其先前值影响的多少。因此，该度量抓住了Xi "记忆"概念中的某些本质内容。这种方法因此用完全统一的概念和方法来处理跨越空间间隙（在n 个变量中的两个之间）和跨越时间间隙（"记忆"效应）的通信。

这一课题还有待广泛发展，但有充分的理由相信这些度量可能为深入理解诸如大脑、细胞生物化学和现代社会经济等系统提供一种方法。读者会注意到大部分计算工作相当常规，因此非常适合委托给现代计算机来完成。

采样变异

显然，只有在事先掌握了关于随机采样的变幻莫测可能导致何种结果的相关知识时，才能将这些方法应用于实际数据。这一课题已由 MILLER [6] 讨论过。

结论

信息论始于研究两个变量——发送者与接收者——之间的关系，但它可以很容易地推广到研究任意数量变量之间的关系。这种推广对于研究大型计算机各部分之间、大脑各细胞之间，或大型社会各成员之间的全部内部信息交换将是有用的。

本文概述了该方法，并给出了一些基本方程。当系统由大部分相似的部件组成时，平均值变得适用并具有特殊性质，其中一些已被列成表格。

该方法的一个特别吸引人的特点是，它能够轻易地将系统中简单的部分与本质上复杂的部分分离开来。因此，如果系统内隐藏着简单性，该方法提供了一种发现它们的可能途径。

参考文献

[1] BREMMERMANN, H. J. Optimisation through evolution and re-combination. In Self-organizing systems. Eds. M. C. Yovits, G. T. Jacobi and G. D. Goldstein, Spartan Books, Washington, 1962, pp. 93-106.

[2] McGILL, W. J. Multivariate information transmission. Psychometrika, 19, 97-116, 1954.

[3] SHANNON, C. E. and WEAVER, W. The mathematical theory of communication. University of Illinois Press, Urbana, Illinois, 1949.

[4] GARNER, W. R. An information analysis of absolute judgements of loudness and dissonance. Psychometrika, 21, 219-228, 1956.

[5] MILLER, G. A. On the bias of information estimates. In Information theory in psychology. Editor H. Quastler, The Free Press, Glencoe, Illinois, 1955.

来源：宋胖说事儿

链接：https://mp.weixin.qq.com/s/Q_5_TKMumFpXhVfkOm1ByQ

编辑: 赵牧云

刘海明 · 发表于 2026-3-25 14:02:32

【案例】

智能的机制——阿什比论文集（29）

大家好，接着由我来为大家翻译控制论先驱阿什比的论文集《智能的机制》。全书共有8个专题40多篇论文，基本把阿什比（除了名著《大脑设计》《控制论导论》之外）主要代表作都囊括了。除了个别零散论文（比如《智力放大器设计》）外，大多没有被翻译为中文。我想尝试翻译出来，与群友共享。也许在今天AI浪潮几乎让人疯狂的背景下，聆听一下这位控制论先驱对智能的思考对我们有帮助，能让我们冷静下来，对AI如实观照。

我们现在翻译的《信息的极限》这一专题。今天翻译该专题的综述和第一篇文章《信息处理系统面临布雷默曼极限的一些后果》。

专题三：信息极限（Informational Limits）

1.专题综述

在许多阿什比（Ashby）的论文中简要提及了一种信息极限，而在《布雷默曼极限的某些后果》一文中阐述得最为明确。这是由物理定律对实际可计算性施加的极限，其后果是：需要超过约 1070 比特的问题解答程序实际上是不可回答的。阿什比通过类似的推理表明，具有超过一定程度组合特性的适应系统，可以远远超出这一极限。更重要的是，他说这一极限具有哲学意涵——其中之一是："我们已实现的科学将永远只是关于世界较简单相互作用的科学。如果存在复杂的自然法则，我们永远无法认识它们。"

特别是在后期的论文中，阿什比反复强调了这一主题。然而，对于布雷默曼极限（Bremermann's Limit）存在一种常见的、 unnecessarily pessimistic（过于悲观）的解读，即："如果一个问题涉及从 21070 个或更多元素的集合中选出一个元素，那么回答它需要1070 比特的信息，因此布雷默曼极限告诉我们这个问题是不可回答的。"这种解释是错误的[105]。如果使用的方法是 1070 次二分法（每次1比特），那确实不可能，但可能存在其他方法来进行选择。

第二种信息极限是施加于决策者身上的限制，其可用信息量有限。阿什比在《机遇眷顾有准备的头脑》（致《科学》杂志编辑的一封信）中通常提到这一点，在《计算机与决策制定》中则有更详尽的阐述。他有力地指出，选择过程受到可用信息的限制。这是他著名的必要多样性定律（Law of Requisite Variety）的一种表述，但之所以特别放在本节而非下一节，是因为它们被清楚地展示为施加于信息信道或信息极限上的限制。阿什比说，基本规则是：利用你所知道的一切尽可能缩小范围；然后随心所欲。当信息极限已经达到时，机遇（chance）与其他任何决策方法一样理性。

注释：

布雷默曼极限（Bremermann's Limit）：由Hans Bremermann提出，指物理定律对计算速度的理论上限（约 1070 bits/gram/sec 量级），超过此极限的计算在物理上不可实现。

必要多样性定律：只有多样性才能吸收/控制多样性（Only variety can absorb variety），即控制系统必须具有至少与被控系统同等程度的多样性才能有效控制。

1070 bits：约等于整个宇宙质量在宇宙年龄内所能处理的信息量上限。

信息处理系统面临布雷默曼极限的一些后果

W·罗斯·阿什比
伊利诺伊大学，厄巴纳，伊利诺伊州

在先进计算的道路上存在着诸多限制。其中一些限制，如预算限制，可以随时消除；另一些限制，如科学家相互交流所用语言结构造成的限制，也许可以通过足够的努力来消除。然而，本文希望探讨的是布雷默曼（Bremermann, 1962, 1965）所确立的特定极限的后果：

"任何封闭信息传输或处理系统的容量不超过 mc2/h 比特每秒。"

（其中m 为系统质量，c 为光速，h 为普朗克常数）。若令m 等于1，并代入 c 和h 的已知数值，该极限在数值上约为每秒每克1048 比特。

几个世纪的时间和成吨的计算机仅能将这一数值提高到约1070 比特。超过这一数量，任何我们所知的物质构成的东西都无法达到。

这一极限允许高达约1070 比特的事实，乍看之下似乎实际上没有任何限制。然而，事实上，我们希望用于先进（类脑）计算的过程很快就会遇到这一极限。为证实这一点，我举两个典型例子：

例1：一个由20×20共400盏灯组成的屏幕，每盏灯只有亮或不亮两种状态，呈现出各种图像。我们希望将这些图像分成具有某种属性的和不具有该属性的两组。假设我们问："什么是最佳分组？"这个看似朴素的问题要求从一组可能中选择一个。如果有400盏灯，可能的图像就有 2400 ，即10120 种，而可能的分组方式则有2的 10120 次方种。因此，从这个集合中选出特定分组（除非有其他限制介入）至少需要10120 比特。这个表面上简单的问题提出了一个远超该极限的需求。

例2：一个人工视网膜有一百万个敏感单元，每个单元只有兴奋或不兴奋两种状态。它通过一个网络产生输出，输出只有1比特：移动或不移动。假设我们问："输入和输出之间的关系是什么？"这个问题本质上要求的是从输入状态集合（共 21,000,000 种）到输出状态集合（共2种）的映射。映射的数量等于输出数量的输入数量次方。因此，从 21,000,000 种映射中选出特定映射（除非有其他限制介入）至少需要10300,000 比特。又一次，一个表面上简单的问题要求的信息处理量远超该极限。

这些例子足以说明，我们多么容易就能提出远超布雷默曼极限的问题或计算过程。它并非遥不可及的、几乎只是想象力的好奇之物，而是一旦我们尝试更先进的信息处理形式，它立即就会挡在我们面前。

极限在仿生学中的后果

这一极限的后果是多方面的。在此我只提及几个在我看来在仿生学背景下尤为突出的后果。

由于"调节与控制"具有最高的实践重要性，让我们首先在此应用这一极限。一个简单的例子有助于阐明基本概念。假设一支舰队正要离港执行现役任务，却发现其通讯系统失效；结果，现在只能通过旗语进行船对船协调，且只有一些配备手操作闪光灯的人工信号员可用。我们这里有一个动态系统，其目标由当前海军战略明确定义，且受制于内部可发生通信量的限制，这一限制由信号员的容量决定。现在很清楚，海军上将可以用各种方式部署舰船，可能没有任何对整个舰队的单一机动是不可宣布的，然而常识告诉我们，敌方海军上将在一段时间后会注意到这一点。

"在机动中实现协调"意味着所有可能的运动组合（包括导致碰撞的组合）的总集合必须被限制为组合的一个特殊子集（经海军战略批准的组合）。实现这一限制需要相应的传输量（根据香农第十定理或必要多样性定律）。因此，为更明确起见，假设有100艘舰船，机动的唯一要求是所有舰船必须向同一方向转向，且信号员作为信道的总容量每次通信提供200比特（99条指令，3小于200）。在没有信号员分布或编码安排的情况下，无法通过增加"半右舵"和"半左舵"来细化方向选择（99条指令，5大于可用的200比特）。因此，可传输信息总量的极限存在，对可实现的调节或控制量设置了绝对限制。

这个例子的算术表明，布雷默曼极限在直接调节的情况下是一个直接的威胁。一百万艘舰船，每艘都必须精确移动到百万分之一，每次航向设置需要106log2106 比特，即约2×107 比特——远未达到极限。但这种小量并不意味着当我们转向仿生科学时可以忘记这一极限。在这里，调节和控制通常针对某种复杂模式的事件，各部分之间存在强烈的内部作用（或所有陈述高度条件化）。在这种情况下，当组件数量增加时，信息量往往以爆炸性的指数速率而非温和的多项式速率增长。

复杂目标效应的一个著名例子是机械象棋程序。目标（"将死"）看起来简单，但要明确界定其在每一步棋中的含义，目前唯一可靠的方法是写下所有可能的走法，并将每一步标记为"好"或"坏"。如果走法数量至少有 10120 种，布雷默曼极限就是一道不可逾越的屏障。由于象棋游戏比生活之战简单，我们可以预期这一极限远非仅仅是数值上的好奇，而是将在真实而实际的情境中频繁地自我显现。

舰队所用的温和信息量与象棋所要求的过度信息量之间的突然跃升，当然是由于象棋的组合特性：一个棋子的位置是好是坏，取决于其他棋子的位置。这种条件性使多样性以组合方式（通常是指数级）增长，而较简单的形式仅以加法或简单乘法速率增长。由于在仿生学和先进计算中，我们特别关注这些组合过程，因此在我们的科学中，我们很可能在工作的早期就遇到这一极限。那些特别可能意味着各部分之间存在高度相互作用的主题，尤其涉及以下概念：

系统（System）	有序/秩序（Order）
组织（Organization）	子集（Subset）
模式/图案（Pattern）	属性/性质（Property）
网络（Net）	关系（Relation）
自动机（Automaton）	约束/限制（Constraint）

所有这些都与"先进信息处理"和"机械大脑"高度相关。因此，在我们的研究中，尤其是在仿生学和人工智能领域，我们很可能在很早期就遇到这一极限。但这一主题在哲学上具有更为广泛的意涵，我想在此略作探讨。

最明显的事实是：我们自身以及我们的大脑都是由物质构成的，因此绝对服从于这一极限。不仅作为个体的我们如此，整个世界科学的合作组织也是由物质构成的，因此也受制于这一极限。因此，无论是个人能够使用的总信息量，还是世界科学能够使用的信息量，在任何常规尺度上都被限制在约1040 比特左右。无论我们未来的科学将发展到何种程度，所有的一切都将低于这一上限。

我们无法因为自己在生物界中的卓越地位而声称享有任何特殊优势。我们之所以成为现在的样子，是自然选择过程塑造和选择的结果。作为一种选择，这一过程可以用信息量来衡量：因此它也受制于其极限。在任何行星条件下的任何选择类型中，由物质构成的行星表面无法以超过某一有限速率的速度产生适应性。无论我们自认为多么优秀，1070 比特衡量的是我们大脑无法超越的界限。未来的科学将由大脑构建，而这些大脑在其运作中使用的比特数不可能超过1040 。因此，它们自身的进步也只能在远低于1070 的范围内进行。这就是我们的信息宇宙：超出此范围者，不可知。

我们多少能看出些什么将是不可知的。有时自然法则具有简单的信息结构。例如，引力定律被发现只关联两个粒子之间的吸引力，比如i 和 j ；这种关系不以其他粒子 k,l,m 等的位置为条件。这种无条件性意味着，随着更多粒子的加入，复杂度的增长是适度累加的（势能以简单的加法方式组合）。将这种情况与（比如）社会系统相对比，在社会系统中，两个变量 i 和 j 之间的关系可能依赖于其他变量。如果引力中 i 和 j 之间的吸引力定律会因 k 的取值而改变，这就会成立。在这种情况下，复杂度以某种近似指数的方式增长。因此，这一极限的存在告诉我们：我们已实现的科学将永远是关于世界较简单相互作用的科学。如果存在复杂的自然法则，我们永远无法认识它们。

因此，这一极限在复杂科学中可能特别具有阻碍性。其中之一就是社会学，刚才已作为例子提及。另一个就是我们自己的仿生学科学，尤其是当我们着手解决人工智能问题时。我们该怎么办？

对这一极限的一种反应就是简单地忽视它，只在必须注意到它时才注意到它。但科学史反复表明，当一种棘手的限制出现时，科学往往会变得停滞，直到它将这一限制纳入其工作概念结构的一部分为止。我必须以显微镜为例：起初，人们将光和波长所施加的限制视为纯粹的麻烦。眼见为实，直到阿贝（Abbe）和亥姆霍兹（Helmholtz）发展出新的显微技术，在其中衍射和干涉的波动特征成为理论的内在工作部分。微观物理学也陷入了日益增长的困境，直到它重塑其基本理念，构建了一个将基本限制（由于量子限制和不确定性）内置其中的新理论。因此，有充分的理由建议，面对这一极限，我们最好的方式是研究它，并使其成为我们工作理念的一个组成部分。

如何实现这种整合？我在这里只能提供一个粗略的建议，希望它将来能被证明是有用的。这项工作的大部分在于未来的研究。

首先，我们知道数学家和工程师从"线性"过程（矩阵代数、拉普拉斯变换等）的发展中获得了巨大优势。有了这些过程，他们可以在线性世界中进行广泛的工作，而无需担心在每一次操作中都陷入复杂得多的非线性世界。

这个例子表明，可以发展出一套广泛的操作集，使得在集合内可以完成大量有价值的工作，而操作本身自动防止工作者误入"禁区"。布雷默曼极限正是规定了这样一个禁区。

明斯基（Minsky, 1963）总结了"人工智能"问题的本质，对此我完全同意："真正的问题在于找到能够显著延缓明显不可避免的搜索树指数增长的方法。"只要所研究的指数系统是真正组合性的，指数增长就是不可避免的，而布雷默曼极限就以最大强度起作用。我们仿生学中的问题很大程度上实际上受制于强内部约束（其中大多数最终源于原子层面表现出的强烈冗余和重复性）。最普遍、最广泛的约束之一是系统在某种程度上是可约化的，即可以分块研究。当情况如此时，一个看似需要过量信息处理的系统，实际上可能允许用较少的信息完成其研究。（根本原因在于，如果一个量按 an 指数增长，可以分 k 个阶段处理，分支数就会按 ak 的量级下降。当n 很大时，k 对指数的分割作用远比其作为乘数的作用强大。）"分而治之"的方法如此普遍且强大，因此很值得尝试发展所有那些不会破坏可约性的操作。当我们知道这套操作时，其中的操作将形成一种微积分，类似于线性系统的微积分——使我们在集合内可以随心所欲，而无需担心将问题转化为在极限下无法求解的问题。朝这个方向的开创性工作是通过"柱度"（cylindrance）的公式化（Ashby, 1966）实现的，它衡量任意 n 个变量之间的关系可以在多大程度上被视作由子关系构成，每个子关系只涉及变量的某个子集。它自然地处理了关系由 k 个完全独立的子关系组成的相当明显的情况，但也处理了更有趣的情况：整个关系在实际上仍然连接的同时，具有某种 k 重划分的简单性。（一个基本例子是一个国家的电话通信：尽管所有用户在潜在上都可以相互连接，但实际上几乎所有的通信都是成对进行的。）

约1070 比特的极限意味着我们永远无法研究超过约270个变量之间的完全一般性关系；270个二元变量就提供了这个数量。由于柱度（一种内在复杂度的度量）不可能超过变量数，这一极限意味着我们永远无法研究其内在复杂度（如果用柱度衡量）超过270的完全一般性关系。

因此，如果我们打算研究一个系统（比如一个活脑），其中的关系不具有超过270的柱度，我们就有一个潜在可研究的系统。但如果我们不明智地提出问题或执行操作，将柱度提高到这个数字以上，每一种研究方法都会使它变得不可研究。现在已经知道，柱度在交集操作下是安全的（当关系被视为积空间的子集时），但在并集操作下很容易升高。

这项工作仍在进行中，但它已经表明可能存在特别适合研究复杂系统的方法，其使用看似将我们引向一种令人尴尬的处境：我们发现，正是我们自己的方法将一个潜在可研究的系统变成了一个在极限下现在本质上不可研究的系统。

结论

物质构成的东西每秒每克传输或处理信息的速度不能超过1048 比特，这一点看似实际意义不大。事实上，许多为具有人工智能的机器提出的过程所需的信息传输远远超出这一极限。文中给出的例子表明，大规模的组合丰富性过程极容易触及这一极限。

不仅我们的机器受到如此限制，科学家的大脑（由物质构成）也受到同样限制。因此，我们的个人知识、哲学和科学也在同等程度上受到限制。

文中讨论了其在科学中的一些后果。如果我们的科学要具有现实性，我们的理论必须被构建成使这一极限成为其组成部分。文中就如何实现这种整合提出了一种建议。

参考文献

【1】ASHBY W R. Constraint analysis of many-dimensional relations[M]//WIENER N, SCHADE J P. Progress in biocybernetics. Amsterdam: Elsevier Publishing Co., 1965: 10-18.

【2】BREMERMANN HJ. Optimization through evolution and recombination[C] //YOVITS M C, et al. Self-organizing systems 1962. Washington, D.C.: Spartan Books, 1962: 93-106.

【3】BREMERMANN H J. Quantum noise and information[C]//Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability. Berkeley: University of California Press, 1965.

【4】MINSKY M L. Steps towards artificial intelligence[C]//FEIGENBAUM E A, FELDMAN J. Computers and thought. New York: McGraw-Hill Book Co., 1963: 406-450.

来源：宋胖说事儿

链接：https://mp.weixin.qq.com/s/KdhRATVezokr9AEGvqOZSQ

编辑：赵牧云

刘海明 · 发表于 2026-3-26 15:08:12

【案例】

智能的机制——阿什比论文集（30）

大家好，接着由我来为大家翻译控制论先驱阿什比的论文集《智能的机制》。全书共有8个专题40多篇论文，基本把阿什比（除了名著《大脑设计》《控制论导论》之外）主要代表作都囊括了。除了个别零散论文（比如《智力放大器设计》）外，大多没有被翻译为中文。我想尝试翻译出来，与群友共享。也许在今天AI浪潮几乎让人疯狂的背景下，聆听一下这位控制论先驱对智能的思考对我们有帮助，能让我们冷静下来，对AI如实观照。

我们现在翻译的《信息的极限》这一专题。今天翻译该专题两封信，一封是写给《自然》杂志编辑的，一封是写给好友的。

专题三：信息极限（Informational Limits）

3.致《科学》杂志编辑的一封信

机遇眷顾有准备的头脑（Chance Favors the Mind Prepared）
栏目： Letters（读者来信）

让我们假设问题本质上是一个选择的问题：从众多申请者中选拔少数学生，从大量人员中征召兵员，或者更一般地说，从大量可能的决策中做出一个好的决策。过去20年的根本发现是，所有这类选择过程都服从于信息论定律。第一，适当的选择只能基于必要数量的信息；第二，这种信息是可测量的且有限的。由此可知，在任何现实情境中，能够实现的适当选择量也是有限的。在任何给定时刻，一个意欲选择者只能获得一定量的信息，仅此而已。凭借这一数量的信息，他能够执行相应数量的理性、适当、有意义的选择。当信息耗尽时，便不再有进一步的理性依据存在。

因此，选择若要成为理性和可辩护的，必须基于信息。但在现实生活中，经常发生的情况是可用信息量少于必要量。通过"学院只招收男性"这一信息，可以合理地将一千名学生缩减到五百名；但如果学院只能招收50人，我们该怎么办？当然，人们不会忘记可能有更多信息可用，或许足以让整个选择变得"理性"；但如果所需信息要么无法获得，要么获取成本过高呢？基于有限信息量进行决策的基本原理可以表述如下：运用你所知道的一切，将可能性范围缩减到最小；之后，随心所欲。

牢记这一规则，我们就能明白为何那篇社论（讨论"机遇与人为判断"的社论）不能令人满意。它那个标题本身——"机遇，还是人为判断？"——就倾向于让读者将这两者视为相互排斥的竞争关系，而真相是它们实为自然的互补关系。在做出决策时，首先应让人为判断占主导；然后应将机遇用作必要的补充，以使决策达至唯一性……现代决策方法同时使用这两者——机遇与人为判断。从这个角度看，使用机遇绝非"否定理性"。相反，机遇是智者在其所知信息量少于被要求做出的选择量时所采用的遴选方法。

4.给C. Strachey的回信

计算机与决策制定

先生：

近期关于这一主题的通信表明，目前存在诸多误解，有些人未能跟上现代知识的步伐。由于今日任何试图澄清此事、建立清晰连贯理论的尝试，我愿勾勒其要点，以帮助增进清晰性和简明性。

引起我们兴趣并引发争论的过程（无论是由大脑还是数字计算机执行的），是那些最终产物显示出高度选择性的过程。例如，在《泰晤士报》社论作者昨日实际写出的一组文字，可能是成书字母的多种排列方式之一；或者计算机被要求输出一串与某未知电话号码的随机数字完全对应的数字。大多数实际活动都将这种选择性作为本质特征。概言之，得到正确答案意味着选择。

我们现在得出一个适用于所有系统的简单假设——无论是生物系统还是机械系统——即任何实现了适当选择（优于随机选择程度）的系统，都是基于所接收的信息而做到的。

替代方案是什么呢？难道我们要接受考试候选人在被告知问题之前就开始给出适当答案吗？难道我们要接受某人在火灾发生之前就向保险公司寄出索赔单吗？难道我们要接受计算机在程序带尚未装好之前就开始打印正确答案吗？显然，这些都不可能发生；除非清楚地证明存在此类现象，否则这一假设必须成立。

支持这一假设的论据可以给出更深刻、更严格的表述。此处无暇详述，但我必须提及它与香农第十定理[2]密切相关，该定理指出：将同一消息的多种"噪声"版本还原为正确原始消息的选择过程，受限于（无论由何种代理执行校正）必须伴随所选版本传输的一定信息量。人类与计算机同样受这一事实约束：如果它们要实现适当选择，就必须要么服从这一假设工作——要么依靠纯粹的魔法。

一旦接受这一假设，决策策略便不可避免地遵循以下路径。用简单概括的语言来说，它如下：

(1) 无论是生物还是机械的选择者，必须首先接收一定量的信息。然后利用这一信息将可能性领域（无论是可能的答案还是输出）缩减到最小。缩减的程度受限于信息的量。

(2) 当信息已在将可能性领域缩减至最小时用尽后，剩余的就是"无知领域"（field of ignorance）。缺乏进一步的信息，进一步的选择便失去合理性。其中的任何武断选择都不能声称优于任何其他方法（"随机与任何其他方法一样好"）。

换言之，决策的基本公式是：运用你所知的一切将领域缩减至尽可能小；之后，随心所欲。

有时会发生这样的情况：即使在无知领域内，仍然存在选择的需求。即使在这种情况下也可以执行第二次选择（例如，通过使用随机数表，就像棋手在面临具有适当可能性的局面时可能做的那样）。有时选择是本质性的，必须进行一次尝试。信息，而有时这种新信息可以获得，或更多"如果你想要成功，尝试"类型的信息——这不仅仅是向成功的一次射击——它可能是一个逐步获取更多信息的过程，从而使进一步的适当选择成为可能。

因此（仍在该假设的铁律之下），成功可能是分阶段实现的：首先利用主要信息将无知领域缩小；随后，通过尝试获得进一步信息，直到总信息量达到完成选择所需的量。

斯特雷奇先生（Mr. C. Strachey）[3月3日来信]提到的"绝望"，现在可以证明是合理的，或者说（根据假设）在无知领域内是合理的。如果问题是一个必须穷尽所有可能性、必须尝试一切的问题。但此处的"一切"只是"无知领域内的一切"；而这可能只是整体中很小，或许是非常小的一部分。

上述原理适用于大脑和计算机，适用于简单和复杂的情况。它们表明，决策制定会遇到选择，而该假设对每一个选择都成立。无论问题的本质是该假设的单一应用，还是分解为一系列应用，该假设对此特定情况都具有同等效力[3]。

最后，或许值得瞥一眼为何这些原理长期未被我们把握的原因。我认为原因在于，相对于计算机和人脑，我们在它们所接收的信息之前就对它们进行编程。我们对大脑如何工作知之甚少，所有都是隐藏的；但在为计算机编程时，我们敏锐地意识到这需要多少劳动，而在对人进行预编程方面，人类已经历了漫长的（尤其是在进化和童年时期）过程；事实上这一过程极其漫长。经过二十亿年的进化，他积累了今天人类的所有经验，通过童年和后来的训练，他积累了大量适当选择的能力，远超……当信息相关时，他便能显示出优势。

例如，在下棋之前，他通过在世界中活动就学到了大量关于三维几何的知识：行、列、角度可以通过棋盘上的一个轻拂手势向他表明，而无需详细指定几何；然而这一特定三维几何（比如说）对两者都是同等地缺乏原始信息。而计算机在同样意义上，其详尽和精细程度与人脑一样。关于"连续性"的大量信息也是如此，如果问题具有这种性质，人脑来到计算机面前时带着这种信息。这些事实表明，人脑的信息更适合描述为"预编程"（pre-programming），优于计算机。

如果充分考虑这一差异，他们的活动——无论是成功还是失败——都将被发现在基本假设上是一致的：我们在决策制定中都必须遵循相同的基本策略。

W·罗斯·阿什比 伯登神经学研究所布里斯托尔

参考文献

【1】ASHBY W R. An Introduction to Cybernetics[M]. London: Chapman and Hall, 1956.

【2】SHANNON C E, WEAVER W. The Mathematical Theory of Communication[M]. Urbana: University of Illinois Press, 1949.

【3】ASHBY W R. Design for a Brain[M]. 新版. London: Chapman and Hall, 1960: Chapters 17 and 18.

来源：宋胖说事儿

链接：https://mp.weixin.qq.com/s/-I-fBpjQqC6g_1GOMJ-zLQ

编辑：赵牧云

帐号		自动登录	找回密码
密码			实名注册

阿什比论文集集锦

浏览过的版块