传媒教育网

标题: 阿什比论文集集锦 [打印本页]

作者: 刘海明 时间: 2026-2-2 22:12
标题: 阿什比论文集集锦

【案例】

智能的机制——阿什比论文集

大家好，今天开始，由我来为大家翻译控制论先驱阿什比的论文集《智能的机制》。全书共有8个专题40多篇论文，基本把阿什比（除了名著《大脑设计》《控制论导论》之外）主要代表作都囊括了。除了个别零散论文（比如《智力放大器设计》）外，大多没有被翻译为中文。我想尝试翻译出来，与群友共享。也许在今天AI浪潮几乎让人疯狂的背景下，聆听一下这位控制论先驱对智能的思考对我们有帮助，能让我们冷静下来，对AI如实观照。今天作者介绍、论文集结构与序言部分。

作者介绍

W·罗斯·阿什比教授被国际公认为控制论的先驱和权威。他受过医学和精神病学训练，曾任研究病理学家、格洛斯特巴恩伍德医院研究主任、布里斯托尔伯登神经研究所所长、伊利诺伊大学生物计算机实验室教授，退休后任威尔士大学荣誉教授研究员。

在巴恩伍德医院（一所精神病院）工作的十二年间，他制作了他著名的"同态调节器"（用英国皇家空军旧零件在阿什比夫人厨房的桌子上组装而成），并撰写了两部著作：《大脑设计》（1952年）和《控制论导论》（1956年）。这两部著作均完成于阿什比博士私人的软垫隔间，此后被译成多种语言。在美国度过的十年间，他发表了大量著作，据他自己估计，这是他职业生涯中成果最丰硕的时期。

阿什比博士的核心兴趣在于用机械论解释类脑活动。基于大脑按机械原理运作的信念，他热衷于揭穿关于大脑神奇力量的各种神话（"两千年来，心理学不过是对人类最高级能力的简单讨论——而大多数能力他根本不具备"），并设计行为的机械模型，其中最著名的是同态调节器。该装置故意用不可靠的部件构成，以强调智能不在于精巧、高质量的部件，而在于整体结构。尽管他不断寻找行为的简单解释，却全心全意地拥抱复杂性，主要兴趣在于非线性、高度互联的系统，其中复杂关系构成主要研究对象。

作为他对关系兴趣的象征，他随身携带一条由三条较简单链条平行互锁构成的链子；他喜欢观察微观生态系统（用鱼竿和瓶子从厄巴纳的博尼雅德溪捕获），欣赏它们展示的丰富相互作用；他还建造了一个半随机电子装置，装有100个双三极管，观察了两年，最终因其难以理解的复杂行为而认输。或许是这个三极管网络激发了他对信息论的兴趣，将其作为处理复杂性和测量变量间相互作用强度的工具；他随后提出的"必要多样性定律"和多变量信息论的发展，是对理解复杂系统的重要贡献。

阿什比教授有一种非凡的天赋，能使看似复杂的思想变得简单，并用朴实的例子说明抽象概念（"某只蜈蚣……"）。他善于在别人只看到琐碎之处发现意义，在别人只看到事实之处发现原理。他始终充满热情和创造力；即使退休后，他先掌握了单簧管，继而着手重新设计其人机界面，以改善信息传递。他严肃而略显令人生畏的举止，在参与对话或讲座时，会转变为生动的风格——他独特的敏锐机智和从不寻常视角看待寻常事物的能力，很快会使谈话变成一连串令人惊讶的思想洪流。他的热情会完全克服他平常的矜持，比如他曾有一次假装发射一把六响手枪，"后坐力"——令所有人惊讶，包括他自己——使他踉跄着穿过房间，摔倒在地。

除了是一位诚实、一丝不苟的学者，他还是一位热心、体贴、慷慨的人，热切地将自己萌发的想法的功劳归于学生；此外，他为人谦逊，当被问及希望如何处理他大量未发表的研究笔记时，他典型的回答是"全部销毁"（为了给下一代重新发现的机会）。

那些亲自认识罗斯·阿什比的人，会记住他是一个善良而难忘的人；那些通过著作认识他的人，会记住他是系统科学的天才和巨人。

——罗杰·科南特（Roger Conant）（阿什比的博士生，也是本书的编辑之一）

本书编辑说明

（罗杰.科南特）

美国控制论学会于1980年春季的一次会议上决定，推动出版一套丛书，收录控制论和系统理论领域关键人物的开创性著作。本书，以及另一本以海因茨·冯·福斯特为中心的著作，是首批问世的两部作品。

我有幸于20世纪60年代那个非凡的黄金时代，在冯·福斯特位于伊利诺伊大学的生物计算机实验室工作，当时W·罗斯·阿什比也在那里。作为阿什比门下的博士生，我对他的创造力和精力惊叹不已，并深受其广阔视野以及他摆脱常人思维定式之自由的启发。这种自由常表现为以令人震惊的新颖方式看待事物的能力——仅举一例，他曾随口说道，在股市中亏损与获利同样困难。我感谢美国控制论学会和出版商给予的动力和机会，使我能通过编纂本书，部分地回报我对罗斯·阿什比的感激之情。

阿什比的两部著作《大脑设计》和《控制论导论》是控制论和系统理论文献中的经典，已被多种语言再版，想必为读者所熟知。然而，阿什比的许多工作散见于各处期刊、会议文集和不易获取的书籍中，有些文章仅以他在厄巴纳给学生发放的手稿形式出现。本书的目的即是将其中许多文章汇集于一册，从而使这位杰出人物的著作更易于获取。

指导本文选编的原则如下：

1. 若某部作品已实质性纳入阿什比早期的两部著作，则本书不予收录。

唯一例外是"必要多样性及其意涵……"一文，因其对"必要多样性定律"——阿什比最著名的成果之一——的清晰阐述而收录于此。

2. 以最少的篇数最大限度地涵盖所有著作中的思想。

阿什比的论文之间存在相当程度的重叠，他的一些钟爱主题在多篇独立作品中均有提及。我试图同时最小化这种重叠、本书的篇幅以及"损失"——即未收录于此的论文中的思想。这一任务不可能令任何人完全满意，包括我自己，一些优秀论文因此因这一精简原则而被舍弃。然而，我相信本集反映了阿什比除两部著作之外对控制论的几乎全部智识贡献。

我未能发现阿什比出版物的任何权威目录。因此，书末所列其著作目录是根据生物计算机实验室的文件、阿什比出版物中的参考文献以及与其学生和朋友的通信整理而成。尽管如此，某些方面可能仍不完整，不能视为最终版本。

我要感谢美国控制论学会主席斯图尔特·昂普利比，他为本项目提供了动力并奠定了良好开端；海因茨·冯·福斯特为此项工作提供了实质性帮助；伊利诺伊大学芝加哥校区图书馆的工作人员为我查找了许多阿什比的晦涩文章；亨利埃塔·科克斯承担了打字工作；乔治·克里尔对阿什比的工作进行了概述并就收录论文提出建议；我的贤妻雪莉，她欣然容忍甚至支持我对本项目的专注；最后是罗斯的遗孀罗斯巴德·阿什比，她寄来了照片以及下面这段她在其遗稿中发现的引语。

"我算得上是一位艺术家，不是在铅笔或颜料方面——我在那里毫无技艺——而是对完美有着深刻的鉴赏力。我的品味很广泛，因为我能欣赏任何精湛之作，无论是丘吉尔的一章文字、爱泼斯坦的一尊雕像，甚至马克斯·米勒的一个建议。我有一个抱负，希望有一天能创造出毫无瑕疵的作品。"

"笔记中记录的那种关于大脑的工作，对我来说仅仅是一种令人愉悦的消遣，一个我可以退隐其中的爱好，一个我可以编织纯粹思想的复杂而美妙图案的世界，不受社交、财务及其他纷扰的干扰……"

——W·罗斯·阿什比

前言：阿什比的思想财富

乔治.科里尔（本书另一个主编）

我想借此机会表达我对W·罗斯·阿什比晚期著作的个人感受。首先，我希望他描述其思想发展的书籍和论文能够得到恰当的理解、欣赏和发展。他的一些最重要的思想仍未受到应有的关注，目前正在被分析和进一步发展。他留下的大量未开发的思想，代表着未来研究的丰富智力资源。

对大多数人来说，阿什比是通过他的第二本书《控制论导论》（1956年）[b2]为人所知的，该书在多次再版和十四种不同语言的翻译之后，至今仍在印刷。他的第一本书《大脑设计》（1952年）[b1]知名度较低，而他1930年至1972年间撰写的众多论文则最不为人所知。这些论文散见于各种出版物中，许多被隐藏在会议论文集或论文集的编辑版本中。

我一直对阿什比那部杰作《控制论导论》深感惊叹。这本书写得如此精湛，作为入门教材与任何著作相比都毫不逊色。它至今仍是我灵感的巨大源泉。1970年，我在罗马与阿什比相处时，曾称赞他写了这样一部优秀的导论。令我惊讶的是，他回答说写这本书对他来说很容易。"不，"他回复道，"我毫不费力。"我后来才得知，在撰写该书期间的某个时候，他对自己的英语知识失去了信心，于是放下几乎完成的手稿，开始从头学习英语。一年多后，当他重新自信地掌握这门语言时，他才回到这本书的工作上。他没有使用旧稿，而是在几个月内从头完成了整本书。因此，这部杰作的诞生——难怪它如此精湛！

阿什比对系统研究各个方面的兴趣可以追溯到1940年代。这一十年的特点是系统研究、控制理论、信息与通信理论、自动机理论以及系统工程等新兴和初步领域的出现。这些新颖而有前景的思想与阿什比关于适应性和自组织概念的发展相吻合。他在这一十年的贡献极为重要。自1960年代以来，他一直日益成为系统研究领域公认的领导者，直至1972年去世。

自20世纪50年代初我开始熟悉阿什比的一些著作以来，我一直感受到他对我在系统研究方面工作的巨大影响。我清楚地知道，许多从事系统研究的人也有同样的感受。例如，罗杰·卡瓦洛[109]最近为阿什比进行的一项调查显示，作为20世纪下半叶第二位最有影响力的人物，他对系统研究者的影响几乎是卢德维希·冯·贝塔朗菲的两倍——而冯·贝塔朗菲通常被认为是该领域最有影响力的人物。

阿什比最伟大的思想之一是他对"对象"与"基于该对象定义的'系统'"之间区别的清晰认识。他写道[b2,p.39]：

"在这一点上，我们必须明确'系统'是如何定义的。我们的第一反应是指着钟摆说'这就是系统'，但这种说法隐藏了它可能产生的巨大困难。每一个物质对象都包含无限多的变量，因此可以产生无限多个可能的系统。真实的钟摆，例如，不仅有长度和位置；对于电导率，它有晶体结构、化学杂质、内应力；对于温度，它有熔点、比热、导热性；对于光学吸收，它有表面水分、细菌污染、光学吸收、弹性、形状、比重的薄膜，等等。任何暗示这些变量中某一个可以忽略的说法，都是从未被提出的。所必要的是，我们应该挑选出我们感兴趣的变量，并研究这些变量之间的关系。系统现在意味着，不是一个事物，而是一个变量集。"

在我看来相当令人惊讶且不幸的是，这两个概念之间的根本区别对当前场景上的许多系统研究者来说仍然是陌生的。然而，它至关重要，因为许多系统研究中的混淆正是由于未能认识到它而产生的，正如一些批评者所暗示的，系统研究不过是研究一切（每个对象），因此逻辑上是空洞的。

阿什比明确区分对象和基于对象定义的系统，使他能够认识到同一对象可以以不同方式被看待（建模），每种方式都基于不同的属性和相关的响应函数。这使他能够将系统识别与正在研究的对象分离开来，也使他能够将自己限制在晚期论文[99,p.1]所描述的对象的"简化、可管理的子集"中，并拒绝所有其他部分。让我们引用他晚期论文[99,p.1]中的一段话：

"……虽然所有人都会同意大脑是复杂的，自行车是简单的，但人们也会记得，屠夫对羊脑的看法是简单的，而自行车，如果被详尽研究，作为理解人类大脑的唯一线索，就会变得非常复杂。因此，在我看来，用'复杂'来测量复杂性是一种完全错误的方式。"

阿什比工作的独特特征之一在于，他所发展的各种系统概念和原理具有高度的一般性，即它们并不局限于基于具有某种特定数学结构的变量所构成的系统。他就此问题表达了如下观点[95,p.103]：

"受过一定数学训练的工作者很容易养成（或陷入）一种思维习惯，认为'变量'必须是指具有可加性度量的数值尺度。这种限制是完全不必要的，有时甚至会导致致命后果。气象学家长期以来使用五种'云型'，兽医研究猪的各种寄生虫，血液学家使用四种基本的'血型'。现代数学运用集合论的方法，完全能够处理这类变量，而这类变量在行为科学中往往是不可避免的。"

阿什比的许多思想不依赖于所涉及变量的尺度，这使得这些思想非常适用于所谓的软科学。具有讽刺意味的是，变量必须是"定量的"这一神话——至今仍严重主导着软科学——似乎正是这方面的主要障碍。

可以公平地说，系统的认识论层级[107,109,115,116]日益被认可为任何有意义的系统问题解决框架所必需的"骨架"，而这一层级在阿什比的著作中是隐含的。尽管他没有明确表述这样的层级，但他的著作至少涵盖了我所提出的层级[109]中的四个认识论层次。

最低的认识论层次（源系统或0层），在我的层级表述中定义为一套变量（划分为基本变量和辅助变量）以及为每个变量定义的分辨率水平[109]，显然只是对阿什比将系统定义为一套变量这一概念的更精确、更完整的阐述。他关于所选变量的方案（或活动）概念，则直接对应于我认识论层级中的数据系统（1层）。

就我认识论层级中的2层（生成系统或行为系统）而言，它在阿什比的早期著作中由状态决定系统（机器）[81]的概念所代表，但也由他更为一般的变换概念[b2]所代表。在20世纪50年代初，这些是相当新颖的思想，由此发展出一些系统理论，如有限状态机（自动机）理论，以及后来的动力系统理论。

结构系统（定义为耦合子系统的集合），代表我层级中的3层，在阿什比的著作中有相当广泛的论述。他的主要兴趣似乎在于研究部分（子系统）的各种性质与整体（结构系统）相应性质之间的关系。例如，对于这样一种性质——平衡状态——他推导出了整体与部分之间一个简单但重要的关系："整体处于平衡状态，当且仅当每个部分在其他部分所提供的条件下处于平衡状态。"[b2,p.83] 他自己设计并著名的同态调节器，也是源于他对整体-部分关系研究的浓厚兴趣。

虽然大多数系统研究者只关注涉及一个或最多两个认识论层次的问题，但阿什比可能是新兴系统研究领域中第一位成功将更广泛范围的认识论层次整合到一个概念框架中的贡献者。从他的著作中可以清楚地看出，与许多当前的系统研究者不同，他认为认识论谱系的实验端与认知端同等重要。此外，他的工作出色地展示了对系统研究的发现（归纳）方法和公设（演绎）方法的平衡运用。

阿什比最伟大的贡献之一——必要多样性定律，也是他最早期思想之一[82,43]。其最简单但最一般的表述"只有多样性才能摧毁多样性"——开辟了多个可能的发展方向，具有潜在的深远意义。尽管对必要多样性定律的兴趣近来日益增加，但令人惊讶的是，某些相关领域，最值得注意的是控制理论，仍然完全不了解这一思想。这种令人遗憾的状况，被布莱恩·波特——少数具有更广阔视野的控制理论家之一——在几年前发表的一篇论文[113,p.227]中很好地刻画出来：

"……颇具讽刺意味的是，例如，最优控制理论虽然已被详尽发展到了几乎令人厌倦的地步，但控制科学家们似乎对阿什比著作的存在及其重要性 largely 一无所知。这种情况在阿什比的必要多样性定律方面尤为突出——该定律对于调节和控制的重要性，犹如热力学第二定律对于物理学的重要性。因此，必要多样性定律——顺便一提，它可以通过基本推理非常简单地得到证明——对调节器可实现的行为施加了严格的界限，无论其结构或设计如何：因为阿什比的定律相当可靠地指出，任何物理装置作为调节器的能力不能超过其作为通信通道的能力。该定律所表达的控制与通信之间的密切联系，无疑表明这一领域可能是系统科学家和控制科学家未来研究中最令人兴奋、最有价值且最重要的领域之一。当然，阿什比自己感到，在他漫长而多产的科学生涯结束时，他在这个领域的工作才刚刚开始。……阿什比的必要多样性定律表明，系统科学和控制科学中有许多非平凡的问题等待解决，而且——拟人化地应用该定律——解决这些问题的最佳方法，很可能是通过最大化系统科学家和控制科学家作为多样性通道的能力来实现的。"

调节是阿什比在其著作中高度关注的一个概念。他研究了反馈和前馈调节，并发展了分析和设计调节器的一般原理。他的大多数结果都用集合论术语描述，适用于任何尺度的变量。这可能是他的调节工作尚未在控制理论中得到利用的原因之一。控制理论主要是为连续变量或连续变量的离散表示而发展的。将微分方程或差分方程——它们一直是控制理论中的基本数学工具——与阿什比提供的一般集合论表述相整合，可能是困难的。然而，这样的整合将极大地增强控制理论的能力，特别是其对"软科学"的相关性。

"整体大于部分之和"这一表述——它刻画了系统研究的核心问题——常被一些人认为神秘，被另一些人认为平凡；很少有人理解其全部意涵。对于罗斯·阿什比来说，这一表述既不神秘也不平凡；他很好地理解了它，并试图发展方法论工具，以严格分析整体-部分关系。

在20世纪60年代初，阿什比发表了一种算法，用以确定一个n维关系是否可以从其所有(n-k)维投影中重建（k=1,2,…,n-1）[67]。他表明，一个关系可以从适当的投影中重建，当且仅当各投影的柱面扩展的集合交集与给定关系相同。尽管该算法只涉及整体-部分关系问题的一小部分，但作为澄清这一问题的首次尝试，它具有重要意义。然而，它几乎未被专业界注意到。即使在其发表十五年多后的现在，情况也没有多大改善。事实上，最近在诸多不同领域发展的系统模型几乎无一例外地由子系统构建而成。虽然每个子系统与总体系统变量集的一个子集相关联，且通常是对所涉及现象的经过良好验证的模型，但从给定子系统重建总体系统的能力问题几乎从未被提出。似乎许多系统建模者有一种将重建能力视为理所当然的倾向。显然，如果没有通过分析来确定系统模型的重建能力，该模型很可能是根本错误的，并可能具有极大的误导性。

1964年当我读到阿什比的论文[67]时，我对他关于重建问题的洞见印象深刻，但我花了十多年时间才充分理解其意义，并有足够的动力去继续阿什比开创的方向进行研究。我第一篇涉及重建问题的论文发表于1975年[106]。在该论文发表后，许多研究人员加入到进一步研究该问题各个方面的努力中，并发展了一个被称为重建分析[103,117]的新方法论领域。

重建分析的一些贡献者，最值得注意的是格里特·布鲁克斯特拉、罗杰·科南特和克劳斯·克里彭多夫，已经用信息论概念研究了重建问题的各个方面[117]。这也是阿什比在20世纪60年代中期开创的一个方向[71]，这显然是他1972年去世前不久的主要兴趣之一[92,96]。可以公平地说，他证明了信息论与系统研究的相关性，这是阿什比的主要贡献之一。

阿什比对系统重建性质的强烈兴趣，只是他更大兴趣的一个方面——对简化方法的永恒追求。以下引自他1964年一次专题讨论会上的发言[69,pp.166,168,169]，很好地描述了他在这一方面的观点：

"……系统理论（是）试图发展科学原理，以帮助我们应对具有高度相互作用部分的动态系统，其规模可能超过10¹⁰。面对远超此规模的问题和过程，他该怎么办？在我看来，此时他必须下定决心，是否接受这一限制。如果不接受，就让他去攻击它，试图找到战胜它的方法。如果接受，就让他全心全意地、一贯地接受。我个人的观点是，这一限制比能量守恒定律更不可能被突破。能量定律本质上是经验性的，可能在一夜之间消失，正如质量守恒定律那样，但阻止一个拥有10¹⁰资源的人执行一个真正需要超过此数量级过程的限制，基于我们关于因果的基本思维方式，且完全独立于其所依附的特定物质。如果这一观点正确，系统理论必须建立在简化方法的基础上，并将本质上以简化科学为基础。……我建议，未来的系统理论家必须是简化的专家。"

尽管阿什比并非计算机科学家，但他具有运用计算机的非凡才能。他证明了将计算机视为系统科学家的实验室、将计算机仿真视为其最重要的实验室工具之一，是完全有意义的。他开展了系统科学中最具典范性的基于计算机的实验研究之一；其目标是确定系统规模（所涉及变量的数量）及其连接度（变量间依赖关系的百分比）对特定类别系统稳定性的影响[90]。该研究仅限于线性动态系统。除其他结果外，它导致了连接度临界值（13%）的发现；该值具有临界性，因为对于足够大量的变量（10个或更多），几乎所有连接度小于临界值的系统都是稳定的，而几乎所有连接度大于临界值的系统都是不稳定的。在另一项研究中，通过计算机实验研究了由功能相同的有限状态机构成的系统类别。该研究的目标是确定循环长度及其他行为特征对各种类型有限状态机的系统规模的依赖性[75]。这些以及阿什比参与的一些其他基于计算机的系统实验研究，清楚地展示了计算机作为系统科学实验室的作用。

阿什比的独特贡献之一，是他将能量系统中已被充分理解的功率放大原理扩展到信息系统领域的思想。这一信息放大的思想在他的两部著作和许多论文中，在多种不同语境下被讨论，如调节放大、适应放大或设计放大。其最一般的形式嵌入在智能放大器的概念中[41]。在这一语境下，阿什比认为智能意味着解决问题的能力，而解决问题又意味着从全部可能性中做出恰当选择的能力。因此，他将智能放大器基本上视为选择放大器。当问题是调节时，选择放大器将采取调节放大器的特殊形式；当问题是设计具有给定性质的系统时，它将采取设计放大器的形式，等等。

各种形式的信息放大器思想具有深刻的哲学意义和实践意义。如果这样的放大器是可能的，那么至少在原则上，也有可能构建能够解决超出其设计者智力范围问题的人造系统。尽管具有如此巨大的理论和实践潜力，信息放大器的思想尚未在阿什比本人所发展的概念水平之外得到进一步阐述。这显然是他的伟大思想之一，但仍被低估，因而未得到充分发展。

系统设计的各个方面，特别是元设计问题，经常在阿什比的著作中被讨论，尤其是在他的晚期论文[96,98]中。他将系统设计视为一个调节过程，并运用信息论的一些概念来发展若干元设计原理，这些原理对于极其复杂系统的设计尤为重要。将这些原理纳入每一本系统设计教科书中，已是久拖未决之事。

我只能讨论阿什比的一些思想，特别是那些对我自己研究工作有所影响的思想。他的著作中还有许多关于适应性系统、自组织系统、自复制系统、系统建模、归纳、预测、超稳定性、生物计算机等主题的更多思想。他的一些思想影响了当前的科学观点并得到了进一步发展（例如，状态决定机器的概念或信息论在系统研究中的作用），一些只是最近才成为相当关注的研究对象（例如，重建分析），但他的著作中仍有许多丰富的思想在很大程度上被忽视，或至少没有在阿什比本人的阐述之外得到发展（例如，基于信息的放大或他的元设计思想）。可以合理预期，本书收录阿什比主要论文的出版，将重新激发人们对这一智力宝库的兴趣，并将导致其中所包含的许多思想的进一步发展。

来源：宋胖说事儿（公众号）

原网址链接：https://mp.weixin.qq.com/s/W3FmgxL895PSnYSbh1wOtg?scene=1&click_id=19

编辑：张家乐

作者: 刘海明 时间: 2026-2-4 20:09

【案例】

智能的机制——阿什比论文集（2）

大家好，接着由我来为大家翻译控制论先驱阿什比的论文集《智能的机制》。全书共有8个专题40多篇论文，基本把阿什比（除了名著《大脑设计》《控制论导论》之外）主要代表作都囊括了。除了个别零散论文（比如《智力放大器设计》）外，大多没有被翻译为中文。我想尝试翻译出来，与群友共享。也许在今天AI浪潮几乎让人疯狂的背景下，聆听一下这位控制论先驱对智能的思考对我们有帮助，能让我们冷静下来，对AI如实观照。我们接着翻译机制定律的专题。接下来我们翻译的是本专题第一篇论文《控制措施对稳定性的影响》控制措施对稳定性的影响

战争期间，政府管制措施的引入导致许多事务通过行政命令确定某些数量、价格或其他变量，而在自由放任体制下，这些本应由市场自行调节至均衡水平。汇率、工资和价格都是这方面的例子。这种管制不仅在战争期间多次出现，而且和平时期管制或计划经济的进一步扩展，可能会导致更多变量以这种方式被固定下来。

本文旨在指出：在任何一个动态系统中，固定某一变量可能会导致其余变量变得不稳定；同时，本文将论证有一类变量尤其容易引发这种结果。（在社会或经济系统中，向不稳定状态的转变将表现为各种奇特且不良的"恶性循环"随后不断滋生。

该理论可表述如下：一个包含n个变量的动态系统，其方程一般具有以下形式：

在平衡点（该点处各变量的变化率为零）附近，方程可在不失一般性的前提下视为线性的：

系统要在平衡点处保持稳定，其必要且充分条件是：该方程所有根的实部均为负数。

（由于我们讨论的是实际系统，所有系数 aij 均为实数。）进一步地，由于我们讨论的是在自由条件下已存在一段时间且保持稳定的平衡点，故可假设该系统原本处于稳定状态。

现假设我们将 xn 固定。其余部分的稳定性将取决于以下方程根的实部：

第一个系统的稳定性绝不意味着第二个系统也稳定。因此，固定某一变量确实可能导致系统其余部分变得不稳定。

数值示例如下：系统导出方程

λ3+3λ2 +26λ+60=0；

该方程的根为 -2.44，-0.28，±4.95i（其中 i = -11/2）。由于所有根的实部均为负数，系统保持稳定。但若固定 x3，则得到行列式为

该方程的根现为 +1 和 +2 ，故系统变得不稳定。

然而，我们还可以进一步分析。由于所有根之和等于主对角线元素之和 ∑aii ，任何使该和变得不那么负的变化都将趋向于降低系统的稳定性——在其他条件不变的情况下（此处论证诚然不够严谨）。因此，若 ann 为绝对值较大的负数，则固定 xn 尤其可能导致失稳。这类变量不难识别，因其行为遵循方程：

其中 ϵ 独立于 x ，但随时间变化，而a 为绝对值较大的负数。此类变量（x ）具有以下特性：（1）始终趋向于 −ϵ/a ；（2）快速趋向于 −ϵ/a ；（3）由于 −ϵ/a 以 a 为分母，其值较小，故 x 的波动幅度亦较小。

因此，本文结论如下：（1）通过行政命令固定某一社会或经济变量，存在导致系统或其部分失稳的风险（后者表现为各种"恶性循环"的相继出现）；（2）从这一角度看，尤其危险的变量类型是：在自由条件下变化迅速，且通过其快速变化影响其他变量，自身却仅在狭窄范围内波动的变量。

本人并非经济学家，无法提供具体实例，但相信此类实例不难找到。

来源：宋胖说事儿（公众号）

原网址链接：https://mp.weixin.qq.com/s/6jvKV8ksCfQ6ttxpQXIpwA

编辑：张家乐

作者: 刘海明 时间: 2026-2-4 20:17

【案例】

智能的机制——阿什比论文集（3）

我们接着翻译机制定律的专题。接下来我们翻译的是本专题第二篇论文《大脑在自然世界中的地位》。

大脑在自然世界中的地位

（此论文为《大脑设计》一书的最初构思，发表于1967年1月15日）

关于大脑，人们已经了解甚多，但我们的大部分知识仍以实验和观察事实的形式存在。然而，随着人们对大脑更一般特性的兴趣日益增长——例如各种形式的"人工智能"——现在亟需对"大脑"的本质进行抽象表述，一种可直接转化为计算机或硬件的表述形式。本文基于集合论和状态决定系统的概念，给出了这样一种表述。

1.一种新机制理论。

我们当然可以这样描述大脑：它是一个物理化学部件的集合体，每个部件作用于许多其他部件，且每个部件都受物理化学定律的支配（在神经生理学家已证实的范围内）。但大脑的部件如此之多，以至于我们处理多部件协同作用的常规方法实际上已无法适用，我们必须停下来重新审视这一状况。

在神经细胞的特性被确定之后，还剩下将这些特性与大量神经细胞组织所呈现的特性联系起来的任务。所涌现的特性是有机体的行为特性，重要的是必须立即认识到：有机器的行为特性绝不能直接从单个神经细胞的特性推导出来，因为有机体的大多数行为特性源于神经细胞之间的相互作用——它们是物理学家所谓的"协同"现象。因此，任何关于神经细胞与行为之间关系的研究，都必须高度重视相互作用的问题。这一主题往往十分复杂，过去曾被认为是令人望而生畏的；但在过去二十年间，我们对复杂机制的理解取得了巨大进展，现在这一主题已可以较为清晰地加以论述。

在1940年前后，试图处理神经细胞与行为之间关系的努力受到很大阻碍，原因在于：有志于科学的机械论者手头只有钟表、车床和打字机这类简单机器作为例子。因此他显然认为，任何"机器"都不可能纠正自身错误、不可能进行预测、不可能具有主动性，等等。这些概括对于1940年前的机器类型而言大体正确，但随着机器此后发展出全新的能力，许多旧有的概括如今已完全错误。

新机器（以及我们可以称之为"新机械论者"的思想）的本质，可以通过简要提及历史事件来最简单地阐明。1940年以前，机械装置（以及思考它们的"经典"物理学）属于"因果"类型，其典型特征是一个原因导致一个结果，然后过程就结束了；上紧发条的钟表走24小时，然后停下；车床接通电源后，循环运转不止；打字机按下按键，打出字母，然后停止。面对这些机器，心理学家也类似地进行理论建构：刺激引发反应，停止；狗经受一系列闪光和强化，形成条件反射，停止。更复杂的行为理论无法形成，因为没人知道如何思考复杂行为。

随后，霍华德·H·艾肯建造了马克一号。查尔斯·巴贝奇在一个世纪前就已理解顺序机械的原理，但未能解决纯机械问题。但马克一号运转了。这是一个通过构造给出的证明："机械装置"可以包括那种将因果串联成无限长链条的类型，每个原因引发其结果，每个结果本身又成为下一步的原因。走走停停变成了走走走走走……，一种全新的计算行为财富被证明是可能的。

第二个重要贡献出现了（事实上稍早一些），当时无线电工程师驯服了"反馈"。人们很早就发现，给无线电接收机增加"再生"是提升其性能的有力方法，但代价是使接收机几乎疯狂般地难以控制。这场战斗持续了30年，但到1940年工程师们获胜了——他们理解了反馈，并能将其作为有用工具加以运用。这一理解是对行为新科学的第二个重要贡献，因为大多数生物系统富含循环作用。1940年以前，缺乏理解使任何现实性的处理成为不可能；甚至只是提及循环作用的存在，也往往使讨论陷入震惊的沉默，因为每个人都在反思自己无法清晰思考此类问题。然而，今天我们不再畏惧这一主题，因为我们知道它可以被理解，且有其自身的逻辑、定理和方法。我们也可以看到，这一进展在于理解长因果链条的特性，在这种情况下是围绕同一物理回路循环往复（而非像马克一号的过程那样线性向前）。

有了无线电接收机和马克一号作为先例，数学家和工程师得以将他们的方法扩展到同一领域。在这里，他们得到一股数学思潮的大力帮助，这一思潮源于怀特海和罗素的著作（1925），试图使数学思维摆脱其对连续性、线性和解析性的过度沉迷。他们的工作由以N·布尔巴基为集体笔名的法国学派充分发展，该学派详细展示了所有数学过程如何可视为对"元素集合"的某些基本运算的特例。对"元素"的全部要求只是它们可被明确识别。它们可以是数字1,2,3,……或直线上的点，但同样可以是气象学家区分的五种云型，或某种鸟类发出的三种叫声，或马的四种行进模式。因此，如果生物学家或心理学家的观念足够明确，可以作为基础，他就拥有了现代数理逻辑可以应用的必要材料。于是，一门完全严谨的行为科学的可能性由此产生。它从观察者的数据出发，将这些数据作为现代集合论中的元素，从而进入数学和逻辑的严谨世界（如Ashby, 1952, 1966）。

行为的新数学或逻辑，不应与本世纪初的"数学生物学"相混淆。当时唯一可用的数学方法是解析的、连续的和线性的形式，最初为解决牛顿问题而发展；在生物数据或概念被修改以适应僵化的数学框架后，它们往往只是生物现实的漫画。然而，新数学完全无需扭曲。它的最初步骤更多地是由机械计算的需求和外在形式引导的，但生物学家不应被这种呈现方式所误导。"有限状态机"（Gill, 1962）、"无噪声转换器"（Shannon and Weaver, 1949）、"状态决定系统"（Ashby, 1952）以及"时序电路"的理论现已充分发展，本质上是同源的。它们基本上都处理这样一种情况：系统的下一状态由紧邻的前一状态决定，这种情况在自然系统中如此普遍，以至于被许多人视为绝对普遍。所有理论都表明，这一（表面上）简单的限制实际上蕴含着深刻而广泛的推论。

状态决定系统这一基本性质的表述可以采取多种形式，行为理论的学习者必须准备在它们出现的任何形式中识别它们。最简单的形式明确陈述下一状态（x'）作为较早状态（x）的函数是什么：

因此，如果 x′=x+0.7 ，那么状态 x=0.2 之后，x 将变为 0.9 ，然后是 1.6 、2.3 ，依此类推。如果将 x 视为在步骤 1,2,3,... 时取一系列值 (x1,x2,x3,...,xn) ，那么同样的方程将表现为：

有时 x 被视为时间 t 的函数，并记作 x(t) ；如果时间以步长 Δt 推进，那么方程将表现为：

一种等价的方法是，不指定 x 的新值，而是指定它相对于先前值的变化量 Δx 。于是 Δx=x′−x=x(t+Δt)−x(t) ，方程将具有如下形式：

其中 g 是函数：f(x)−v 。如果步长变为无穷小，在时间间隔 dt 内，Δx 变为 dx ，方程则变为常一阶微分方程的形式：

上面假设代表一组值中某一个值的符号 x ，可能是一个向量，例如具有 n 个分量。如果这些分量变量为 x1,x2,...,xn （其中下标用于区分不同变量，而非如方程 (2) 中表示不同步骤），则方程可具有以下扩展形式：

如果步长为无穷小，方程则变为一组联立常一阶微分方程：

有时下标本身是连续的，且 g 函数可能表现出某种特殊关系。热传导（热量或溶质的扩散）就属于这种情况，此时温度或浓度 x 随时间的变化方式取决于沿线性距离 y 的相邻温度；于是方程变为（例如）：

这里重要的是，所有具有上述任何类型可规定行为方式的系统，都受制于一种新的机制逻辑。通过这种方式，许多独立发展起来的知识分支可以被整合在一起，获得统一的行为理论。读者必须认识到，尽管这一理论包含了数学物理学的许多结果（如上面的方程 (8)），但它并不受其限制。其基本概念是"映射"（mapping）。它总是从一个集合（其"定义域"）到一个集合（其"值域"），是一种规则（或过程、转换、变化或任何其他对应关系），对于定义域中的每个元素，给出值域中一个且仅有一个元素。正是"一个且仅有一个"这一特性刻画了"映射"，而非某种物理作用；因此，如果两个集合是母亲和女儿，映射是从女儿到母亲：因为每个女儿有且仅有一个母亲，而每个母亲可能有多个女儿。下面，如果映射 μ 将元素 x （在定义域中）转换为 y （在值域中），我们将写作：

定义域和值域有时可能是同一个集合；例如，"平方"运算将整数集映射到整数集。当这种情况成立时，映射可以重复进行，从元素生成：

将此方程与前面的方程 (2) 相比较，我们可以看到，映射的数学概念为我们提供了表示状态决定系统（state-determined system）所需的形式。如果不涉及此处不适宜的技术细节，这个主题就很难进一步深入。但我希望已经说得足够清楚，以表明以下命题是可以辩护的：1）现代机制理论建立在映射概念之上，包含了过去获得的科学知识；2）现代机制理论通过大量考虑因果关系（既包括长序列中的，也包括带有反馈的），为生物学和心理学的复杂事实提供了充分的技术和逻辑；3）机制的现代逻辑根本上是一种行为的逻辑（而非物质或能量的逻辑）。因此，新机制论者（New Mechanist）感到自己有能力尝试弥合神经元与行为之间的鸿沟，但他也或许格外意识到，要弥合的鸿沟有多么巨大！五十年前，这似乎很简单：刺激进入，反应出来——还需要什么？当时人们假设，所需要的只是大量的反射，加上一点整合把它们焊接在一起即可。不幸的是，随着对机制的理解不断深入，人们也越来越认识到神经元活动与整个有机体行为之间的概念距离有多么遥远。今天的处境与物理学中的情况不无相似：当一位钢桥设计者反思其技艺建立在量子物理之上时。今天没有桥梁设计者会直接诉诸量子物理定律：这种联系必须经过几个阶段，通过原子运动、晶体结构、金属强度、实用冶金学、梁的强度，最终到达整体结构。从神经元到行为的鸿沟似乎同样将必须分阶段来弥合。接下来的章节将概述这样一种尝试

来源：宋胖说事儿（公众号）

原网址链接：https://mp.weixin.qq.com/s/ROc8JN1COsLGp5cRWQd0aA

编辑：张家乐

作者: 刘海明 时间: 2026-2-5 21:35

【案例】

智能的机制——阿什比论文集（4）

我们现在翻译的翻译机制定律这一专题。今天接着翻译的是本专题第二篇论文《大脑在自然世界中的地位》后续部门。

2演化与平衡

" behaving organism "（具有行为的有机体）可以从三种截然不同的观点来讨论。

第一种观点讨论其内在意识、其觉知。我将从这个角度无话可说，因为我无话可说；这个问题涉及极为困难的哲学和科学方法问题。

第二种观点考虑其创造性方面，如一个人发明新的音乐和谐系统或创作出乔伊斯式的散文。对此我也无话可说，因为我没有客观标准来区分这类产物与鹅卵石的吱吱声，或由词典和随机数表生成的一系列词语。当"什么都可以"时，科学就没什么可说的了。

第三种观点将具有行为的有机体视为为生存而塑造的：作为一个高度适应其环境的系统，由演化和自然选择塑造而成，并且能够（特别是在人属物种中）产生极其复杂的行为模式，这些模式显示出（对机制论者而言）对环境惊人复杂的适应。在这里，大脑被视为仅仅是一种促进生存的器官。这第三种观点如今已取得了一定的完整性，因为已不再存在完全神秘的大型鸿沟。我们今天所见的将在下面概述。

我们的出发点是这样一个确立已久的事实：地球约在五十亿年前凝固，自那时以来，影响其表面的条件要么相当恒定——如能量定律、引力定律、碳和水的性质等——要么变化缓慢——如其温度、到达地面的阳光质量、海洋的组成。

机制的逻辑现在变得适用。地球表面在每一时刻都将具有一个明确定义的状态——每粒沙的位置、每点的温度、每个物种的分布等等。自然定律在每一点上作用，决定该状态将如何变化。由于每个状态都转向某个状态，且从不转向两个状态，自然定律规定了可能状态集合到同一集合的映射。（这种表述是否完全真实尚不清楚；它在很大程度上肯定是真实的，而且它也是指导科学家日常工作的普遍假设。在本文中，我们将假设它是完全真实的；原子不确定性造成的复杂性会使我们反复说"统计上确定的"或"平均而言"，但这种修正不会使以下概述产生重大改变，因此我们将忽略这种复杂性。）

让我们将由自然定律及其基本力引起的映射称为L，因此，如果它作用于状态 s，它将 s 改变为 L(s)。现在，说地球表面的定律和条件基本未变，意味着映射（或算子）L 随时间未变，因此作用的操作符序列一直是重复序列：L, L, L, ...而非，比如说，L,M,N,... 这样的序列。

如果定律或条件发生了显著变化，就会出现这种情况。这一（看似微不足道的）观察实际上将为我们严格处理生命和智能的起源提供一个可靠的出发点。

我们从这样一个事实出发：第一个序列显示出高度的冗余性（按香农和韦弗1949年定义的意义），从而显示出约束；因为较大的集合（由 J,K,L,M,N,... 按某种顺序组成的所有序列）被限制为一个子集（仅由元素 L 组成的那些序列）。布尔巴基学派已经证明，特别是在"集合的层次与结构"一节中，对子集的限制始终是产生性质、关系、模式、结构（这些词在普通语言中使用，或在数学中具有特殊精确性）的根本操作。因此，从映射理论来看，我们可以预期由单一算子重复生成的状态序列会显示出特殊特征。这种特殊特征出现的一种方式是处于平衡态——即满足以下关系的状态：

L(s)=s （11）

这类状态在将大脑作为生存器官的研究中具有最高的重要性。

应该注意到，大多数"经典"的平衡例子——静止悬挂的摆、停走的手表、所有反应耗尽的化学混合物——都极其简单，并且完全依赖于有限量的能量。另一方面，"开放"系统仍然可以是一台"机器"（正如计算机通过状态决定而成为机器），但可能显示出这富有层次和魅力的的平衡态（有时区分为"稳态"）。这种丰富性来自于这样一个事实：从某一研究层次上被视为"状态"的东西（因此未被分析），在更仔细检查下，可能被发现具有丰富的内部结构。因此，罗马帝国在数百年间保持为可识别的同一实体，尽管遭受许多扰动，而更仔细的考察表明，实际上大量的个人活动和变化促成了帝国整体的稳定性。在这种情况下，严格的处理仍然是可能的：如果（按定义）满足

L(S)=S (12)

即，如果 L 作用于S 不产生新的状态（即 L(S)=S ）。

因此，尽管 L 可能将状态 s1 改变为 s2 ，它的作用只是引起集合 S 内部的变化；而且如果 S 具有某种特征性质，当 L 作用时这一性质不会丧失。（"位移后的稳定性"是一个特例，其中 L 是复合映射 λn∘Δ ，这里Δ 是实现某种位移的算子，使得 Δ(s)=s ，而 A 是其重复操作最终使状态从 Δ(s) 回到 s 的映射。）

"所有系统都趋向平衡"这一陈述包含了许多经验，但对于严格的行为理论来说过于模糊。然而，它不成立的情况似乎都是高度特殊的，并且需要精确的构造。即使一个系统没有平衡态（或循环），它也会趋向某些"优选的"区域或状态集合；只有当——如果该系统由以下条件规定时——才没有偏好（在相空间中轨迹没有收敛或发散）：

g ‘s函数具有这样的特殊性质：处处（都满足某种条件）

同样，如果系统是随机的且马尔可夫的，它也会趋向某些"优选的"状态，除非转移概率矩阵不仅其行相加为1，其列也相加为1。因此，"系统趋向平衡"这一陈述确实有一定的合理性。在任何特定情况下，数学上可接受的形式都必须根据具体情况来发展以适应其细节。

因此我们可以说，具有不变定律的大多数系统（即处于不变条件下的系统）会趋向它们滞留的状态（或状态集合）；通过显示出向这类状态的收敛性，它们在定律与系统状态之间（以及在其组成部分之间）产生了关系。所产生的这种关系就是"适应于生存"。在初级层次上，这种关系是重言式的；在复杂系统的后果中，它发展出无限的复杂性。

在平衡态，各部分之间的关系必然是整体性的，且是一种协调关系。下面将给出一个例子来说明其含义。设矩阵为：

作为算子，或定律，或驱动力，它通过模12乘法改变状态（如向量

变为状态或向量

在这种情况下，状态已被改变。然而，向量

却被算子保持不变：

这些结果分别超过12的倍数2、5和3，因此状态被再生，且是平衡的。这里重要的是，三个分量值——2、5和3——协同作用以相互保存。例如，5依赖于2，因为5是由

3×2+1×5+2×3

得到的。如果2是1，结果就会

3×1+2×5+2×3

即14或2（如第一个例子中）。

这种协同作用是相当普遍的。在任何平衡态（无论简单还是具有复杂内部结构），各部分总是相互作用，使得所有部分的作用是再生每一个部分的状态。因此，如果我们仅仅观察一次再生行为，我们完全可以这样说：这组部分正在（在这些自然定律范围内）行动，以保持其条件不变。

那么，给定一个动态系统是孤立的，今天已存在一个完全严格的理论，说明它为什么应该趋向于以行为上"自我保护"为特征的状态或形式。但"状态或形式"必须等同于"有机体加环境"这一系统。例如，在绿洲，水井使村民存活，而村民维修水井。两者之所以能够持续存在，是由于它们之间恰当的相互作用。生物体所显示的"适应"总是针对其环境的某种性质：让环境改变，曾经适应的行为方式可能变得完全不合适。

（确保生存的）关系在那些稳定状态集合呈"柱形"的情况下，在概念上变得更简单，也就是说，其中某些变量保持在明确标记的界限之内。这些变量随后被识别为适应系统的"本质变量"——如果整体要生存，这些变量必须保持在"生理"限度之内：如食物的供应、循环血液的体积、威胁骨骼和皮肤连续性的压力、温血动物的体温等。

因此，严格的行为理论与生理学家不谋而合，都将内稳态视为所有适应性行为的核心。在研究行为时，“本质变量很容易被忽视。它们几乎保持恒定，而非本质变量则在很大范围内波动，变化迅速，通常会吸引观察者的注意。然而，非本质变量的戏剧性活动是次要的：它们之所以有意义和关联，仅仅是因为它们剧烈的变化起到了将本质变量保持在限度内的作用。如果它们产生了其他效果，这些效果对研究基本原理的学者而言，仅仅是副产品。

“内稳态”这个词最初由沃尔特·B·坎农（1932年）创造，用来描述这些过程，只要它们发生在生物体的自主、植物性和内部过程中。然而，严格的行为理论强调，这里内部与外部的任何界限最终都是武断的，许多过程同时利用内部和外部因素，并且共同的原则支配着两者。出于这些原因，如果不想失去行为理论的基本统一性，观察者能够将非本质变量（有机体行为）的自由活动与其最终实现的内稳态联系起来，并且是这种内稳态赋予了它们最终的意义，这一点至关重要。只有这样，有目的的自由活动才能与那些仅仅是力量在行动中表现的活动区分开来。当然，本质上两者并无区别：它们仅在对于某种已被理解的内稳态的关联性上有所不同。

从这个观点来看，人只不过是一个物种，它专门发展出了极其复杂的自由活动，并且设法获得了其中一些优势，同时避免了大部分危险。他可以熔化钢铁而不烧伤自己，可以制造和运行发动机而不被撕成碎片，可以跨大陆输送电力而不被电死。通过这种方式来看待人类的活动，我们可以从地球长期隔离这一基本事实，推演出一个连续的线索，直至那些总是倾向于内稳态行为的极其复杂系统的出现。

现在让我们更详细地考察这些自由活动，这些行为，以便了解人类那些众所周知的行为如何与其背后的机制联系起来。我们将首先考察称为“反射”的非常简单的行为片段，然后是更复杂类型的称为“本能”的行为，最后是那些很大程度上依赖于“学习”的行为。所有这一切都将被视为是支配（并驱动）所有物理化学事件的基本映射的表现形式，这些形式通过自然选择塑造为内稳态形式。

来源：宋胖说事儿（公众号）

原网址链接：https://mp.weixin.qq.com/s/ncKN6E5qT3guFAeh8A3YYA

编辑：张家乐

作者: 刘海明 时间: 2026-2-6 19:47

【案例】

智能的机制——阿什比论文集（5）

我们现在翻译的翻译机制定律这一专题。今天接着翻译的是本专题第二篇论文《大脑在自然世界中的地位》后续部分。

3反射有机体

反射，以其多种形式，在一般理论中呈现不出什么困难，因为现在已知，并且已在多种方式中得到证明，如果各部件具有某些最小性质，那么由它们组成的足够大和复杂的网络可以产生任何明确定义的行为。因此，那个老问题：机器能做吗？答案总是肯定的；只要所要求的活动能够以操作上有意义的术语进行明确的描述。生理学的所有反射都很有能力，而"反射问题"本质上就是发现每个特定反射的特定细节。

其中许多是调节性的，即稳态的，这在今天并不提供什么异常困难，因为现在众所周知，这种调节只需要（由基因模式）提供一个反馈（从主要效果返回原始原因的任何因果链），安排成"负"的，即返回的效果从原始扰动中减去，从而倾向于抵消它。在复杂情况下，"减法"操作可能必须以技术上复杂的方式理解，但基本思想保持不变。这种反馈的理论现在已广泛发展，部分在伺服机制理论中。希望使用这种反馈的本质上稳态方面的生理学家，不应剥夺自己从反馈机制理论中可以获得的大幅增加的知识和技术辅助。

然而，生物学主题的研究者会注意到，这种理论往往过于专门化于反馈是线性和连续的那些情况。生物调节器往往严重地是非线性的（反应与刺激不成比例）和非连续的。在反射水平研究这种调节不需要新原理，只需要新技术。这种非线性和非连续的调节在其最复杂的形式中出现在学习反应中（后面提到）。

4本能有机体

虽然反射有机体在机械论表述中几乎没有什么困难，但这种困难只有在反射保持简单时才很小。然而，现代机制理论设想的是复杂性无限的机制，既在其工作部件的数量方面，也在支配其内部活动的复杂条件性方面。

今天被识别和列出的"本能"，每一个都有一个目标，但这一事实并不使它们脱离机制的类别，因为任何具有某种持久性和某种结局的可描述行为片段都必须有一个界限，因此在某种意义上具有稳定性——纯粹短暂的和容易转移的既不被注意也不被命名。因此，任何具有许多平衡状态的系统都可以被描述为具有同样多的目标和"本能"。日常生活中的机器似乎缺乏它们，仅仅是因为这些机器在行为方式和复杂稳态方面太过贫乏。让一台机器具有现代的活动和丰富的可能性，观察者很快就能命名其行为中的许多趋势，如果在生物有机体中，这些趋势会要求被识别为"本能"。

曾经有一段时间，本能被认为与反射根本不同，因为本能往往是由某种无法与任何特定物理或化学事件相识别的情况或事件引发的。因此，狗往往在"某种奇怪的东西"出现时会吠叫，而"某种奇怪的东西"无法与任何特定的声音或视网膜的任何特定刺激相识别。然而，现在已知，这种对刺激之间组合和关系的反应特性，如果机制以阶段或层次工作，使得第一层次"计算"初级刺激的各种函数，然后后续层次计算这些函数的函数，最后阶段只有在这些"计算"过程在倒数第二阶段产生了某种实际物理事件时才起作用，那么这种特性就很容易从机制中获得。这样，对初级刺激的任何定义函数，无论它可能多么复杂或微妙，都可以以纯粹的机械方式转化为适合作为本能行动物理原因的物理事件。反射和本能之间的明显区别之所以产生，部分是因为较早的理论大多无意识地基于一个单层次模型：刺激到反应，没有中间处理。

通过进化发展的有机体，因此发展出越来越复杂的机制，提高其以越来越复杂的方式对环境的扰动和威胁进行稳态反应的能力。这种进展有多么有序？在这里，机制的逻辑是坚定不移的：一般来说，每一个新的添加，每一个扩展，都会导致一个本质上全新的总体系统，其性质也是新的。只有当存在特殊的简单性时，新的扩展才能给出仅仅添加到已有行为集合中的新行为。一般来说，无论机器有多大，对其做出的改变有多小，如果机器不受限制，我们就无法对其行为中可能发生的变化的大小设定任何限制。数学家知道相应的事实，即如果

那么当参数 a 具有特定值 a1 时，这个系统的行为并不以任何方式限制 a 被改变为 a1+Δa 的系统的行为。

这一事实，尽管对那些寻找简单性的人来说是不愉快的，但在机制理论和行为分析中是基本的。正如少数化学元素（C、H、N、O）可以以许多组合放在一起形成有机化学的许多化合物一样，许多其他单元（晶体管、神经元、分子）也可以放入组合中，其行为多样性不受单元统一性的限制，而可以像其组合数量一样多样。这种丰富性正是来自单元之间积极相互作用存在的丰富性，简单性只在相互作用很小时发生（单元很多时）。

应该注意的是，整个系统的行为不能通过我们将整个系统视为由各种反馈环组成，找到每个单独环固有的行为，然后以任何方式添加或组合单独行为来预测。例如，已经构建了这样的系统，其中每一个可能的环都具有负反馈（因此每个环本身将是稳定的），但整体上却显示出不断增加的不稳定性发散（例如，Ashby，1952）。同样，机制的逻辑表明，我们没有权利期望本能（作为行为中观察到的复杂趋势）将是简单的、整洁的或整齐可分类的。在这里，实地工作者或临床医生有最后的发言权，因为只有他能说什么本能值得区分、定义和命名。

5学习有机体

学习和记忆的本质，曾经如此神秘，在过去二十年中已完全阐明，现在可以将它们视为与物质中发生的其他过程完全同源的整个过程。基于所有物质中的过程（原子水平以上）都是状态决定的这一基本假设（得到两个世纪科学工作的强烈支持），当观察者无法观察系统的每一个变量，因而发现它不可预测时，通过考虑他在可观察事物中的较早事件来恢复可预测性，"记忆"的概念就变得适用了。因此，如果三个变量——x 、y 和 z 的系统——只能在 x 处被观察，观察者很可能会发现，t+1 时刻的 x 值是可以预测的，只要他知道 t 、t−1 和 t−2 时刻的 x 值。从信息论的角度来看，这种变化非常简单：变量 y(t) 和 z(t) 被变量 x(t−1) 和 x(t−2) 所取代，正如它们可能被 x 、y 和 z 的任何两个函数所取代一样。

这种类比是精确的。如果检验（用香农的记号）

H(x)+H(y)−H(x,y)≠0

表明在他的意义上"传输"正在 x 和 y 之间发生，我们就有了两个空间分离变量之间的普通传输，比如说，神经系统中的两个点之间。如果检验

H[x(t)]+H[x(t−k)]−H[x(t),x(t−k)]≠0

成立，那么"传输"（以完全相同的方式定义）正在 t 时刻 x 的事件与 k 个时间单位之前在 x 发生的事件之间发生。当如此时，我们就有了允许我们将"记忆"视为时间上传输的基本性质，这与我们充分理解的空间上的传输完全同源。

两个时间之间的传输在物理上应该是可能的，这需要某种特殊的物理机制，正如两个地点之间的传输一样。所使用的机制，虽然在某些方面差异很大，但总会使用某种形式的平衡，因为试图将某种状态从一个时间携带到另一个时间，而不被破坏和不丢失信息，要求某种东西在该间隔内是不变的，而"不变性"是"平衡"的核心。

用什么物理或化学"状态"来保持不变，来携带"记忆"，在行为的更大问题中并不重要：所必要的是该状态应该具有某些性质：如何实现这些性质可以由纯粹局部意义的事项决定。显然，正如没有人期望一种方法被用于大脑和身体中所有从一处到另一处的许多传输一样，同样没有理由期望只有一种方法被用作从较早到较晚传输的"记忆基础"。更有可能的是，有机体将使用多种方法，每一种都适应于其特定目的的需要。

因此，记忆痕迹的细节在行为的更大问题中几乎没有什么意义。更有意义的是首先用于制作记录的方法，以及后来有利地使用它的方法。目前，我们的科学思维往往被大型数字计算机的例子严重误导。它有一个大的记忆存储，远离工作部件，工作部件将可记录的事实发送到特殊地方，然后后来回到完全相同的地方重新获得信息。这种方法，需要大量精确连接的线路，在生物机械中几乎无法实现，尤其是因为这种机械必须使用易受损伤、饥饿、感染和类似扰动的部件。更有可能的是，大脑的大多数记忆痕迹发生在其作用部位，并在那里保留。因此，似乎有助于特定反应（例如，回答"你叫什么名字？"）的痕迹将是广泛分散的，每一种只有很小的效果，但在它们的总效果中累积成对行为的决定性决定。"记忆"的概念将不得不变成"诸记忆"，就像中世纪的"动物热"作为一个统一体，变成了今天所知的关于代谢和氧化的一切。在记忆类型的一端是那些对行为留下永久印记的简单事件，那些常被称为"痛苦的"或"可怕的"。这些学习往往使用自然选择发展的先天机制，准备学习和记录什么是痛苦的，但需要由儿童的特定环境提供细节。训练机制（产生"被烧伤的孩子"的行为）显然是稳态的，[它是一种稳态机制，其设计的最终细节被推迟，直到必要的信息由环境提供。这种发展稳态机制的方法在本质上显示了学习过程的所有必要特征；"更高"的形式本质上是相似的，被发展到复杂得多的程度。

3.6复杂性

机制的逻辑，定量地使用，表明任何像人脑一样复杂的机制，如果它及其环境是丰富连接的（内部和两者之间）——可能性将如此巨大，以至于所有地质时间都不足以将未组织的网络发展到适应的形式（Ashby, 1952），那么它永远不可能通过进化或个人学习被带到充分自我保存的形式。大多数儿童达到相当适应的成人状态之所以可能，只是因为适应可以分阶段发展。因此，我们的地球环境允许儿童学习如何将水倒入杯子，而与他刚刚学习的英语无关，这些又与他学习捏狗时狗会做什么无关。有时必须学习的东西不是完全可分离的，但允许学习分阶段发生，每个阶段只能参照先前建立的东西来建立。因此，算术可以按加法、减法、乘法、除法的顺序学习，但不能按相反顺序。而要想学撑杆跳，必须先学会站立、行走、奔跑和操纵长物体。因为我们的地球环境允许成人的充分适应主要分小阶段发展，这个过程比完全泛化的情况要简单得多。

然而，一旦对观察者如果要充分理解人类有机体中在他面前的东西必须获得多少信息做出定量估计，我们就会发现信息量可能超出一切可能的界限（例如，Bremermann, 1965），即使是最慷慨的允许。似乎很清楚，当我们离开关于大脑的旧思维方法，及其严重的过度简化，转向现代方法时，我们将不得不认真对待信息量的问题，以免浪费时间尝试不可能的事情。

"复杂性"的问题必须在我们试图理解大脑（无论是自然的还是人工的）的尝试中发挥主导作用，因为一旦我们离开1940年之前我们知道的机制，我们就到达复杂性以压倒性速度增加的形式。它们中的大多数性质增加，不是作为体积或质量，而是以组合速度，因此它们增加的阶数要么是 e^n 或 n!，或者更快（例如 Ashby, 1966）。因此，在任何合理时间内发生适应的可能性根本上依赖于简单性的存在。相互作用不完全或微弱的情况，事实上，在我们的地球环境中非常常见，而所知的情况表明，大脑已被进化深刻地塑造以利用这一事实。因此，通过实现一系列子目标来致力于主要目标的极其常见的方法是这种适应的一种表达。目前几乎不能说更多，因为与复杂环境反应的复杂动态系统的一般研究才刚刚开始。

然而，今天，关于机制的逻辑已足够了解，表明神经元单位的性质可以与整个有机体的较大行为相关联的一般原则，可以被追溯，其严格性仅受我们时间和耐心的资源限制。

3.7致谢

本文所基于的工作得到美国空军科学研究办公室 Grant AF-OSR 7-63 和美国公共卫生部 Grant GM 10718-01 的支持。参考文献略

来源：宋胖说事儿（公众号）

原网址链接：https://mp.weixin.qq.com/s/UaQ7ew97jH8v2FWAHhsGGQ

编辑：张家乐

作者: 刘海明 时间: 2026-2-7 21:04

【案例】

智能的机制——阿什比论文集（6）

大家好，接着由我来为大家翻译控制论先驱阿什比的论文集《智能的机制》。全书共有8个专题40多篇论文，基本把阿什比（除了名著《大脑设计》《控制论导论》之外）主要代表作都囊括了。除了个别零散论文（比如《智力放大器设计》）外，大多没有被翻译为中文。我想尝试翻译出来，与群友共享。也许在今天AI浪潮几乎让人疯狂的背景下，聆听一下这位控制论先驱对智能的思考对我们有帮助，能让我们冷静下来，对AI如实观照。我们现在翻译的翻译机制定律这一专题。今天我这给大家刊登第三篇文章的摘要，因为这篇集合论的内容非常多，且枯燥。

机制与稳态的集合论

（这是 W. Ross Ashby（控制论与系统论的先驱学者）发表于 1964 年的经典论文，载于《General Systems》第 IX 卷第 83-97 页。这篇论文将集合论方法引入生物学和复杂系统研究，强调了同胚映射在简化复杂系统分析中的作用。）

该文的展开就是《控制论导论》

摘要

过去二十年见证了科学向此前避而不谈的疆域进军——那就是本质上复杂的动态系统世界。一百年来，像大脑、社会、经济、原生质、胶体这样的动态系统，主要都是用古典科学方法来处理的；试图将整个系统还原为许多简单单元的组合，单元间仅存在无穷小的相互作用。然而，统计方法和矩阵方法的出现，开始使科学家能够更成功地处理中等复杂的系统。随后是大型通用计算机的出现；尽管它向科学家提出了又一个极其复杂的系统，但其清晰的行为逻辑极大地启发了他，以至于今天处理高度复杂系统的整体逻辑和策略已变得无比清晰；再加上信息论的规范，他得以获得一种全新的清晰度和严谨性。

对生物学家而言，这种新的严谨性的需求可能并非一目了然。然而，如果生物学要研究并真正理解复杂的系统，它所使用的方法必须是恰当的。其中首要的是"简化"方法：不是依靠迄今为止常用的直觉性经验法则，而是使用同胚映射的更为发达的方法。这种方法前景广阔，但其运用需要严谨性和技术；这些从何而来？

本文所述的方法之所以被提出，是因为作者在过去二十年中发现它是无价的指南。由于其概念最初完全不涉及连续性、顺序、度量或线性（尽管并不排斥这些因素），这种方法可以应用于生物学事实，而无需仅仅为了数学上的缘故而扭曲事实。

本文描述的方法基于以 N. 布尔巴基（N. Bourbaki）为笔名写作的法国学派的工作。正如他们的巨著所表明的，所有数学，以及因此所有精确思维的产物，都可以建立在集合论的基础上，因此将本文的方法与他们的方法完全保持一致具有相当大的优势；这样我们就可以确保这种方法与所有数学之间能够随时安全地互换。因此，他们的《结果集》（"Fascicule de résultats"）被作为本文方法的基础。（在我看来，他们完整的三卷本《集合论》（"Théorie des ensembles"）对面向生物学的工作者几乎没有增添什么价值。）我还大量借鉴了 J. 里格（J. Riguet）的工作，他将布尔巴基的工作扩展到了代数化并为其提供了一套演算体系的方向。特别归功于他的定理在正文中均有注明。

这种方法的最后一个优势在于，它在每个阶段都随时容纳对"信息量"的各种度量，例如香农（Shannon）以及麦克吉尔和加纳（McGill and Garner）的度量。对真正庞大而复杂系统的研究，处处都受到信息量大小的支配，以及它是否超过研究者信息处理资源的限制。该方法几乎直观地表明了信息量将如何被测量，这并非其最微不足道的优点。

来源：宋胖说事儿（公众号）

原网址链接：https://mp.weixin.qq.com/s/_1eyWjSWDvlUpkLQ5keQrg

编辑：张家乐

作者: 刘海明 时间: 2026-2-8 21:25

【案例】

智能的机制——阿什比论文集（7）

我们现在翻译的翻译机制定律这一专题。今天我这给大家本主题的第四篇文章《自组织系统的原理》。

自组织系统的原理

（本文讨论了组织理论的核心概念，特别是"条件性"（conditionality）与"通信"（communication）之间的关系，以及如何使用不确定性分析（Uncertainty Analysis）来量化组织程度。）

原则性问题有时被认为过于不切实际而不重要，但我认为在我们的学科中绝非如此。我们必须处理的现象范围如此广泛，如果完全在技术或实践层面上处理，我们将被其巨大的数量和复杂性所击败。整个范围只能分块处理；在这些分块中，有些是复杂整体的同态映射，我们称之为"抽象理论"或"一般原理"。只有它们才能提供鸟瞰视角，使我们能够在这个广阔领域中活动而不会迷失方向。因此，我提议尝试这样一种鸟瞰式概览。

1.什么是"组织"？

我们工作的核心在于"组织"这一基本概念。我们指的是什么？正如它在生物学中的用法，这是一个有些复杂的概念，由几个更原始的概念构建而成。由于这种丰富性，它不容易被定义，有趣的是注意到，虽然 March 和 Simon（1958）使用"组织"一词作为他们书的标题，但他们并没有给出正式定义。在这里我认为他们是对的，因为这个词涵盖了多种含义。我认为将来我们会较少听到这个词，尽管它所对应的操作，在计算机和类脑机制的世界中，将变得越来越重要。

在我看来，这个概念的核心是"条件性"。一旦两个实体 A 和 B 之间的关系以 C 的值或状态为条件，那么"组织"的一个必要组成部分就存在了。因此，组织理论部分地与多变量函数理论是共同延伸的。

我们可以通过问"它的反面是什么？"来从另一个角度看待这个问题。"以……为条件"的反面是"不以……为条件"，因此"组织"的反面因此必须是，正如数学理论清楚地表明的，"可还原性"概念。（它也被称为"可分离性"。）这在数学形式中发生，当看起来像是多个变量（可能非常多）的函数在仔细检查时被证明具有那些行动不以其他部分的值为条件的部分。它在机械形式中、在硬件中发生，当看起来像一个机器被证明由两个（或更多）子机器组成，每个子机器都独立于其他机器而行动。

"条件性"及其反面"可还原性"的问题当然可以用多种数学和逻辑方法来处理。我稍后会说一些关于这种方法的内容。然而，在这里我想表达这样的观点：Garner 和 McGill（1956）引入的不确定性分析方法为我们提供了一种处理条件性的方法，它不仅完全严格，而且具有极高的普遍性。它的巨大普遍性和适用于复杂行为的特点在于，它适用于任何任意定义的状态集合。它的应用既不需要线性，也不需要连续性，不需要度量，甚至不需要排序关系。通过这种计算，条件性的程度可以被测量、分析，并以完全类似于 Fisher 的方差分析方法的方式分配给因素和相互作用；然而它不需要变量中的度量，只需要各种状态组合发生的频率。在我看来，正如 Fisher 的方差分析概念为理解度量上变异之间可能存在的复杂关系带来了大量光明，McGill 和 Garner 的不确定性分析概念可能为我们提供一种更好的理解，即如何处理变量为非度量时的关系复杂性。在心理学和生物学中，这种变量非常普遍；毫无疑问，它们也将在计算机中发展的类脑过程中普遍出现。我期待 McGill 和 Garner 的方法成为处理此类问题的通用语言，以便用定量方式思考和处理这些问题的时候到来。

对"条件性"的处理，无论是通过多变量函数、相关分析、不确定性分析还是其他方式，都使我们意识到基本思想是：首先存在一个乘积空间——即可能性空间——在其中相关或约束诱导了现实。这种看待"条件性"的方式使我们意识到它与"通信"有关，当然，当部分之间存在"通信"（在某种广义上）时，我们应该将部分定义为"组织"的，这是相当合理的。（同样，自然的反面是独立性，它代表非通信。）

现在，从 A 到 B 的"通信"必然意味着某种约束，A 发生的事件与 B 发生的事件之间存在某种相关：如果在 A 给定事件的情况下，B 可能发生所有可能的事件，那么从 A 到 B 就没有通信，对可能发生的（A，B）对也没有约束。因此，变量之间"组织"的存在等同于变量之间"通信"的存在。

我强调这一点，因为在过去，生物学家倾向于将组织视为某种额外的东西，某种添加到基本变量上的东西，而基于通信逻辑的现代理论则将组织视为一种限制或约束。这两种观点因此是截然相反的；不存在哪一种绝对正确的问题，因为每种在其上下文中都可能是适当的。但由于存在这种对立，我们必须格外小心行事，特别是在与他人讨论时，以免陷入完全的混乱。这个类比可能看起来有些复杂，但我确信它是可接受的，因为我们必须认识到，组织理论的讨论具有在物理学和化学等更客观的科学中未发现的特点。这种特点就在于我刚才提到的这个乘积空间。这个乘积空间从何而来？它的主要特点是它包含的比真实物理世界中实际存在的更多，因为正是后者给了我们实际的、受约束的子集。

现实世界呈现的是"现有之物"的子集；而乘积空间则代表观察者的认知不确定性。因此，当观察者改变时，乘积空间也可能随之改变；面对同一实际事物中的同一组实际事件，两个观察者完全可以合理地采用不同的乘积空间进行记录。由此可见，"约束"乃是观察者与事物之间的一种关系；任何特定约束的性质都同时取决于真实事物与观察者双方。由此推论，该理论的相当一部分将涉及那些并非事物内在固有、而是存在于观察者与事物之间的关系的属性。我们稍后将会看到一些有关这一事实的引人注目的例子。

2.整体与部分

如果说"条件性"是组织概念中的一个基本组成部分，那么同样基本的假设是：我们所谈论的是一个由部分构成的整体。这一假设值得我们稍加审视，因为当前的研究正在发展一种组织理论，这种理论并不观察部分及其相互作用，而是将系统视为一个未经分析的整体（Ashby, 1958, a）。当然，在物理学中，我们通常这样开始描述一个系统："设变量为 x₁, x₂,..., xₙ"，从而一开始就将整体视为由 n 个功能部分构成。然而，另一种方法处理的是整体未经分析的状态 S₁, S₂,...，而不明确提及可能产生这些状态的任何部分。这样一种系统的动力学随后可以被定义并用数学方法处理，正如我在其他著作中所示（Ashby, 1960, a）这种方法如何被运用。我在这里想要指出的是，我们可以拥有一种复杂的动力学，它无论多么复杂、交叉连接程度多高都可以，却不提及部分，因此也不使用组织的概念。由此可见，动力学概念与组织概念本质上是相互独立的，因为它们的存在与缺席可以有全部四种组合方式。

这一事实例证了我所说的，即"组织"部分地存在于观察者的眼中。两个观察者研究同一个系统，比如说一个蜂群，可能会发现其中一个观察者将蜂群视为五万个蜜蜂组成部分的相互作用，因而发现蜜蜂是"有组织"的；而另一个观察者，在观察整体状态——诸如活动、休眠、分群等状态时——可能看不到任何组织，只看到这些（未经分析的）状态的轨迹。

"组织"与"动力学"相互独立的另一个例证是：一个真实系统是否是有组织的或可还原的，部分地取决于观察者所采取的视角。例如，众所周知，一个有组织的（即相互作用的）由 n 个部分组成的线性系统，比如一个摆和弹簧的网络，可以从另一个视角（即所谓"正则"坐标的视角）来看，在其中所有（新识别出的）部分是完全分离的，因而整体是可还原的。因此，我坚持组织的相对性这一观点并无任何乖谬之处，因为人们常规性地利用这一事实的优势来研究相当普通的动态系统。

最后，为了强调系统中所见的组织在多大程度上依赖于观察它的观察者，我将陈述如下命题：给定一个行为被任意给定的整体，可以在其中看到各种各样任意的"部分"；因为当提出任意部分时，所需要的全部条件就是，我们假设给定的部分与另一个适当相关的部分相耦合，使得两者一起形成一个与原先给定的整体同构的整体。例如，假设给定的整体 W 有 10 个状态，其行为遵循变换……

它的运动学图是：

并且假设我们希望将其"看作"包含部分 P，该部分具有内部状态 E 和输入状态 A：

稍加巧思，我们便能发现，若将部分 P 与部分 Q（其状态为 (F, G)，输入为 B）通过变换 Q 相耦合：

令 A = F 且 B = E，则新的整体 W' 具有变换：

在一一对应关系下，它与 W 同构。

因此，只要满足某些特定要求（例如平衡态映射到平衡态），任何动态系统都可以通过简单地改变观察者的视角，而展现出各种各样任意指定的"部分"。

来源：宋胖说事儿（公众号）

原网址链接：https://mp.weixin.qq.com/s?__biz=MzI5OTY0MjQ3Nw==&mid=2247485122&idx=1&sn=ccdbb4e665fb842bb8b29e8f9d5d2a85&chksm=ed73ab9591299f681cf90414e48c39e2f47ebf1a162e61559d6aa88d8ca93bbcbed2f9b94ed6&mpshare=1&scene=1&srcid=02088mwwF4aCJHnvERjoiZF9&sharer_shareinfo=

编辑：张家乐

作者: 刘海明 时间: 2026-2-28 20:33

【案例】

智能的机制——阿什比论文集（8）

我们现在翻译的翻译机制定律这一专题。今天我这给大家本主题的第四篇文章《自组织系统的原理》后续部分。

自组织系统的原理

3.机器通论

我刚才使用了一种方法来表示两个"部分"通过"耦合"形成一个"整体"，这引出了一个问题：我们一般所说的"机器"是什么意思？

在这里，我们显然侵入了所谓的"一般系统论"领域，但这后一门学科在我看来总是不确定它是在处理物理系统（因而受制于现实世界所提供的任何东西），还是在处理数学系统（其中唯一的要求是研究本身没有内部矛盾）。我认为，过去十年的一项重大进步是我们终于识别出了"一般机器"的本质。

在看到本质之前，我们必须认识到有两个因素必须被排除为无关的。第一个是"物质性"——即机器必须由实际物质、由一百多种现有元素构成的观点。这是错误的，因为可以轻易举出例子（例如 Ashby, 1958, a）表明，本质在于系统（如果你愿意，可以是天使和灵质构成的系统）是否以守法的、机器般的方式运作。同样应被排除为无关的是任何对能量的提及，因为任何计算机器都表明，重要的是行为的规律性——能量是获得还是损失，甚至是被创造，都是完全无关紧要的。

"机器"的基本概念被证明具有一种至少在一个世纪前就被表述过的形式，但据我所知，这一概念从未被充分使用和大力开发。"机器"就是那种以机器般方式运作的东西，也就是说，它的内部状态及其周围环境的状态唯一地决定了它将要进入的下一个状态。

这个定义在十五年前被正式提出（Ashby, 1945），经受住了时间的考验，现在正被广泛接受（例如 Jeffrey, 1959）。它以多种形式出现。当变量是连续的时，它对应于通过给出以时间为自变量的一组常微分方程来描述动态系统。这种表示的根本性本质（与仅仅是方便的表示相对照）已被许多早期研究者所认识，如庞加莱、洛特卡（1925）和冯·贝塔朗菲（1950及更早）。

然而，这种微分方程的表示对于一门包括生物系统和计算机器的科学来说过于受限，因为在这些领域中不连续性是普遍存在的。于是产生了现代定义，它能够同时包括连续的、不连续的乃至离散的，而丝毫不损失严密性。"带输入的机器"（Ashby, 1958, a）或"有限自动机"（Jeffrey, 1959）如今被定义为：一组内部状态S，一组输入或环境状态I，以及一个从乘积集I × S到S的映射（设为f）。在我看来，这里包含了"机器"的真正本质；所有已知的机器类型都可以在这里找到；所有与这一概念有趣的偏离都可以通过相应偏离定义来找到。

我们现在能够毫不含糊或回避地说出我们所说的机器的"组织"是什么意思。首先，我们通过指定其状态S及其条件I来指明我们谈论的是哪个系统。如果S是一个乘积集，比如说S = ΠᵢTᵢ，那么各个部分i分别由其状态集Tᵢ来指定。这些部分之间的"组织"随后由映射f来指定。改变f，组织就改变。换句话说，部分之间可能的组织可以与从I × S到S的可能映射集建立一一对应关系。因此，"组织"和"映射"是看待同一事物的两种方式——组织被实际系统的观察者所注意到，而映射被用数学或其他符号表示行为的人所记录下来。

4.好的组织

此刻你们中的一些人，特别是生物学家，可能会感到不安；因为这个组织的定义没有提及组织的任何有用性。它只要求部分之间存在条件性，且行为具有规律性。在这一点上我认为定义是正确的，因为一个给定组织是"好"还是"坏"的问题，与先前检验它是否是一个组织的问题是完全独立的。

我很想强调这一点，因为在这方面工程师和生物学家很可能思路迥异。工程师组装了一些电子硬件后，发现组装好的网络因寄生振荡而轰鸣，他很习惯"坏"组织的概念；并且他知道必须去寻找"好"的组织。然而，生物学家研究的主要是那些经历了漫长自然选择过程而存活下来的动物物种：因此他看到的几乎所有组织都已经被选择为好的，他倾向于认为"组织"是必然好的。这种观点在生物界可能常常是对的，但在我们这些人工作的世界中却绝非如此。我们必须接受：（1）大多数组织都是坏的；（2）好的组织必须去寻找；（3）"好"的含义必须在每种情况下都清楚地定义，如有必要须明确界定。

那么，在我们关于类脑机制和计算机的语境中，"好"是什么意思？我们必须谨慎进行，因为这个词暗示着某种评价，而其来源尚未被考虑。

在某些情况下，"好"组织与"坏"组织之间的区分是明显的，在这种意义上，既然所有人在这些情况下都会倾向于使用相同的标准，就不需要明确提及。例如，如果一个生物体的大脑组织（无论是天生的还是习得的）能够增进该生物体的生存，那么它通常被判定为具有"好"的组织。这一考虑很容易推广到所有那些情况：组织（无论是猫的还是自动驾驶仪的还是炼油厂的）被判定为"好"，当且仅当它能够把一组指定的变量，即"本质"变量，保持在指定范围内。这就是所有内稳态机制，无论是坎农原义上的还是广义上的。由这一标准引出相关标准：如果组织使系统围绕指定平衡态稳定，那么它就是"好"的。特别是 Sommerhoff（1950）给出了大量例子，取自广泛的生物和机械现象，表明在所有情况下，"好组织"的观念其本质就是多个部分相互作用以达到某个给定的"焦点条件"的观念。我想在这里说，我认为 Sommerhoff 对我们学科的贡献尚未得到充分认识。他对协调与整合的确切含义的精确识别，在我看来，堪与柯西对收敛的确切含义的精确识别相媲美。柯西的发现是一个真正的发现，为后来的工作者提供了巨大帮助，因为他提供了一个严格定义的概念，可以在广阔的语境中反复使用，且含义始终完全相同。我相信，Sommerhoff 对如何精确表示协调、整合和好组织的发现，最终将在我们的工作中发挥类似的基础性作用。

他的工作阐明并强调了我想在这里说的——不存在任何绝对意义上的"好组织"。它总是相对的；在一个语境或标准下是好的组织，在另一个标准下可能是坏的。

有时这一陈述显而易见，不会引起反对。例如，如果我们有六个透镜，可以这样组装成望远镜，也可以那样组装成显微镜，那么组装的好坏显然取决于一个人是想看月亮还是看奶酪螨。

但这个主题比这更有争议！这一论点意味着，不存在任何绝对意义上好的大脑（自然的或人工的）——这完全取决于环境和想要什么。大脑能展示的每一种能力只有在特定条件下才是"好"的，因为至少存在一种环境，在这种环境中，大脑因拥有这种能力而处于不利地位。Sommerhoff 的公式使我们能够立即表明这一点：无论这种能力或组织取得了什么成就，让它不在"焦点条件"之内。

当然，我们知道很多例子，其中这一论点以某种琐碎的方式成立。好奇心往往是好的，但许多羚羊因为停下来看猎人的帽子而丧命。羚羊大脑的组织应该属于那种会导致暂时不动的类型，还是不会导致暂时不动的类型，显然取决于其所在世界中持步枪的猎人是否 abundant。

从另一个角度，我们可以注意到 Pribram 的结果（1957），他发现脑部手术过的猴子在某项测试中得分高于正常猴子。（手术过的猴子行动迟缓而有耐心，而正常的猴子则焦躁不安、容易分心。）尽管如此，在决定想要哪种气质之前，无法说出哪个大脑（正常的或手术过的）具有"好"组织。

你仍然觉得这没有争议吗？那么我准备断言，归因于人类的没有哪一种心理能力是绝对意义上好的。如果某种特定能力通常是好的，这完全是因为我们的陆地环境如此缺乏多样性，以至于其通常的形式使那种能力通常表现为好的。但是改变环境，去到真正不同的条件下，拥有那种能力可能是有害的。而"坏"的，不言而喻，就是产生它的大脑组织。

我相信，大脑的每一种通常被认为可取的能力或属性，在某种类型的环境中都不会变得不可取。以下是一些例证。

第一个是记忆。大脑拥有记忆难道不好吗？一点也不，我回答——只有当环境属于那种未来常常复制过去的类型时才好；如果未来常常是过去的反面，记忆实际上是不利的。一个著名的例子是当下水道老鼠面对被称为"预诱饵"的环境系统时。 naive 的老鼠非常警惕，只吃少量奇怪的食物。然而，如果有益食物连续三天出现在某个地方，下水道老鼠就会学会，并在第四天吃到饱，然后死亡。然而，没有记忆的老鼠在第四天和第一天一样警惕，并活了下来。因此，在这种环境中，记忆确实是不利的。长期接触这种环境将导致进化方向是降低记忆能力。

作为第二个例子，考虑组织本身在连通性意义上的问题。大脑的各部分具有丰富的功能连接难道不好吗？我说，不——并非普遍如此；只有当环境本身 richly connected 时才好。当环境的部分不是 richly connected（换句话说，当它是高度可还原的）时，如果大脑也是高度可还原的，即如果它的连通性很小，适应会进行得更快（Ashby, 1960, d）。因此，组织的程度可以过高也可以过低；我们人类拥有的程度可能是被调整到接近通常陆地环境的最优值。如果大脑是机械的，工作在某种严重非陆地的环境中——比如只存在于一台大型计算机内部——这绝不意味着该程度将是最优的或好的。

再举一个例子，生物学家总是自豪地指出的那种"组织"——专门器官（如大脑、肠子、心脏和血管）在进化中的发展。这难道不好吗？不管好不好，这肯定是一种只有在地球有大气层的情况下才可能的专业化；没有大气层，我们会不断被微小陨石轰炸，其中任何一颗穿过我们的胸腔，都可能击中大血管并杀死我们。在这种条件下，更好的生存形式将是黏菌，它专门能够在树枝缠绕中流动而不丧失功能。因此，器官的发展并非无条件地好，而是对没有飞行粒子的世界的一种专业化。

在这些实际例子之后，我们可以回到理论。正是在这里，Sommerhoff 的公式提供了如此有用的澄清。他表明，在所有情况下，首先必须给定并指定一组扰动（他的"同生变量"值），其次是一个目标（他的"焦点条件"）；扰动威胁要将结果驱离焦点条件。"好"组织然后就是扰动集和目标之间关系的性质。改变扰动集，组织本身不变，却被评价为"坏"而非"好"。

正如我所说，组织的任何属性在绝对意义上都不是好的；都是相对于某个给定环境，或某个给定的威胁和扰动集，或某个给定的问题集。

来源：宋胖说事儿

链接：https://mp.weixin.qq.com/s/vtwxmsr9YEGXG8cvEMjr0Q

编辑：何璇祺

作者: 刘海明 时间: 2026-2-28 20:34

【案例】

智能的机制——阿什比论文集（9）

我们现在翻译的翻译机制定律这一专题。今天我这给大家本主题的第四篇文章《自组织系统的原理》后续部分。

自组织系统的原理

5.自组织系统

希望我没有因过分强调这种相对性而使你们感到厌倦，但它是根本性的，而且在人们着手处理那些要么源于生物要么模仿此类系统的组织时，它太容易被遗忘了。考虑到这一点，我们现在可以开始考虑所谓的"自组织"系统了。如果我们不想陷入混乱，就必须在这里谨慎行事，因为这个形容词如果使用松散是含混的，如果使用精确则是自相矛盾的。

说一个系统是"自组织"的，留下了两种截然不同的含义。

第一种含义简单且无可非议。它指的是这样一种系统：开始时其部分是分离的（因此每个部分的行为独立于其他部分的状态），然后这些部分行动起来，朝着形成某种类型的连接而变化。这样的系统是"自组织"的，在这个意义上它从"部分分离"变为"部分连接"。一个例子是胚胎神经系统，它开始时细胞之间几乎没有或完全没有相互影响，然后通过树突的生长和突触的形成，变为每个部分的行为都受到其他部分很大影响的状态。另一个例子是帕斯克（Pask）的电解中心系统，其中从一个电极长出的丝状物起初几乎不受其他电极上生长物的影响；然后这些生长物变得相互关联，连接建立起来。

第二种含义（及对其的批判）：在回答这个问题之前，我们必须注意，如果我们不想永远处于混乱的危险中，那就是没有机器能在这种意义上是自组织的。推理很简单。定义状态集 S 以指明我们谈论的是哪台机器。那么"组织"必须如我在上面所说，与 f 等同，即 S 到 S 的映射，这是机器的基本驱动力（无论它可能施加什么力）。现在这里的逻辑关系是 f 决定 S 的变化：S:—f 被定义为有序对 (si, sj) 的集合，使得系统的内部驱动力将迫使状态si 变为sj。允许 f 成为状态的函数，将使整个概念变得毫无意义。

由于这一论证在自组织系统理论中是根本性的，我可以用一个平行的例子来帮助解释。牛顿的万有引力定律说 F = M1M2/d2，特别是，力与距离的平方成反比。如果是立方就是不同的定律了。但假设有人建议，不是力 F 而是定律随距离变化，所以指数不是 2 而是距离的某个函数 φ(d)。这个建议是不合逻辑的；因为那样我们就得到 F = M1M2/dφ(d)，这代表的不是随距离变化的定律，而是一个涵盖所有距离的定律；也就是说，如果真是这种情况，我们会重新定义该定律。类似地，如果机器中的 f 是状态 S 的某个函数，我们就必须重新定义我们的机器。让我用一个例子明确说明。假设 S 有三个状态：a、b、c。如果 f 依赖于 S，就会有三个 f’s： fa、fb、fc。那么如果它们是

那么a 的变换必然由fa决定，因此为b，于是整个 f’s 的集合就相当于单一的变换：

把 f 说成是 S 的函数显然是不合逻辑的，因为这样说会指涉一些操作，比如 fa(b)，而这些操作实际上是不可能发生的。

如果这样，那么没有机器可以恰当地被称为是自组织的，我们又该如何看待，比如说，那个重新排列自身线路的内稳态装置（Homeostat）；或者那个编写自身程序的计算机呢？

机制的新逻辑使我们能够严谨地处理这个问题。我们从状态集 S 出发，并假设 f 发生变化，比如说变为 g。于是我们实际上有了一个变量，比如说 x(t)，它是时间的函数，起初取值为 f，后来取值为 g。正如我们刚才所见，这种变化不能归因于集合 S 中的任何原因；因此它必然来自某个外部作用者，作为输入作用于系统 S。如果系统要在某种意义上是"自组织"的，那么"自我"必须被扩展以包含这个变量 α，并且，为了使整体保持有界，α 变化的原因必须在 S（或 α）之中。

因此，"自组织"的表象只能由机器 S 与另一台机器（单一部分的）耦合而产生：

那么部分 S 可以在整体 S + α 内部是"自组织"的。

只有在这种局部的、严格限定的意义上，我们才能理解一个系统是"自组织"的，而不陷入自相矛盾。

既然没有任何系统可以被正确地称为是自组织的，而且"自组织"这个短语的使用往往会延续一种根本上混乱且不一致的看待该主题的方式，这个短语或许最好让它消亡（不再使用）。

6.自组织的自发产生

当我说有任何系统可以被恰当地称为是自组织的时，听者可能不会满意。他可能会问：十亿年前发生的那些变化呢？那些变化使得大量碳原子分散在二氧化碳、甲烷、碳酸盐等小分子中，最终聚集在一起形成蛋白质，然后继续形成我们今天称之为"动物"的大型活跃团块？在孤立的行星上，这个过程难道不正是"自组织"吗？如果它发生在行星表面，难道就不能在计算机中重现吗？当然，我现在讨论的是生命的起源。现代系统理论对此有何说法呢？

它有很多话要说，其中一些与自进化思想首次被考虑以来所说的观点截然相反。在过去，当一位作者讨论这个话题时，他通常假设生命的产生是罕见而特殊的，然后他试图展示某种方式，使这种罕见而特殊的事件得以发生。于是他试图展示存在某条路径，比如从二氧化碳到氨基酸，再到蛋白质，然后通过自然选择和进化，到达智慧生命。我说这种寻找特殊条件的做法是完全错误的。真相恰恰相反——每一个动态系统都会产生其自身形式的智慧生命，在这个意义上是自组织的。（我将在片刻后证明这一事实。）我们未能认识到这一事实的原因是，直到最近，我们都没有中等复杂度系统的经验；要么它们像手表和摆钟，我们发现它们的性质稀少而琐碎，要么它们像狗和人，我们发现它们的性质如此丰富而惊人，以至于我们认为它们是超自然的。只有在过去几年，通用计算机才给了我们一个足够丰富而有趣、又足够简单可理解的系统。以这台机器为导师，我们现在可以开始思考那些简单到可以详细理解、同时又丰富到具有启发性的系统。在它们的帮助下，我们可以看到这一论断的真实性：每一个孤立的确定性动态系统，遵循不变的定律，都将发展出适应其"环境"的"有机体"。

这一论证在原则上足够简单。我们从系统一般会趋向平衡的事实出发。现在，系统的大多数状态都是非平衡的（如果我们排除系统处于中性平衡的极端情况）。因此，在从任何状态走向某个平衡态的过程中，系统是从较大量的状态走向较小量的状态。以这种方式，它在进行一种选择，纯粹客观意义上它排斥某些状态（通过离开它们）而保留某些其他状态（通过坚持它们）。因此，正如每一个确定性系统趋向平衡一样，它也在进行选择。我们已经听厌了"机器不能选择"这一陈词滥调；真相恰恰相反：每一个机器，当它趋向平衡时，都在执行相应的选择行为。

然而，简单系统中的平衡通常是琐碎而乏味的；它是垂直悬挂的摆钟；是发条走完的手表；是平放在一个面上的立方体。然而今天我们知道，当系统更加复杂和动态时，平衡及其周围的稳定性可以有趣得多。在这里，我们有自动驾驶仪成功对抗涡流；有严重出血后重新分配血液流动的人；有消费突然增加后重新进货的商行；有粮食作物突然遭到破坏后恢复供应分配的经济系统；还有在困苦和失业的一生中每天至少成功获得一餐的人。

使这种变化从琐碎到有趣的，仅仅是事件的尺度。"趋向平衡"在简单摆钟中是琐碎的，因为平衡态不过是一个单点。但当系统更加复杂时；比如，当一个国家的经济从战时状态恢复到正常状态时，稳定区域是巨大的，其中可以发生大量有趣的活动。计算机在此语境中是天赐之物，因为它使我们能够跨越从简单可理解到复杂有趣之间的巨大概念鸿沟。因此，通过观察一个稍简化的版本如何在计算机中出现，我们可以对所谓的生命自发产生获得相当深刻的洞察。

7.竞争

这里有一个简化版本的例子。物种间的竞争通常被视为本质上是生物性的；实际上，它是一个具有更广泛普遍性的过程的表现。假设我们有一台计算机，其存储器被随机填入数字0到9。假设其动力学定律是数字连续成对相乘，乘积的右位数字取代被取的第一个数字。启动机器，让它"进化"；会发生什么？在这个特定世界的定律下，偶数乘偶数得偶数，奇数乘奇数得奇数。但偶数乘奇数得偶数；所以在一次混合遭遇后，偶数有更好的生存机会。因此随着这个系统进化，我们将看到偶数在斗争中被青睐，稳步取代存储器中的奇数，最终消灭它们。

但偶数并非同质，其中零最适合在这个特定世界中生存；而且，正如我们所观察，我们将看到零消灭它们的偶数同伴，直到最终它们继承这个特定的世界。

我们这里有一个关于极端普遍性论题的例子。从一个角度看，我们仅仅有一个定义明确的算子（乘法和置换定律），它驱动系统趋向平衡。在这样做的过程中，它自动选择那些对其造成变化的趋势具有特别抵抗力的操作数（因为零对乘法造成的变化具有独特的抵抗力）。这种向特别抵抗形式演进的过程具有极端的普遍性，只要求算子（或任何物理系统的物理定律）是确定且不变的。这是一般的或抽象的观点。生物学家在看到进化、适者生存以及最高级生物功能和智慧必然出现时，看到了它的一个特例。因此，当我们问：生命和智慧的出现需要什么条件？答案不是碳、氨基酸或任何其他特殊特征，而仅仅是该过程的动力学定律应该是不变的，即系统应该是孤立的。在任何孤立系统中，生命和智慧不可避免地会发展（在退化情况下，它们可能只发展到零度）。

因此，"我们如何合成地产生智慧？"这个问题的答案如下。取一个动力学定律不变且单值的动态系统，其规模如此之大，以至于当它达到一个只涉及其总状态一小部分的平衡时，这一小部分仍然大到足以允许大量变化和行为的空间。让它运行足够长的时间以达到这样的平衡。然后详细检查该平衡。你会发现现存的状态或形式特别能够抵抗定律所引起的变化。将平衡一分为二，称一部分为"有机体"，另一部分为"环境"：你会发现这个"有机体"特别能够抵抗来自这个"环境"的扰动。这个有机体能够发展的适应程度和复杂性，仅受整个动态系统的规模和允许其向平衡演进的时间的限制。因此，正如我所说，每一个孤立的确定性动态系统都将发展出适应其环境的有机体。因此，原则上，发展出如我们所愿的复杂或智慧的合成有机体并无困难。

那么，在这种意义上，每台机器都可以被认为是"自组织"的，因为它将发展出某种功能结构——在其规模和复杂性允许的程度上——与"适应的有机体"同源。但这能给我们这次会议所寻求的东西吗？只是部分地；因为到目前为止所说的一切都没有暗示组织是好是坏；做出区分的标准尚未引入。当然，确实如此，发展出来的有机体，由于是稳定的，将拥有它自己的本质变量，它将通过强烈的反应来显示其稳定性，这些反应倾向于保存它自身的存在。对它自己而言，它自己的组织按定义永远是好的。黄蜂发现蜇刺反射是件好事，水蛭发现吸血反射是件好事。但这些标准是在生存组织之后出现的；看到什么存活下来后，我们才看到对该形式什么是"好"的。出现的东西仅仅取决于系统的定律是什么以及它从什么状态开始；并不意味着发展起来的组织在任何绝对意义上是"好"的，或者按照我们这样的外部主体的标准是"好"的。

简要总结：原则上，发展出如我们所愿的复杂和智慧的合成有机体并无困难。但我们必须注意两个基本限定条件；第一，它们的智慧将是对其特定环境的适应和特化，对任何其他环境（如我们的环境）的有效性并无暗示；第二，它们的智慧将指向保持其自身本质变量在限界之内。它们在根本上将是自私的。因此我们现在必须问：鉴于这些限定条件，我们还能将这些过程转而用于我们的利益吗？

来源：宋胖说事儿

链接：https://mp.weixin.qq.com/s/YrKrNvyqsNdlkg4Gn1imCA

编辑：何璇祺

作者: 刘海明 时间: 2026-2-28 20:35

【案例】

智能的机制——阿什比论文集（10）

我们现在翻译的翻译机制定律这一专题。今天我这给大家本主题的第四篇文章《自组织系统的原理》后续部分。

自组织系统的原理

8.必要多样性

在这一问题上，我认为人们对香农第十定理（1949）或更简单的"必要多样性定律"尚未给予足够重视，我曾用后者表达了相同的基本思想（Ashby, 1958, a）。香农定理指出，如果校正通道的容量为 H，那么大小为 H 的疑义度可以被消除，但不能更多。香农是在电话或类似通信的背景下陈述其定理的，但这一表述对于试图实施某种校正控制的生物调节通道同样成立。他考虑的是消息量大而错误量小的情况；而生物学家面临的情况则是"消息"量小但扰动错误量大且多。该定理随后可应用于大脑（或任何其他调节和选择装置），它指出大脑能够实现的调节或选择作用的量绝对受其作为通道的容量的限制（Ashby, 1958, b）。表达同一思想的另一种方式是：任何数量 K 的适当选择都需要传输或处理数量 K 的信息（Ashby, 1960, b）。没有不劳而获的选择。

我认为我们在这里掌握了一个将来会频繁听到的原理，因为它支配着所有复杂系统的工作。它进入这一学科的方式 somewhat 类似于能量守恒定律进入动力工程学的方式。当该定律大约一百年前首次出现时，许多工程师认为它是一种令人失望的东西，因为它破灭了所有永动机的希望。然而，它实际上确实导致了十九世纪伟大的工程实践成就，因为它使动力工程学更加脚踏实地。

我认为，当人们充分领会香农第十定理的全部含义时，我们首先会清醒过来，然后会得到帮助，因为届时我们将能够把我们的活动集中在那些真正符合实际且确实可解的问题上。

9.未来

我在这里完成了对支配自组织系统的原理的鸟瞰式概览。我希望我已经为我的信念提供了充分的理由，即这些基于机制逻辑和信息论的原理，现在基本上是完备的，在这个意义上，现在已经没有领域是严重神秘的了。

然而，在结束之前，我想非常简要地指出未来研究最有可能取得成果的方向。

我认为有一个方向可以很容易地发现大量新事物，那就是发现新型动态过程。我们今天所知的大多数机器过程都非常专门化，取决于具体使用了哪些部分以及它们如何连接在一起。但是存在更具网络状结构的系统，其中发生的事情只能用统计学方法来处理。这里有一些过程，例如流行病的传播、动物种群在某一地域的波动、波状现象在神经网络上的传播。这些过程本身既不好也不坏，但它们确实存在，具有所有其奇妙的特性，毫无疑问，如果它们有利，大脑会利用它们。我想在这里强调的是，它们经常表现出非常令人惊讶和奇特的特性；比如在流行病中，爆发往往呈现波浪式发生的趋势。这种奇特的新特性可能正是某些机器设计者想要的，而且否则他们可能不知道如何实现。

这类系统的研究本质上必须是统计性的，但这并不意味着每个系统本身必须是随机的。相反，最近已经证明（Ashby, 1960, c），当作为调节器作用时，任何系统都不可能比确定性系统具有更高的效率；因此，由于调节是唯一在生物学上重要的功能，我们可以预期自然选择将使大脑尽可能确定。因此，我们可以将我们的兴趣限制在样本空间涵盖一组各自确定的机制的较小范围内。

作为一个特例，一类更值得深入研究的系统是由具有多种平衡状态的部分构成的大型系统。这类系统在陆地世界中极其常见；它们存在于我们周围，事实上，正如我们所知的智慧，没有它们几乎是不可能的（Ashby, 1960, d）。这是指那些变量主要表现为部分功能的系统的另一种说法。我在其他地方已经证明（Ashby, 1960, a），这类系统往往表现出习惯化（消退）并能够逐步适应（Ashby, 1960, d）。有理由相信，一些众所周知但模糊的生物现象，如条件反射、联想以及詹宁斯（1906）关于生理状态消解的定律，可能或多或少是多重平衡状态的简单直接表现。目前我正在研究这种可能性：当输入到达具有多重平衡的系统时，"结构"（如三维空间结构）向动态系统的转移——这种皮亚杰特别考虑过的学习类型——可能是一个自动过程。无论如何，毫无疑问，对这类系统的研究可能会揭示各种新的动态过程，为我们提供目前尚不具备的动态资源。

具有多重平衡的系统的一种特殊类型是其部分具有高"阈值"的系统——那些倾向于保持在某种"基本"状态，除非输入的某种函数超过某个值。这类系统的一般性质仍然很大程度上未知，尽管伯勒（Beurle, 1956）已经做出了一个非常有趣的开端。它们值得广泛研究；因为，由于它们发展出雪崩状活动波的基本倾向，它们的动态性质可能被证明是令人兴奋甚至戏剧性的。哺乳动物大脑广泛使用这一特性的事实表明，它可能具有某种特殊的、有用的性质，而这种性质很难用其他方式获得。

提及具有多重平衡的系统使我想到第二条在我看来极具前景的研究路线——我指的是发现生物体的记忆存储：识别其物理本质。

目前，我们对活体大脑的认识严重失衡。关于从一毫秒到下一毫秒发生的事情，我们知道很多，许多实验室正在努力增加更多细节。但当我们问大脑中从一小时到下一小时，或从一年到下一年发生了什么时，实际上一无所知。然而，正是这些较长期的变化才是人类行为中真正重要的变化。

因此，在我看来，如果有一件事迫切需要研究，那就是大脑记忆存储的物理基础。曾经有一段时间，"记忆"是一个非常模糊和形而上学的主题；但那些日子已经过去了。"记忆"，作为对过去和现在事件的约束，以及它们之间的关系，今天已经被机制逻辑牢牢掌握。我们从行为学和操作论角度确切地知道它的含义。我们现在需要的是为其研究提供充足的资源。世界肯定已经到了能够找到资源让一个团队深入研究这个问题的时候了吧？

10. 总结

今天，自组织系统的原理已在某种程度上为人所知，在这个意义上，该主题的没有一个主要部分是完全神秘的。

我们有了稳固的基础。今天我们确切地知道"机器"、"组织"、"整合"和"自组织"的含义。我们对这些概念的理解就像数学家理解"连续性"或"收敛"一样彻底和严密。

用这些术语，我们今天可以看到，具有"生命"和"智慧"的动态系统的人工产生不仅仅是简单的——如果仅满足基本要求，它就是不可避免的。这些要求不是碳、水或任何其他物质实体，而是任何既不变又单值的算子的作用的长期持续。每一个这样的算子都会强制发展出它自己形式的生命和智慧。

但是，发展出来的形式会对我们有用处吗？这里的情况受必要多样性基本定律（以及香农第十定理）支配，该定律说，实现适当的选择（达到优于随机程度）绝对依赖于处理至少该数量的信息。未来的工作必须尊重这一定律，否则甚至在开始之前就会被标记为徒劳。

最后，我提议将识别大脑记忆存储的物理基础作为一项研究计划。我们今天对大脑功能的知识严重失衡。关于大脑如何以大约毫秒间隔从一个状态转变到另一个状态，已知的量很大；但当我们考虑我们对重要长期变化的了解时，我们发现它实际上几乎等于零。我认为是时候对这一难题做出某些明确的尝试了。世界肯定是时候该有一个团队朝这个方向积极行动了吧？

参考文献

1.W. Ross Ashby, The physical origin of adaptation by trial and error, *J. Gen. Psychol.* 32, pp. 13-25 (1945).

2.2. W. Ross Ashby, Principles of the self-organizing dynamic system. *J. Gen. Psychol.* 37, pp. 125-8 (1947).

3.3. W. Ross Ashby, *An Introduction to Cybernetics*, Wiley, New York, 3rd imp. (1958, a).

来源：宋胖说事儿

链接：https://mp.weixin.qq.com/s/sQM1Zj5QO9__SnfPjE7_Yw

编辑：何璇祺

作者: 刘海明 时间: 2026-2-28 20:35

【案例】

智能的机制——阿什比论文集（11）

我们现在翻译的翻译机制定律这一专题。今天我这给大家本主题的第五篇文章《自繁殖系统》。

自繁殖系统

生命所展示的组织现象中，最有趣的现象之一就是繁殖。我们很自然地会问：一个系统如何自我复制？除非我们谨慎行事，否则我们会一头栽进语义陷阱。事实上，"生物有机体如何自我复制？"这个问题的答案是："它并不自我复制。"

没有有机体自我复制。唯一曾被如此宣称的是凤凰，据说世上只有一只，它一生只产下一个蛋，而从这只蛋中生出了它自己。那么当普通生物有机体繁殖时，实际上发生了什么？我们可以用足够的准确性这样描述这里的事件：

(1) 有一个基质（子宫、一块腐烂的肉、也许是一个细菌培养试管）。 (2) 向其中引入一种形式（一个卵、一个蝇卵、也许是一个细菌）。 (3) 两者之间发生复杂的动态相互作用（在这个过程中，形式可能完全消失）。 (4) 最终，该过程产生更多与原始形式相似的形式。

在这个过程中，我们必须注意基质所扮演的基本角色。这里不存在卵自我复制的问题。我们看到的是整体的一小部分与整体其余部分之间的相互作用。因此，结果是两个系统之间相互作用的功能。其他形式也是如此。细菌需要一个周围基质来提供氧气和食物，并接纳二氧化碳的排泄等。两者之间随后发生相互作用，最终产生与初始细菌有些相似的形式。

因此，在我们开始考虑自我复制系统的问题之前，我们必须认识到没有有机体是自我复制的。如果我们充分理解Rosen[2]最近所表明的观点将是有益的，他证明了自我复制自动机的想法在逻辑上是自相矛盾的。他使用的论证在形式上与我在[1]中用来证明自组织系统严格来说是不可能的论证完全相同。在每种情况下，自我作用机器的想法都意味着一个映射必须能够改变自身——即它被赋予了要改变成什么的信息——这两个基本原理相互冲突。没有具有这种概念的东西。它与一个人绕到自己身后推着自己走的幻想属于同一类。

我说这些，不是为了混淆或阻碍，而只是为了通过消除混乱的来源，确保我们确实找到通往主题的正确途径。尽管"自我复制"这个形容词在语义和逻辑上都是极不妥当的，但我们清楚地知道它的意思，即使我们有时用不恰当的词来描述它。

因此，我提议将问题重新表述如下：一个给定系统是这样的：如果在其中发生某种形式（或属性、模式、一般可识别的特征），那么该系统就会产生，并涉及与系统动态相互作用的、与原始形式相似的其他形式（或属性、模式或特征）。

我问我们能对这样的系统说什么。

1.机器能做到吗？

将问题转化为适当的形式后，我们现在可以转向机器是否可能自我复制的问题。在某种意义上，这个问题是没有意义的，因为我们今天知道，所有"机器能做到吗？"这类问题都可以得到肯定的回答。然而，还有其他原因说明这个问题还有更多关于过程实际细节的内容有待说明。那么我们的问题是：是否存在一种机制，使其像提到的基质那样作用，即给定一个"形式"，两者最终导致产生类似于第一个的其他形式？

我打算主要通过展示实际例子来回答这个问题，让例子自己说话。

我想给出的第一个例子是用类计算机术语进行的正式演示，展示这种可能性。让我们假设一台计算机只有十个存储器，编号为0到9，每个包含一个两位十进制数字，如72、50、07，或也许是00。这个小世界的"动态规律"如下。假设它刚刚对存储器5-1进行了操作。它移动到存储器5，取其中的两个数字，设为a和b，将它们相乘，加上5和存储器编号5，取结果的右手数字，设为c，然后将原始的两个数字a和b写入存储器c。然后它移动到下一个存储器并重复该过程，如此无限继续。

乍一看，没有什么比这更微不足道的了。如果存储器包含诸如3号这样的数字，其中存储着17，它将1和7相乘，将5加到乘积上，得到12，加上存储器编号3，得到15，取右手数字，得到5，并将17放入存储器5。然后它继续到下一个存储器，即4号。

在这个过程中似乎没有什么值得注意的。另一方面，存储器中的28有一个奇特的性质。假设它在存储器8中。它将2和8相乘，得到16；加上5，得到21；加上存储器8。当我们计算下一步时，我们发现28再次进入存储器9，并如此进入一个又一个存储器。因此，一旦28出现在存储器中，它就会传播，直到占据所有存储器。因此，这台机器及其程序是一个动态基质，如果一个"28"进入其中，相互作用将导致产生更多的28。在这个基质中，28可以说是自我复制的。

当然，这是最简单的可能情况。还有许多其他更常见、更像我们在现实世界中发现的情况。例如，假设我们有许多几乎组装好的螺丝刀，它们只差一个螺丝就能完成。我们还有许多必要的螺丝。如果现在提供一个完整的螺丝刀，螺丝刀就可以作为一个"形式"起作用，基质由提供这种形式的情境提供，一个过程被激发，导致产生相同形式的其他例子。

关于这个例子，读者可能会反对说这里假设了大量的预置。当然，这是事实，但这并不影响所演示的原理。发生的预置程度可以在最广泛的范围内变化而不变得非典型；而且必须允许一定程度的预置。毕竟，繁殖的生物不是从原始元素的气态混合物开始的。

当模型制造者声称他"自己制造了所有东西"时，同样的"预置程度"尺度有时会混淆问题。这个短语不能按任何绝对意义来理解。如果他制造了模型螺丝，他必须制造了金属棒（螺丝由金属棒制成），那么他必须找到制造金属的矿石，如此等等。这种向后追溯几乎没有限度，"模型制造者必须自己制造所有东西"这一规则必须伴随着关于允许多少预置的某种本质上任意的决定。

到目前为止给出的两个例子只显示了一步繁殖。生物体重复生产：父辈生儿子，儿子生孙子，孙辈生曾孙，如此等等。这种扩展繁殖的可能性仅仅取决于基质的规模。它可以在不显著影响过程基本原理的情况下存在或不存在。

2.更多例子

自复制这一主题通常在过于狭窄的事实基础上讨论。这些往往一方面是简单的生物有机体，另一方面是最原始类型的机器，如手表和汽车。为了使我们的考虑范围更广，让我们考虑一些进一步的例子。我下面给出的例子有时会显得反常，但我声称，尽管有些例子如此，它们确实符合基本定义——即第一种形式与基质的结合导致产生与第一种相似的后续形式。

例3。一家工厂无法开始生产，因为电源没有接通。唯一能接通电源的是一种特定类型的扳手（spanner）。这家工厂的工作就是生产这种类型的扳手。例4。一台机器在接通时振动非常剧烈，可以通过一个很容易被振动触发的开关来启动。这样一个系统，如果处于静止状态然后受到剧烈振动，就可能继续产生进一步的剧烈振动。因此，在这种基质中，"振动"这一形式是自复制的。

例5。两国A和B处于战争状态。B发现A国是一个独裁统治如此强烈的国家，以至于每份载有独裁者姓名首字母（X.Y.Z.）的文件都必须被服从。B利用这一点，通过向A国投放带有以下信息的纸片来破坏A国的行政体系："制作此文件的十份副本，附上首字母，并发送给你的同事。X.Y.Z."在这种基质中，这种形式是自复制的。

例6。若干变色龙互相注视，每一只都受到周围颜色的影响。如果一只变色龙变暗，它将增加"黑暗"出现在周围的概率。在这种基质中，"黑暗"这一属性倾向于自复制。

例7。在计算机中，如果指令0101010意味着"将后续内容输入随机选取的五个其他存储器"，那么在这种基质中，形式0101010是自复制的。

例8。一台计算机在其各个存储器中有单位十进制数字。它的程序是这样的：随机挑出一对数字，将它们相乘，并将右手数字放入第一个存储器。在这种条件下，由于任何零都会迫使另一个零被存储，零是自复制的。

例9。任何不稳定的动态系统，当它越来越远离不稳定平衡点时。因此，如果平坦山谷中的一条河恰好是直的，一个河曲的出现往往会导致产生更多的河曲。因此，在这种基质中，"河曲"这一形式是自复制的。

例10。当均匀层的某种无条纹冲击材料出现涟漪时，也会出现类似的例子；一个的出现往往导致其他涟漪的出现。在这种基质中，"涟漪"是自复制的。

例11。（源自伯勒博士）牛更喜欢踩进洞里而不是走上山脊。因此，如果牛沿着一条路径行走，而这条路径有一个小凹坑，它们会在一头牛步伐的远处踩出另一个凹坑，从而形成第二个凹坑。而这又往往会在再远一头牛步伐的地方被另一个凹坑跟随。因此，在这种基质中，"凹坑"是自复制的。

例12。化学中众所周知的现象是"自催化"。属于这一类的是乙酸乙酯（在水中）离解为乙酸和酒精。当然，在这里离解无论如何都在稳定发生，但第一次产生酸的离解会增加后续离解的速率。在这种基质中，一个乙酸分子的出现倾向于促进更多同类型分子的出现。

例13。在前面的例子中，形式一直是物质实体，但形式同样可以是一种模式。所必需的只是该实体，无论它是什么，必须能够被明确识别。例如，在过饱和溶液中，人们称之为"结晶"的分子排列是自复制的，在这个意义上，在这种基质中，引入一种结晶形式会导致产生更多相似的形式。

例14。在一个具有足够轻信特质且纸张供应充足的社群中，这很可能导致产生更多此类形式。

例15。在另一个作为基质的合适类型社群中，一个人开始某项特定爱好（作为形式），很可能会被其他人也开始从事这项爱好所跟随。

例16。最后，我可以提及这样一个事实：绞刑架的出现往往伴随着相似形式的出现。在这种基质中，"绞刑架"这一形式是自复制的。

来源：宋胖说事儿

链接：https://mp.weixin.qq.com/s/LaQ_4bxWUbe2MSRgZDZYbQ

编辑：何璇祺

作者: 刘海明 时间: 2026-2-28 20:36

【案例】

智能的机制——阿什比论文集（12）

我们现在翻译的翻译机制定律这一专题。今天我这给大家本主题的第五篇文章《自繁殖系统》后续部分。

自繁殖系统

4.繁殖作为一种特殊的适应在这些例子之后，我们现在可以更实际地接近这个主题。为了更清楚地看到繁殖这一过程有多么特殊，我们应该认识到，繁殖并不是通过某种奇迹般的联系专属于生物有机体的东西，而仅仅是对一类特殊扰动进行适应的专门手段。关键在于，生物自创世以来所遇到的陆地环境具有某些专门的特性，只有当我们将其与计算机内部可能存在的完全非专门化过程进行对比时，这些特性才容易被注意到。在这些陆地特性中，最主要的是一条极其普遍的规律：如果两个事物相距遥远，它们往往几乎互不影响。无疑还存在成千上万其他此类事实。我们在这里关心的是，当扰动或危险降临到有机体时，它们往往是局部发生的。也许最清楚的例子是这样的：如果地球没有大气层，那么地球上的生物将受到连续不断的高速小弹丸状颗粒的袭击。在这种弹雨下，每一个特定弹丸的威胁都是局部的，因此，如果生命形式能够复制，并且这些形式被制造并分散开来，它就会增加生存机会。这一规律当然具有极其广泛的适用性。银行可能会在某处发生火灾，因此它们制作记录副本并将其分散保存。如果一台计算机容易在随机地点发生突发故障，那么在计算的各个阶段复制重要数字就是有利的。因此我们看到，这种专门的繁殖形式应该被正确地视为与其他复杂动态过程的关系，即仅仅是对一类特殊扰动进行适应的专门形式。仅此而已，别无其他。如果扰动不是局部化的，繁殖就没有优势。例如，假设太阳突然变得致命或仅仅略有干扰。在这种条件下，物种拥有许多不同个体将一无所得。同样的现象也可以在产业界看到。当不存在公司多样性的优势时，无论是影响所有公司的生存还是全部倒闭，垄断都可以像众多小公司一样适应良好。

4.基础理论

经过这一考察，我们至少已经达到了一点，可以从机制逻辑的角度看到"繁殖"的真正本质。我们仅仅将其视为对特定类别扰动的适应。这意味着它立即受到Sommerhoff[3]所明确阐述的理论形式的约束。它是适应这一事实意味着，我们本质上是在处理某个动态过程的不变量。这意味着我们可以获得一个新的起点，适用于机制的新逻辑，一方面清楚地展示其内在逻辑，另一方面将该过程表述为可被机器编程或任何相关过程接管的形式。我们从一个基本概念出发：在动态系统中，系统的状态集以及该状态集到自身的映射f，对应于系统的动态驱动力。那么繁殖就是该系统组成部分f上以及作用于其上的一组扰动上保持的不变量之一。当它是这样的：整体中的某些部分受到单独影响时，"繁殖"在动态驱动力f的诱导变化作用下被泛化。

必须强调，尽管繁殖在生物有机体中似乎是一个严格定义的过程，但它实际上是一个具有如此普遍性的概念，以至于在所有情况下都需要精确的定义，才能清楚我们在谈论什么。因此，在某种意义上，本文呼吁给出定义，使得作用于某物之后，我们在稍后时刻又能重新得到它。这正是凤凰的情况。这也是"自繁殖"的一种基本到无趣的类型，但这仅仅是开始。它向我们发出警告：自繁殖过程可以在广义动态系统中以无数形式发生，这些形式远远超出生物世界的多样性和控制。因为它们是非生物的，生物学家会犹豫是否称它们为繁殖，但逻辑学家一旦给出定义并被迫坚持它，就找不到拒绝给予它们这一名称的理由。一般而言，我们有一套部分，在某一时间段内，属性P是可以理解的。这个属性P，如果概念要有用，必须在系统的各个位置保持（即不变）。如果在系统的事件过程中，如果沿着任何轨迹，P的出现之后，在轨迹的后续状态中，变量"存在的P的数量"具有更大的值。

应该注意的是，因为自繁殖是一种适应，它要求（正如Sommerhoff所示）有机体与环境之间的关系，又因为属性P必须在其在系统中的出现次数上是可计数的，我们必须处理一个以"部分"为组成部分的系统。我提到这一点是因为，动力学研究中的一项重要新发展是将系统实际上视为一个整体，根本不考虑部分。这种新方法不能用于繁殖研究，因为正如我刚才所说，繁殖概念要求我们将系统视为由部分组成的。

新观点涵盖了一条轨迹，立即展示了这一概念有趣扩展的恰当位置。正如我所说，繁殖是不变量的一种形式。一般而言，不变量只是平衡态或循环。到目前为止，我们只考虑了平衡态，但同样重要的考虑是循环。在这里我们得出结论：如果A繁殖B，B繁殖C，C繁殖A，这种循环在生物世界中当然极其常见。不仅有昆虫经历的相当复杂的形式循环——卵、蛹、成虫等，当然还有人类繁殖本身沿着循环规律进行这一简单事实：卵子、婴儿、儿童、成人、卵子，如此往复。

可以对该主题的理论进行进一步的澄清。让我们将"繁殖"定义为：当某属性的出现增加了该属性在其他地方再次出现的可能性时，即发生繁殖；这是正繁殖。我们同样可以容易地考虑"负"繁殖，即当某属性的出现降低了该属性在其他地方出现的可能性时。这类例子通常不会立即浮现在脑海中。当然，我们可以立即在通用计算机上发明这样一个系统；如果指令00000意味着"用1替换所有0"，就会发生这种"负繁殖"。到目前为止，我只在真实系统中找到一个例子——即如果在电沉积过程中，一根金属晶须向电极生长，另一根晶须在附近生长的机会就会减少。因此在这种条件下，这一根或类似的晶须是自消除的。

这一观察为我们提供了一个关于以下问题的明确线索：在大动态系统中，自繁殖形式将是常见的还是稀少的？负自繁殖形式显然没有突出的倾向——它们是自动自消除的。正自繁殖形式则完全不同。在没有对抗因素的情况下，它们将向前推进，直到完全占据系统。

假设现在我们做出一个自然的假设：如果系统部分是随机组装的，系统越大，其中可能的形式数量就越多。再加上如果任何一个形式是自繁殖的，那么自繁殖形式将充满系统这一事实，我们得出结论：有很好的理由预期，所有足够大的系统都将充满自繁殖形式。

这一事实很可能主导大型自组织系统的设计，迫使设计者将大量注意力投入到以下问题上："在我的系统中可能发展出什么样的自繁殖形式？"，并在动态系统设计中投入大量注意力来防止简单的不稳定性。

5.总结

过去，繁殖通常被认为是专属于生物的，并且需要非常特殊的条件才能实现。真相恰恰相反：它是一种范围最广的现象，倾向于发生在所有动态系统中，如果它们足够复杂的话。

大脑很可能将这种倾向（自繁殖形式的发生）作为其正常高级过程的一部分加以利用。大型自组织系统的设计者一旦设计出真正大型且自组织的系统，就会将这一属性作为一个主要因素加以考虑。

参考文献

1.W. Ross Ashby, "Principles of the Self-organizing System," *Symposium on Self-organizing Systems*, University of Illinois, June 7-10, 1960. Pergamon Press, 1962.

2. R. Rosen, "On a Logical Paradox Implicit in the Notion of a Self-reproducing Automaton," *Bull. Math. Biophysics*, Vol. 21, pp. 387-394, 1959.

3. G. Sommerhoff, "Analytical Biology," Oxford University Press, London, 1950.

来源：宋胖说事儿

链接：https://mp.weixin.qq.com/s/uiU9AAtgMCM7lIuE31S_oQ

编辑：何璇祺

作者: 刘海明 时间: 2026-2-28 20:38

【案例】

智能的机制——阿什比论文集（13）

我们现在翻译的翻译机制定律这一专题。今天我这给大家本主题的第六篇文章《阈值网络中脉冲活动的不稳定性》

阈值网络中脉冲活动的不稳定性

PROFS. W.R. ASHBY, H. Von FOERSTER and C.C. WALKER

（W.R. 阿什比、H. 冯·福斯特和 C.C. 沃克教授）

伊利诺伊大学厄巴纳分校电气工程研究实验室

半个世纪以来，阈值在神经细胞和突触活动中的重要性已为人所知，但对于这一普遍存在的特征必然会对整体行为系统施加何种普遍特性，人们却知之甚少。Beurle 在研究活动波在传导网络上的传播时注意到，具有阈值的网络会有明显的不稳定倾向，但他的假设十分复杂，且不稳定的根源难以确定。在此，我们试图证明，类似的不稳定性可以从更简单的根源轻易追溯。

如果我们构建一个人工神经网络，其连接方式未作明确规定但连接丰富，在连接处设有阈值，然后当网络传递脉冲时，试图将其活动保持在适中水平，那么我们所指的不稳定性很快就会显现出来。网络往往会趋向于两种状态之一：要么降至完全无活动的状态，几乎无法使其恢复活动；要么升至完全活动的状态，只有当出现耗竭或其他外部因素时才会减弱。

这种不稳定性的根源可追溯如下。假设整个网络由大量相互连接的单元组成，这些单元处理的信息在任何地方都以某种物理活动的相同脉冲形式表示。每个单元有 *n* 个可识别的输入。一个单元在时间间隔 *t*（到 *t* + Δ*t*）内"发放"——发出持续时间为 δ*t* ≪ Δ*t* 的脉冲——当且仅当在前一时间间隔（*t* — Δ*t* 到 *t*）内至少有 θ 个输入接收到脉冲。以下论证既适用于信息基本单向流动（从网络输入端到网络输出端）的网络，也适用于具有丰富内部交叉连接的网络（前提是没有任何反馈回路是短路的）。

我们将通过首先将概率 *p* 与在特定时间间隔 Δ*t* 内特定输入上出现脉冲的事件相关联，来描述特定单元输入上的活动。我们定义：

其中，N 是在时间 t 内计数的脉冲数量，这些脉冲通过了由 L 个随机选择的输入组成的足够大的输入束。由此我们得到概率 pi 表示特定单元上恰好有i 个输入在时间间隔 Δt 内接收到脉冲：

因此，至少 θ 个输入在此时间间隔内处于活动状态的概率 p′ ，即该单元发放（触发）的概率，由累积二项概率函数²给出：

当允许产生的脉冲频率 f′=p′/Δt 本身成为进一步频率 f′′=p′/Δt 的产生器时，就会产生不稳定性，依此类推。在这些条件下，我们探究随着时间推移网络中将会发生什么。如果每个输入上的脉冲活动等于每个输出上的脉冲活动，即如果满足以下条件，则达到平衡：

如果在输入端活动的增加导致输出端活动的减少，则该活动在 p∗ 处的平衡将是稳定的；也就是说，如果满足：

然而，将表达式(3)对 p 求一次导和二次导表明，对于所有满足 0<p∗<1 且 n>1 的方程(4)的解存在的情况，p′(p) 从原点出发时斜率为零，并在某一点呈现单一拐点：

因此，稳定性判据(5)仅在 p∗=0 或 p∗=1 时得到满足。

图1展示了一个简单情况，其中使用公式(3)将 p′ 对 p 作图，参数取 n=10 和 θ=5 。平衡点 p∗ 是 p′(p) 与 p′=p 相交的三个点：0、0.42和1。位于0和1的平衡点是稳定的；位于0.42的平衡点是不稳定的，其意义在于，偏离该值的微小扰动都会导致系统趋向其极端值之一。（在图1中，p 从初始值0.5的变化用阶梯线表示。）图2显示了各种扰动如何引发向极端值的失控。

因此，大脑中组织更为复杂的区域似乎给我们呈现了一个悖论。它们密集地使用阈值，但通常以某种适中的频率传递脉冲，在生理条件下很少陷入完全无活动状态或最大兴奋状态。显然，必然存在不单独依赖固定阈值的稳定性因素或机制。

一种容易想到的机制是阈值对输出的非线性依赖性，有时称为"耗竭性抑制"。如果这种依赖性具有以下形式：

（λ 、μ 和 m 为常数），若满足以下条件，则稳定性判据(5)成立：

本研究工作得到美国国家科学基金会（编号 G17414）的支持。

参考文献

[1] BEURLE R L. Phil. Trans. Roy. Soc. London, B[J]. 1956, 240: 55.

[2] ORDNANCE CORPS. Tables of the Cumulative Binomial Probabilities[R]. Washington, DC: Office of the Chief of Ordnance, 1952.

来源：宋胖说事儿

链接：https://mp.weixin.qq.com/s/mMiQ_AdpIF779JVdQeOwOg

编辑：何璇祺

作者: 刘海明 时间: 2026-2-28 20:39

【案例】

智能的机制——阿什比论文集（14）

我们现在翻译的翻译机制定律这一专题。今天我这给大家本主题的第七篇文章《大型动态（控制论）系统的连接度：稳定性的临界值》

大型动态（控制论）系统的连接度：稳定性的临界值

（摘自《自然》杂志第228卷，第5273期，第784页，1970年11月21日）

如今研究的许多系统都是动态的、大型的且复杂的：拥有100架飞机的机场交通、拥有10⁴人口的贫民区，或拥有10¹⁰个神经元的人脑。在这些系统中，稳定性至关重要，因为不稳定通常表现为自我放大的灾难。遗憾的是，目前关于大型系统稳定性的理论知识还很贫乏：本文描述的工作旨在为此增添内容。

这些大型系统通常是生物系统或社会系统，它们具有显著的非线性特征，这增加了相关的研究难度。在此，我们将线性系统仅视为迈向更一般化处理的第一步。

我们试图回答：大型系统稳定的机会有多大？如果大型系统是随机组装（连接）的，或是随意生长的，我们应该预期它是稳定的还是不稳定的？当变量数n趋向无穷大时，这种预期会如何变化？

蒙特卡洛类型的证据,表明，随着n的增加，稳定概率迅速下降，在某些情况下可能快至2⁻ⁿ，即系统稳定的机会呈指数级快速消失。然而，这一结果是针对完全连接的系统，即每个变量对每个其他变量都有直接影响。虽然这种情况在理论上显然很重要，但在现实生活中大多数大型系统并非如此：贫民区中并非每个人都对其他每个人都有直接影响，大脑中并非每个细胞都直接影响其他每个细胞。连接度（"connectance"）通常远低于100%。我们研究了不完全连接度对系统稳定概率的影响程度。

设线性系统的状态由向量x（=⟨x₁, x₂, ..., xₙ⟩）表示，其中每个xᵢ都是一个变量，是时间的函数；其随时间的变化由矩阵方程 ẋ = Ax 描述。

"随机连接变量"是指从某个特定分布中为矩阵A的元素赋值。从xᵢ到xⱼ的"非连接"对应于将元素aⱼᵢ赋值为零。因此，如果特定分布在零点有峰值，从中抽样就等价于得到一个具有许多非连接的动态系统。系统的连接度C可以方便地定义为分布中非零值的百分比。因此，如果系数从99%为零的分布中抽取，且n=1,000，则方程的每一行将包含约十个非零系数，这对应于每个变量直接受约十个其他变量影响的系统。

由于我们的工作本质上是探索性的，我们使用的分布中非零元素均匀分布在–1.0到+1.0之间。主对角线上的元素对应于各部分的内在稳定性，它们均为负值，均匀分布在–1.0到–0.1之间。因此，A的每个抽样值都对应于一个由个体稳定部分组成、每个部分直接受其他约C%部分影响的系统。

在数字计算机上，给定n值和C值。然后对适当分布的随机数进行抽样以提供矩阵A。应用赫尔维茨判据检验A的特征根实部是否全为负（稳定情况），并记录结果。进一步的抽样产生更多的A矩阵，从而可以估计稳定概率(P)。对另一个C值重新估计概率，如此反复，直到P随C变化的关系变得清晰。

结果显示出我们希望在此报告的特征。随着系统规模增大，出现了一种新的简单性。

图1稳定性随连接度的变化

图1展示了部分结果，足以说明主要事实。

当n=4时，系统稳定的概率依赖于C，呈某种复杂曲线（或许可以精确预测）。但随着n增大，曲线形状迅速趋向于阶跃函数，因此即使n仅为10，至少在某些实际用途中也可以这样看待。因此，即使在n=10时，稳定性问题也可以通过询问连接度是否高于或低于13%来简单回答：向任一方向偏离2%就足以使答案从"几乎肯定稳定"转变为"几乎肯定不稳定"。

此事正在进一步研究中，但值得注意的是，这项工作表明，所有大型复杂动态系统都可能具有这样的特性：在达到临界连接度水平之前保持稳定，然后随着连接度增加而突然变得不稳定。这可能具有普遍意义。

本研究工作部分得到美国科学研究办公室的支持。

来源：宋胖说事儿

链接：https://mp.weixin.qq.com/s/S4yuuLm-tjKKlcC5_zYx1g

编辑：何璇祺

作者: 刘海明 时间: 2026-2-28 20:41

【案例】

智能的机制——阿什比论文集（15）

我们现在翻译的翻译机制定律这一专题。今天我这给大家本主题的第八篇文章《关于某些复杂系统中行为的时间特性》，我们只发布摘要和导言部分。

关于某些复杂系统中行为的时间特性

C. C. 沃克* 和 W.R. 阿什比
美国加州大学洛杉矶分校心理学系
1966年1月17日收稿

摘要：对于具有众多复杂相互作用部分的动态系统的行为了解甚少，对于倾向于以一般性而非细节性方式影响其行为的因素也了解甚少。本文描述了对由计算递归逻辑函数的单元元素构成的此类系统的研究。

每个元素有两个二进制输入和一个二进制内部状态，该状态也是元素的输出状态。（元素的输出可以分支。）递归的引入方式是：令元素在下一时刻(t+1) 的状态成为其两个输入的当前状态以及其在当前系统时间 (t) 的内部状态的函数。因此，存在256种可以计算的不同函数，特定元素的行为由其计算的那一种函数定义。

一百个相同的元素随机连接构成一个系统。本研究通过计算机模拟对256种系统类型进行了研究，这些类型对应于全部256种逻辑函数，使用五组不同的连接，并从十个随机选择的初始系统状态启动系统。在设定初始状态后，每个系统在没有进一步干预的情况下产生其行为。我们特别研究了那些可能决定以下因素的行为效应：(i)系统到达其终末循环所需的时间，以及(ii)终末显示的循环的大小（周期性）。

在所揭示的事实中，以下几点似乎特别值得注意：

（1）此类系统往往以复杂的行为循环结束。极短的循环绝不是常见的结局。

（2）行为的风格，除了细节之外，往往与连接模式惊人地无关。

（3）能够被观察者检测到的、显著影响到达终末循环之前时间长短的因素之一，是元素作为信息传递者的程度。

（4）强烈影响以极短循环结束趋势的一个因素是：在多少种条件下，元素的状态在下一时刻将保持不变。

（5）使用其状态转移高度依赖于元素先前状态的元素，有利于系统在到达长终末循环之前具有较短的初始周期。

这些事实对于生物计算机各种应用的意义将在下文讨论。

引言

复杂系统被方便地定义为（Simon, 1962）由许多以非简单方式相互作用的部分组成的系统。目前对这类系统的行为了解甚少，即使那些具有相对基本特征的系统也是如此。本文报告的工作考察了一族复杂系统中行为的时间特性，这些系统参照其各部分的理论基本属性及相互关系来定义。开展这项工作是为了更好地把握系统一般如何行为，即描绘极端情况，找出通常预期的行为，并考察系统行为风格可能与各部分行为简单特征相关的可能性。

数据将从生物取向的读者最熟悉的观点进行讨论。然而，由于当今需求的控制机制正接近生物复杂性，且由于在传统计算机中启发式程序和蒙特卡洛方法的日益使用表明可能存在对概率机械的需求，本文给出的结果也可能对硬件取向的读者有兴趣。

构成所研究系统的部分是简单的电气装置，在此称为元素，它们可以相互影响。每个系统通过取许多元素并将它们以复杂排列连接而形成；通过系统地变化元素的行为属性产生了一族系统。对整个家族中各个系统的典型行为是实验探究的对象。

主要关注行为的三个方面：(1) 系统终末行为的周期性，即终末行为中重复之间的时间长度；(2) 暂时行为的持续时间，即系统进入其终末行为之前的时间长度；以及 (3) 系统的活动性，即从一个时刻到下一个时刻改变状态的元素的相对数量。

先前的研究结果（Ashby, 1960; FitzHugh, 1963）表明，在结构复杂的系统中，极短循环的产生与各部分在下一时刻保持状态不变的倾向有关；并且，产生极短循环的系统会沿着近似指数衰减的方式达到零活动水平。目前对此类系统中与本研究相关的行为特性知之甚少。

来源：宋胖说事儿

链接：https://mp.weixin.qq.com/s/Newp2cOBAtlAxuFMEKCB4w

编辑：何璇祺

作者: 刘海明 时间: 2026-3-2 22:01
【案例】

智能的机制——阿什比论文集（16）

我们现在翻译的《系统中的信息流》这一专题。

专题二：系统中的信息流（Information Flows in Systems）

1.专题综述
研究大型复杂系统，如大脑、城市、国民经济等，在任何但最有利的条件下都极其困难。在特殊条件下——所有系统组件的同一性、系统关系的线性、系统可分解为松散耦合的子系统、简化同态的应用等——可以取得一些进展，但一般来说，复杂系统行为中的纯粹信息量有可能压倒并使研究者困惑，即使是配备计算机的研究者。阿什比相信，推广到N维的信息论将成为研究此类系统的有效工具，事实上，自他的工作以来，它已被几位研究者用于该目的。在"自组织系统的原理"中，阿什比指出，系统的组织与其表现出的约束有关。这些约束可以用信息论（或不确定性分析，一个近义词）来测量，因此代表了测量组织的工具。基本思想是，如果变量相关，它们之间存在可以用信息论数量测量的约束；没有"传输"，就没有关系。在这种语境中，信息论仅作为测量多变量相关性的统计工具被引用，尽管不需要度量变量——这是相关系数、方差分析和相关统计设备所要求的。使用信息论的这种方式的收益是，可以研究过于复杂而无法进行详细全面研究的系统中的组织；损失是，关系的所有细节、内容和意义都丢失了，只留下"关系数量"作为调查结果。在最近的工作[102,104,111]中，该理论事实上已被证明是研究多变量系统结构的非常有用的工具，但除非变量数量相当适中（少于约25个），否则它对计算还不实用。在没有诸如可分解性等简化的情况下，阿什比期望信息论允许研究巨大系统——他提到100亿元素——似乎仅因统计原因就永远注定失败，也因计算原因而失败。
在"控制论系统中的目标设定"中，考虑了另一种信息"流"——设计和设定目标中涉及的信息量。就设计可以理解为从集合中进行适当选择而言，选择的量可以被测量，并受信息论定律的约束。这是一个独特的视角；将设计视为创造更为常见，而阿什比， characteristic 地从相反视角看待它，将其视为选择。
在"协调系统内部的信息流"中，阿什比说明了一种基本方法论，其中四变量系统内的约束用各种方式划分，使用熵和传输测量，论文的要点是，对于一定程度的协调，需要一定量的信息"流"。在"日常人类活动中的信息处理"中，他试图估算执行简单家务任务所需的最小信息量。两篇论文都可能使读者对数值结果直接依赖于开头做出的相当任意的数值假设感到不安。这完全正确，但 merely 反映和验证了阿什比在自组织系统论文中的观察，即约束和组织不是系统的绝对属性，而是与系统和观察者之间的关系有关。这些论文假设了这种关系，然后说明了一种方法，而后者代表了这两篇论文的主要着力点。
"测量系统内部的信息交换"提供了信息论中的某些关键恒等式，"两个表..."增加了更多。前者论文对所涉及的数量给出了解释和诠释。当时，阿什比对Q项（称为"交互作用"）非常热衷，因为他相信它们与系统固有复杂性密切相关，而这当然是他一直感兴趣量化、理解和解开的。正如该论文所展示的，这一希望是有充分理由的。然而，随后的工作，主要由Klaus Krippendorff [112]完成，表明Q没有实现这些最初希望，作为我们直观理解的"交互作用"一词的指标，它是严重误导的。问题主要在于Q来自两个相反原因、相反符号的原因，一个代表"真实"交互作用，一个是统计效应；后者污染了Q，使其无法作为前者的指标。Krippendorff设计了一个好得多的指标，读者应该意识到这一最新发展，以避免不加批判地接受阿什比的论文——尽管如此，该论文已被证明非常有影响力。

来源：宋胖说事儿
链接：https://mp.weixin.qq.com/s/pbZfm0yrm5mumd8DiD_jHQ
编辑：王昕越

作者: 刘海明 时间: 2026-3-4 21:29

【案例】

智能的机制——阿什比论文集（17）

我们现在翻译的《系统中的信息流》这一专题。今天翻译该专题的第一篇文章《控制论系统中的目标设定》的第一部分。

控制论系统中的目标设定

W. ROSS ASHBY（W. 罗斯·阿什比）

博登神经学研究所

英格兰

明确目标问题在控制论中至关重要，因为大多数控制论应用都始于某人说"我想要……"。在此，我并非将控制论视为一种解释事物的方式，而是一门新的科学和技术方法，使我们能够解决那些因其复杂性而原本无法应对的实际问题。协调机场周围的交通、稳定国际银行间的资金流动、使无肾脏患者的血液成分恢复正常——所有这些都必须从"你想要什么？"这一问题开始。过程本身将在目标处终结：控制论学者的思维必须从此处开始。

我想要……"，因此我们都从对意图、目的、需求、欲望的个人意识开始。但当我们问及机器如何能有欲望时，便陷入了困境。如果拥有目标的系统甚至不是一台机器，而是机器与人的混合体，且目标仅涉及整体而非部分，这一困难就变得更加巨大。这样的系统如何能有目的或欲望？

我建议，解决这第一个困难的方法是效仿心理学家一个世纪以来所做的事：抛弃内省方面，转向行为方面。不要再问"这个系统是否感到需求？"，而应问"它如何表现？"

那些主要通过内省来了解这些问题的人可能会犹豫是否放弃他们的主要信息来源。但心理学一个世纪的工作表明，内省方法虽然生动且表面上无可置疑，实际上却极不可靠。例如，看一张无色的（白色）纸：如果说有什么是明显且可信的，那就是其中没有红色。然而物理学家已使我们确信，我们所见的并非纸张本身，而是来自视网膜的信息，告诉我们三原色"平衡"。内省观察者只能看到自己的视网膜，无法超越它。

基于内省的报告实际上只是大脑最终言语化阶段的输出。这种报告只能对过程中更早发生的事情提供编码版本；按字面理解编码显然是一种错误。精神分析研究已在无数案例中表明，当一个人描述自己的动机或目标时，他可能错得多么离谱。简言之，内省方法在科学中迄今为止已被证明要么毫无用处，要么具有积极的误导性。

但如果目标不是需求，那它是什么？自麦独孤以来，心理学家们就已理解，它可以被等同地视为一种行为方式。"以一只胆小的动物为例，"他写道，"比如一只豚鼠，从它的洞穴或巢穴中取出，放在草地上。它不是保持静止，而是跑回它的洞穴；把它推向任何其他方向，一旦你把手移开，它就会转身返回洞穴。"同样的行为特征也适用于导弹：它持续向红外线源移动，如果被偏转就会重新确定方向，如果光源移动就会改变方向。

心理学一个世纪的经验和自动控制系统三十年的经验表明，就实际目的而言，我们可以通过用稳定动态系统中的焦点概念来替代被感知的需求概念，从而获得清晰性。

当系统本质上像"寻找"红外线的导弹一样简单时，这一论点可能不会引起争议。但更复杂的系统呢？例如自然进化，生物体似乎在发展自己的目标？人类呢？他难道不能选择自己的目标吗？控制论学者难道不能制造一台能选择自己目标的机器吗？

制造一个寻找目标的系统"是轻而易举的：随机形成一个状态决定的动态系统（例如，用抛硬币来指定它）。然后你几乎肯定会有一个系统，像豚鼠一样，表现出它在积极寻找某个偏好状态。诚然，该偏好状态对设计者而言可能毫无意义或毫无用处，但我们应该在此注意到，让机器拥有某个目标根本不是问题。

来源：宋胖说事儿
链接：https://mp.weixin.qq.com/s/fMCZ7jz0bsMQ7MJfg4g13Q
编辑：王昕越

作者: 刘海明 时间: 2026-3-5 18:06

【案例】

智能的机制——阿什比论文集（18）

我们现在翻译的《系统中的信息流》这一专题。今天翻译该专题的第一篇文章《控制论系统中的目标设定》的第二部分。

控制论系统中的目标设定

W. ROSS ASHBY（W. 罗斯·阿什比）

博登神经学研究所

英格兰

实现既定目标

排除了这个伪问题后，我们现在可以考虑真正的、困难的问题。当设计者不仅希望系统具有目标导向性，而且希望它追求某个已经明确指定的目标时，这个问题就会出现。空中交通控制系统被要求将碰撞降至最低而非最高，血液成分的生理稳定器必须将人类认为正常的那些数值作为其目标。在这里，随机组装可能产生的大多数稳定状态都是不可接受的。

当系统规模较小（例如设计一个房间恒温器）时，设计者不需要进一步的一般性理论；他直接进入具体细节。但当系统具有"控制论"规模时，他可能仍不确定下一步该如何进行。我想在本文中提出，如果我们应用信息论中已有的知识，这种情况的本质可以被阐明得更清楚。

当设计者面对一堆他将要用来构建机器的组件时（但当他面对一张将要编写程序的纸张时也是如此），这种情况最为明显。关键在于，通过从包含他想要的和不想要的所有选项中选出他想要的组装或程序，他向最终产品传递了一条信息，所有通信法则都适用。设计一个保持72°F的恒温器，就是向机器传递数值"72"。考虑一个不那么简单的例子：设计者希望为四个系数a、b、c、d分配数值—2、—1、0、+1或+2，用于以下方程：

以使系统稳定。在这种情况下，必须从设计者传递到系统的信息数量是可以计算的。共有5⁴种可能类型，其中114种的潜在根实部均为负值。在最坏情况下（如果所有值等概率），这种选择意味着传递log₂(625/114)比特的信息，即略低于2½比特。因此，在这个例子中，图1所示的通道必须能够传递至少2½比特（每次设计行为）。

这个例子是平凡的：重要的是该原理是否成立。如果是，它将使我们对那些绝非平凡的问题有更深刻的洞察。

然而，在进一步讨论之前，我们必须注意一个可能容易混淆的问题。假设某个复杂的调节器接受m个输入Xᵢ（i=1,…,m），可能是关于机场飞机的数据，并发出命令，即关于n个变量Yⱼ（j=1,…,n）的数值，发送给飞机。然后设计者被要求将其设计成一个"好的"交通管制员。基本情况可以用图2表示。输出如何依赖于输入是一种关系F，即系统的"传递函数"（广义上）。设计者的任务是采取行动，使得从机场可能发生的所有事件（好的和坏的）中选出的期望目标，被传递并有效地作为"好的"F发挥作用。应该注意的是，这个好的F来自所有可能的F的集合（而非来自Y值的集合），因此由选择所暗示的、沿通道C的传递，本质上独立于从X到Y的传递。本文将关注通过诸如C这样的通道所传递的信息量。

如果将设计者的任务表述为向那堆组件传达"成功机场"这个短语的含义，以操作模式使这堆组件在被组装时能够分离出"好的"集合及其补集，这种情况或许可以变得更直观生动。类似地，设计一个模式识别器（例如识别真美元钞票）的问题，一般可以被视为试图在机器的未开发状态下告诉它"真的、美元和钞票"是什么意思。再次强调，这种设计信息的流动与后来当完成的机器扫描实际纸张并发出判决时发生的流动是根本不同的。类似地，在信息检索中（例如从图书馆获取与"大学中的社会反馈"相关的文件），困难本质上可以被视为向机器传达"社会、反馈和大学"是什么意思的问题。总的来说，将设计过程视为告诉机器你想要什么，有助于更清楚地显现设计行为所固有的信息流动。

来源：宋胖说事儿
链接：https://mp.weixin.qq.com/s/I9EfIldvKtJ91kIQLuo2Fg
编辑：王昕越

作者: 刘海明 时间: 2026-3-6 20:39
【案例】

智能的机制——阿什比论文集（19）

我们现在翻译的《系统中的信息流》这一专题。今天翻译该专题的第一篇文章《控制论系统中的目标设定》的第三部分。

控制论系统中的目标设定

W. ROSS ASHBY（W. 罗斯·阿什比）

博登神经学研究所

英格兰

如果接受这个论点，我们将不可避免地推导出：在先前阶段（如图3所示）存在着完全相同的情况。

设计者传递给F的特定目标从何而来？设计者本人很少是发起者；更常见的情况是，如空中交通管制系统的例子所示，目标来自我将通称为发起者（sponsor）的一方。我再次强调，如同之前所述，结果必须有原因。在F之间的选择可归因于在先的设计者可能目标之间的选择。而这种选择又必须归因于在先的发起者可能目标之间的选择。此外，根据信息论（尽管很少被明确表述），这是不证自明的：复杂的结果作为"接收到的信息"，需要至少与"发送的信息"同样复杂的因果关系。所谓"同样"指的是比特数，或更简单地说，可能的消息数量。因此，根据这一公理，我们可以断言：从发起者到设计者必须有足够的信息传递，以使发起者（在其可能的目标中）做出的选择能够传达给设计者。

通常这个要求是如此明显，以至于这些论述看起来似乎多余。但实际情况往往并非如此，这一要求常常得不到充分满足。很可能在本次会议上，有些设计者获得的发起者目标信息（通过通道B）远远不够，却被期望在系统F中实现高度恰当的选择。发起者必须学习足够的初级控制论知识，才能明白什么时候他们在要求不可能的事。事实上，发起者必须认识到，他与其他所有想当调节者的人一样，受制于科南特定理（Conant's First Theorem）。只要他心中有某个目标，并试图让可能设计各种东西的设计者接受他的特定目标（以传递到系统F），他就是一个调节者。如果设计者误解了意思，为G'而不是G进行设计，发起者必须纠正他，并持续行动直到设计者将发起者的G作为指导。这是一种调节行为，因此完全受制于科南特定理——该定理断言：相应数量的信息传递（通过B）是绝对不可避免的。凭借这一定理，设计者可以要求发起者充分传递信息。

在这一领域似乎唯一清楚理解并阐述这些要求的是老毛奇（von Moltke），他于1858年创立并组织了德国总参谋部。他赋予其的关键原则是"指令"（directive）。在这种方法中，上级（对应于此处的发起者）不给下级下达命令。命令被规则取代：上级应花费所有必要时间，从自身的角度向下级解释他想要什么；然后让下级自由运用所有个人主动性和本地知识来实现目标。显然，毛奇对这些定量流动有着最清晰的直觉理解。

然而，有时发起者并不需要传递所有信息。必要的是向设计者传递足够的信息（作为决定因素），使他能够充分选择其目标。但这种决定性因素不必全部来自发起者。发起者可以详细规定一部分，然后说"我将剩余部分委托给______"。他可以委托给下级，由后者提供其余部分；也可以委托给设计者本人。设计者本人还可以进一步委托，比如抛硬币决定。但在所有情况下，来到设计者的决定总量必须不少于选择其目标所需的数量。

这种补充可以采取各种形式。一种著名的形式是：基因设定生物体的目标。但在高等生物中，目标过于复杂，无法通过遗传通道传递，因此部分决定性因素被委托给环境。基因结构对小猫说："我已经告诉你一些关于老鼠的事——现在出去从老鼠本身那里获取更详细的细节。"我们称这种补充为"学习"。而学习机器就是仅由其设计者部分规定的机器，设计者将规定的剩余部分委托给某种"教学"环境。

信息量

一旦这些支配目标的一般原理清楚了，其余的就是特殊情况下的特殊技术问题。但我想提一个方面，因为我相信它具有核心重要性。它涉及目标具有极高复杂度的情况，如人工智能、高阶模式识别和高阶调节。

无需停下来仔细考察"复杂性"的概念，我假设复杂目标具有许多部分，且部分之间所需的关系显示出高度的部分对部分的依赖性：也就是说，整个目标是许多变量的不可约函数。我想强调，简单（可约）目标与复杂（不可约）目标之间的信息含量差异是巨大的。基本论证可以用集合论清楚给出。如下：如果n个变量中的每一个都可以取k个不同值，那么它们之间可约（即矩形）关系的数量就是矩形子集的数量。在kⁿ点的空间中，它是2nk 。但一般情况下（不限于可约的）关系的数量是2kn 。因此，指明这些关系之一（作为可接受为达成目标的事件集合）在可约情况下需要kn比特，在不可约情况下需要kⁿ比特。

这个差异对印刷工人来说可能微不足道，但在数值上却是超乎想象的。例如，假设机场交通仅涉及100个变量（可能是低估），且每个变量只需区分5个程度（同样是非常适度的要求）。如果目标是可约的，指明它可能需要多达500比特；如果是不可约的，数量则上升到1070 比特，相当于宇宙中每个原子对应一个比特！这种惊人的飞跃绝非例外；相反，我过去几年所做的一切都表明这完全是典型的。允许相互作用通常会使信息含量增加巨大数量级。

面对这些巨大的数量，我们可以通过记住布雷默曼极限（Bremermann's limit）来获得一个有用的固定参照点，并保持某种比例感。由于物质的量子粗粒度，由物质构成的任何东西，无论是机器还是大脑，处理信息的速度都不能超过约1047 比特/质子/秒。即使动用成吨的计算机和数十年的时间，任何可行的计算能处理的信息也不超过约1020 到1030 比特。因此，就在刚才给出的非常适度的机场例子中，一个一般性的复杂目标已经提出了完全超出可实现范围的要求。我认为，今天我们与复杂系统斗争中的许多困难——特别是那些试图推进到真正宏大而新颖领域的研究——基本上可归因于这样一个事实：我们常常试图处理的信息量，根据布雷默曼极限，实际上是不可管理的。

信息论的思想和方法至少可以在两个方面提供帮助。首先，即使是粗略的近似也足以警告我们正在尝试不可能的事。其次，它可能为问题的各种战略方法提供意想不到的启示。下面是我最近遇到的一个例子。

假设如图2所示，设计者必须在这个具有m个输入X1,…,Xm 的系统中选择正确的函数F。现在这个系统有一个从X到Y的明显传递，但信息论中的传递不仅仅意味着沿导线驱动电子。本质上，信息论是关注偏离统计独立性的科学。如果Y的值不独立于X的值，那么普通的"通过传递"发生，但其他偏离也是可能的。因此X之间可能显示出偏离独立性（比如相关性）；然后可以在X之间定义和测量传递。在参考文献5中，T(X1:…:Xm) 将不为零。这种相关性将对设计者必须处理的信息量产生什么影响？

假设T(X1:…:Xm)=20 比特。表达这一事实的另一种方式如下。

现在，"2的指数次方，熵"实际上相当于独立值的数量，也就是无相关性的值的数量。因此，该表达式表明，传递20比特的信息将输入端的有效状态数削减到2−20 的分数。

接下来，考虑这样一个事实：将p 个输入状态映射到q 个输出状态的数量（即设计者必须从中选择的F 的数量）是qp 。要选择一个F 可能需要多达plog2q 比特。如果q 是固定的，比特数与p 成正比。但p 已经被削减了2−20 ，即削减到了百万分之一。

因此，在X 之间传递20比特信息，并不仅仅是从设计者的工作中减去20比特：而是将他的工作量削减到百万分之一。

考虑到这个例子以及我过去五年的其他经验，我认为可以合理断言：我们在人工智能（以及高度复杂系统的类似研究）中最紧迫的需求，是必须时刻意识到信息含量是依赖于乘数还是依赖于指数。尽管这种区别粗糙且基础，但没有它，研究者可能拼命争取10%的效率提升，却浑然不觉由于错误的基本策略，他正在一个高出百万倍的水平上工作。

参考文献

1. W. McDougall. *Psychology*. New York: Holt, 1912.

2. W. R. Ashby. "The Set Theory of Mechanism and Homeostasis." In *Automaton Theory and Learning Systems*, ed. by D. J. Stewart. London: Academic Press, 1967, pp. 23-51.

3. R. C. Conant. "The Information Transfer Required in Regulatory Processes." *IEEE Transactions* SC-5 (1969): 334-338.

4. H. J. Bremermann. "Quantal Noise and Information." *5th Berkeley Symposium on Mathematical Statistics and Probability* 4 (1967): 15-20.

5. W. R. Ashby. "Two Tables of Identities Governing Information Flows within Large Systems." *Communications of American Society for Cybernetics* 1 (1969): 3-8.

来源：宋胖说事儿
链接：https://mp.weixin.qq.com/s/nBIAXqvaSrT8ArABU3YdiQ
编辑：王昕越

作者: 刘海明 时间: 2026-3-10 19:29

智能的机制——阿什比论文集（20）

[color=rgba(0, 0, 0, 0.9)]大家好，接着由我来为大家翻译控制论先驱阿什比的论文集《智能的机制》。全书共有8个专题40多篇论文，基本把阿什比（除了名著《大脑设计》《控制论导论》之外）主要代表作都囊括了。除了个别零散论文（比如《智力放大器设计》）外，大多没有被翻译为中文。我想尝试翻译出来，与群友共享。也许在今天AI浪潮几乎让人疯狂的背景下，聆听一下这位控制论先驱对智能的思考对我们有帮助，能让我们冷静下来，对AI如实观照。

[color=rgba(0, 0, 0, 0.9)]我们现在翻译的《系统中的信息流》这一专题。今天翻译该专题的第二篇文章《协调系统中的信息流》第一部分。

协调系统中的信息流*W. 罗斯·阿什比美国伊利诺伊大学，伊利诺伊州厄巴纳摘要每一项协调活动，无论是走钢丝者肢体的运动，还是大城市的交通流，都需要在被协调的各部分之间进行内部信息流传递。一旦协调关系被明确界定，内部信息流的最小数量就可以用数值方法确定。文中给出了一个例子来说明这一原理。这个数量可以按多种方式划分，对应于管理协调的各种组织方式。因此，可以将一个城市或大脑中提出的组织方式与其内部通信资源进行关联，以检验它们是否匹配。具有延迟的效应（"记忆"）可以在不改变基本框架的情况下纳入表述。协调活动对记忆的需求可以通过多种定量不同的形式来满足；因此设计者可以在其中选择最合适的形式。文中给出了一个例子作为说明。我们拥有大脑主要是为了协调我们的身体活动：使我们的左手能够与右手协同动作。协调与整合长期以来在生理学中被认为是大脑的最高功能，但今天的控制论同样关注其他类型系统中的协调。大城市需要协调其交通流；预防烟雾需要协调许多预防和补救行动，以免一种补救措施被另一种抵消；在社会问题中，福利机构的活动也需要协调。本文的目的是表明，所有协调都需要在系统内部传输信息（这一命题可能被认为是显而易见的），但特别要表明这些传输可以用定量方法测量。每一个明确定义的协调都规定了一个基本的总传输量，少于这个数量就绝对不可能实现该协调。本文还将表明，这个总量可以用各种方式进行分析（划分），从而可以看出在组成部分之间需要多少传输。例如，在调节交通流时，它可以显示在点与点之间需要多少传输。在大脑中，它可以显示在细胞与细胞之间，或中枢与中枢之间需要多少传输。协调本质上是一种整体现象，只能在整个系统中被识别。这里提出的信息分析方法也是这种类型。它并不是说在X₁和X₂点之间必须发生这么多传输：它将所有传输视为一个复杂的相互关联的集合，并允许（比如说）X₁和X₂之间的传输取几乎任何值，前提是在其他内部传输中做出适当的调整。这种方法可以用形式化的抽象符号来表述，让读者自己去寻找应用。我宁愿用一个例子来说明，也许是过于简化的，以展示这种方法的运作。读者应该不难将这个例子改编以适应自己的需要。这个例子是人为的；我本想分析真实数据，但似乎还没有人收集到足够广泛的关于协调的数据来进行这种类型的分析。也许当这种方法的存在被更好地了解后，实验者们会提供适当的数据。

来源：宋胖说事儿

原文链接：https://mp.weixin.qq.com/s/X9wDrle8JLYCihN_vhZmmw

编辑：马丽萍

作者: 刘海明 时间: 2026-3-10 19:36

智能的机制——阿什比论文集（21）

[color=rgba(0, 0, 0, 0.9)]我们现在翻译的《系统中的信息流》这一专题。今天翻译该专题的第二篇文章《协调系统中的信息流》的第二部分。

协调系统中的信息流*W. 罗斯·阿什比美国伊利诺伊大学，伊利诺伊州厄巴纳3.1走钢丝者作为例子，让我们考虑走钢丝者所展示的那种经典协调类型。焦点条件（Sommerhoff，1950）显然是他的四肢必须始终处于这样的位置：它们的重心位于钢丝正上方。（为了保持例子简单，这里我忽略了诸如角动量之类的复杂因素。）不熟练的人也许能够像专家一样让他的四肢活动同样大的范围，但不熟练的人会使用那些专家会避免的位置组合，比如所有四肢都偏向左侧。因此，不熟练者与专家之间的对比可以通过这样一个事实来表明：专家将其动作限制在那些解剖学上可能的动作中的一个特定子集内。当然，这个建议并不仅仅来源于走钢丝。正如Sommerhoff（1950）在生物学例子中广泛展示的那样，也正如Ashby（1967）用集合论和二进制关系术语所表明的那样，将"协调"识别为"在n维频率表中偏离统计独立性"既是广泛的也是严格的。给定任何明确定义的n个变量之间的协调，就意味着在n维空间中的事件上存在一个频率分布，对此可以应用香农型的信息度量。现在通过例子继续会更简单。为了避免无穷小量，假设四肢中的每一个都可以去到位于中央平面距离-2、-1、0、+1、+2的五个位置之一。因此，如果四肢L₁、L₂、L₃、L₄分别位于-1、+2、-1、+1，平均值就是+0.25，它们的重心就偏离了中央平面。（如果我们允许两个或更多肢体位于同一距离，那么就有5⁴种可能的分布（姿势），其中只有子集会被专家使用。很容易验证，在这625种姿势中，有85种具有协调姿势的零平均值（在对称分布的6种类型中有61种，如00400、01210等；在不对称的10120及其镜像中各有12种）。为了获得必要的频率（或在除以总数后的概率），我们可以基于两种假设中的任一种进行（事实上，这两种假设会导致相同的数值结果）。一种方法是假设不熟练者的625种姿势和专家的85种姿势实际上都是等概率的，这是一个非常任意的假设，当我们考虑真实的人时很可能是错误的。另一种方法是考虑必须提供传输设施的情况，并问：假设最坏的情况发生——在没有传输的情况下所有625种姿势都出现了，而专家（由于其他原因）可能被迫产生全部85种：为了保险起见，我们必须提供的最小传输设施量是多少？这第二种问题形式似乎没有异议（不像第一种），所以我将把它作为要提出的问题。在假设频率相等（或除以85后的概率）的情况下，我们现在可以找到基本熵。这些以通常的方式定义：

然而，由于我们将在这里使用频率，如果频率是n1,n2,…,nr,… ，总和为n ，那么算术上更方便的方法是求H(X) 为：

（当ni都是整数时，可以避免大量的插值。）

在一般情况下，这些熵将通过任何适当的方法找到。在这个例子中，我们很快可以发现L₁在协调姿势中具有以下频率分布。

因此，H(L1)=2.315 比特/姿势。根据对称性，H(L2) 等也具有该数值。

⟨L1,L2⟩ 在其25个可能取值上具有以下分布。

因此，H(L1,L2)=4.544比特/姿势。⟨L1L2L3⟩的全部85个取值都是不同的，所以H(L1L2L3)=log85=6.409。类似地，H(L1L2L3L4)=6.409比特/姿势。如果一种姿势在（比如说）0.5秒的时间跨度内是显著的，那么这些数值的两倍就会给出以比特每秒为单位的熵。

来源：宋胖说事儿

原文链接：https://mp.weixin.qq.com/s/aptdECQptlUU97gX6K03OQ

编辑：马丽萍

作者: 刘海明 时间: 2026-3-11 20:14

智能的机制——阿什比论文集（22）

[color=rgba(0, 0, 0, 0.9)]我们现在翻译的《系统中的信息流》这一专题。今天翻译该专题的第二篇文章《协调系统中的信息流》的第三部分。

协调系统中的信息流*W. 罗斯·阿什比美国伊利诺伊大学，伊利诺伊州厄巴纳

3.2信息流的划分

进一步的分析使用麦吉尔（McGill，1954）引入并由加纳（Garner，1962）和阿什比（Ashby，1965，1969）发展的方法。现在所需的最重要的量是总传输量，其表示和定义为：

它度量了由协调所隐含的、偏离统计独立性的总量（给定边缘分布）。这里其数值为2.850比特/姿势。其重要性在于，如果内部传输总量少于这个数值，协调就无法得到保证。值得注意的是，所需的总传输量并不是明显的log2625−log285(=2.878) ，而是比它小0.028的量。原因是，较大的那个量只有在每个变量Li 均匀分布在五个取值上时才会适用。事实上，（在协调情况下）分布并不均匀。因此，如果将变量的分布从17, 17, 17, 17, 17改为15, 18, 19, 18, 15，这一改变将使四变量联合分布更接近协调形式，而无需在变量之间使用任何传输。因此，代数分析和数值分析已经揭示了一种节约和提升效率的可能性，否则这一点可能会被忽视。（在这个例子中，收益微不足道；但在其他情况下，它可能具有重大意义。）
所需的总传输量可以通过累加各种分量来获得。一种可能的方法是利用T(L1

4) 恒等于以下事实：

如果总协调是通过以下机制或通道实现的，这种划分将是适当的：(1) 实现L1 和L2 之间（比如说手臂之间）的适当协调，而不考虑腿的位置；(2) 实现腿之间的协调，而不考虑手臂；(3) 以不依赖于手臂之间关系细节的方式协调手臂和腿（例如，如果手臂对的重心在+0.5，那么腿对的重心必须在-0.5）。这三个量分别为0.086、0.086和2.678，总和当然为2.850。

这些数字可能有各种用途。因此，假设只有2比特的通道可用。为了获得2.678的传输量，与其使用两个这样的通道，我们可以尝试另一种分配传输的方式。

另一种方式用以下划分（总量）来表示：

如果协调是通过以下步骤实现的，这种划分将是适当的：首先，L1 和L2 之间存在一个约束；其次，这一约束的结果（向量⟨L1L2⟩ ）作用于约束L3 ；然后，由此产生的⟨L1L2L3⟩作用于约束L4 。

所需的量分别为0.086、0.449和2.315——最后一个量仍然过高。然而，我们还有，这最后一个量可以进一步划分：

来源：宋胖说事儿

原文链接：https://mp.weixin.qq.com/s/q3yzD28apMZCcIQScnux0w

编辑：马丽萍

、

作者: 刘海明 时间: 2026-3-12 15:33

智能的机制——阿什比论文集（23）

[color=rgba(0, 0, 0, 0.9)]我们现在翻译的《系统中的信息流》这一专题。今天翻译该专题的第二篇文章《协调系统中的信息流》的最后部分。

协调系统中的信息流*W. 罗斯·阿什比美国伊利诺伊大学，伊利诺伊州厄巴纳3.3记忆在上述协调中，假设变量同时指定了四肢的位置。完全相同的逻辑和代数方法也适用于协调随时间发生的情况：当较后的事件必须与较早的事件协调时。H(X,Y) 可能是两个遥远事件同时发生的熵，但同样可能的是，X 和Y 只在时间上分离，因此可以说X=Z(t) ，Y=Z(t+k) 。现在，如果系统要协调X 和Y ，它必须在时间跨度k 上以某种形式拥有"记忆"。一个例子将展示这种方法及其某些可能性。同样，由于缺乏现有的真实数据，它是人为的。让我们假设三辆无人飞行器将降落在某个行星上，该行星有五个感兴趣的地方。要求这三辆飞行器：(1) 在某个时间前往五个地方中的某三个（没有两辆飞行器去同一个地方）；(2) 在另一个时间，全部三辆在一个它们单独访问过的其他地方会合。（事件(1)和(2)可以按任一顺序发生。）并且要求协调对记忆的需求必须最小。计算是直接的。我们为最坏情况做准备，其中所有事件和分布都是等概率的。设五个地方为{1,2,3,4,5} ，三辆飞行器为{A,B,C} 。设A,B,C 表示它们在第一次实时中的位置（无论实现事件1还是2），A′,B′,C′ 表示它们在较后一次的位置。因此，如果向量A,B,C,A′,B′,C′ 的值为(4,4,4,5,5,2,1) 或(2,5,3,1,1,1) 以及其他类似组合，它就显示了所定义的协调。在"协调"情况下，基本熵很容易找到。（1）A 的5个取值都以频率48出现，因此H(A)=log25=2.322 。H(B),…,H(C′) 同理。(2) AA′ 的20个允许值都以频率12出现，因此H(A,A′)=4.322 ；H(B,B′) 和H(C,C′) 同理。(3) 对于ABC ，5个值（事件1）每个以频率24出现，60个值（事件2）每个出现两次。因此H(A,B,C)=5.114=H(A′,B′,C′) 。(4) ABCA′B′C′ 的240个允许值每个出现一次；因此H(A,B,C,A′,B′,C′)=7.907 。单位是比特每双重事件。组织该系统的一种明显方式是在两个时间的每个事件内进行协调，并且也在两个时间之间进行协调。两种飞行器分布所需的总传输量为6.625比特，分析如下：

实现协调的另一种组织方式，是考虑每辆飞行器所采取的"轨迹"（或转移），例如A 可能从4→5 ，B 从4→2 ，C 从4→1 ，然后协调这些轨迹。这将需要以下量：

T(A:A′) 这一术语表示只影响飞行器A 的"记忆"，而不考虑其他飞行器做什么；B 和C 同理。引人注目的是，这种类型的三个"记忆"只需要0.966比特，相比之下，单一的、更明显的第一种类型需要2.322比特。因此，这种方法使得可以检验各种"记忆"的功能形式的各种特性。

当然，人们还必须考虑用于实现转移之间协调的物理方法，T(AA′:BB′:CC′) 。我们只需注意到，这些数值分析仅涉及偏离统计独立性的量，而不涉及任何原因或物理起因。因此，任何这里称为"传输"的量T ，不一定需要工程师的通信通道：对共同信号的适当配对响应很可能提供这些恒等式所要求的形式上的"传输"。

编码问题依然存在，但如果我已经表明协调与整合的基本概念是可以测量的，并且这些测量可能给出比简单直觉所能获得的更深入的系统信息，我就心满意足了。

参考文献

[1]Ashby, W.R. (1965). "Measuring the internal informational exchange in a system". Cybernetica, 8, 5-22.

[2]Ashby, W.R. (1967). "The set theory of mechanism and homeostasis". In Automaton Theory and Learning Systems (Ed. D.J. Stewart). Academic Press, London. pp.23-51.

[3]Ashby, W.R. (1969). "Two tables of identities". Bull. Am. Soc. Cybernetics.

来源：宋胖说事儿

原文链接：https://mp.weixin.qq.com/s/s1snYzNY7MryTGq0exJeuQ

编辑：马丽萍

作者: 刘海明 时间: 2026-3-13 17:38

智能的机制——阿什比论文集（24）

[color=rgba(0, 0, 0, 0.9)]我们现在翻译的《系统中的信息流》这一专题。今天翻译该专题的第三篇文章《日常生活中人类的信息处理》的第一部分。

日常生活中的人类信息处理*W. Ross Ashby（罗斯·阿什比）作者系伊利诺伊大学厄巴纳分校电气工程系教授。迄今为止，人类的信息处理能力主要是通过测定其在某些高度专业化任务（如弹钢琴或语音速记）中的极限容量来测试的。据我们所知，其在日常生活中的信息传输量尚未被估算。然而，这一数量可能是研究其高级心理生理学的基础。因此，我们尝试对此进行评估。

我们很快发现，虽然获得数值估计是容易的，但这些估计的差异如此之大——相差百万倍甚至更多——以至于清楚地表明，真正的问题不是获得数字，而是获得数字之前的那些决策。在本文中，我们报告并仅限于讨论我们现在认为的关键要点。信息处理要发挥作用，必须基于某种最小量的考量，这种考量必须发生在某件日常活动成功完成之前。因此，如果一个人要行走哪怕一步，其髋部、膝部和踝部的各种运动（及其附属运动）必须协调一致；也就是说，各种运动不能以统计独立的方式发生。成功的行走意味着与独立性存在重大偏差，而这种偏差可以用香农（1949）和麦吉尔（1954）的"传输"测量方法来测量。每秒比特数的"传输"并不意味着必须从髋部的感觉末梢向膝部的控制肌肉发送 *a* 比特；但它确实意味着，如果整个协调活动要由正常的因果过程产生，则每秒至少 *b* 比特必须以某种适当的方式在系统中的某个地方传输。为了使这一基本概念完全清楚，让我们考虑以下一个简单的协调例子（不完全来自日常生活）：一位钢琴家在演奏一段乐曲时，弹奏音符A、B、C、D、E、F，但只是为了产生三度音程的和弦。如果我们建立一个频率表，显示两个手指（X和Y）敲击各种配对的频率，结果如表1中带星号的单元格所示。

如果最单调的频率均等出现，在最严格的情况下，Y的熵（= Σ Pᵢ log₂ᵢ）将是概率⅙、⅙、⅙、⅙、⅙、⅙的熵，因此为2.5比特。H(X)具有相同的数值。H(X:Y)在两组频率下为3.0比特。配对限制所隐含的传输量则为2.5+2.5−3.0，即每和弦2.0比特。同样，两个变量之间的任何其他限制或条件都意味着这些变量之间存在最小量的传输。应当注意，问"一个人最少能传输多少？"与问"实现给定协调所需的最小传输量是多少"绝不是一回事。后者可以类比于一个人（发送者）必须发送的最小词汇量才能转动钥匙、开门等。后一数量在任何能量问题中都是基本的：我们的数量在任何协调问题中具有类似的地位。

设变量X，比如说，实现给定协调所需的总传输量将由T(X,x : X₂, x₂, ...) = H(X,x) − H(X,x | X₂, x₂, ...)给出。[McGill, 1954; Ashby, 1965.]

带着这些概念，我们将以下定义的动作作为研究基础，并作为"日常生活"中 reasonably 典型的片段。

（人类主体在阅读时遇到一个不熟悉的法文单词。

变体：他穿过房间走向书架（避开路径上的一把椅子），在100本其他书中找到他的法文字典，找到该词，将其翻译成正确的英文单词。

如今，"信息"只有在定义于某个样本空间上时[香农，或者等价地说，当可能性的多重性至关重要时，才具有意义。因此，如果我们认为这个动作是由特定宇宙状态下特定房间中的特定人完成的，那么它没有多重性，任何关于其信息属性的问题都是不恰当的。为了使这个事件与 variety 的传输产生某种关联，我们必须将其扩展为一组动作。在我们看来，这种扩展是发展逻辑上可辩护的方法的关键和必要步骤，并且可以通过考虑概率测量中的一个相关问题而使其更加合理。假设我们观察一所房子的门，观察到在中午12点前最后一个穿过门口的人是男性这一独特事实。（这是"特定事件"。）那么可能会提出这样的问题：这个事件的概率是多少？

这个问题需要一个样本空间：尚未定义。如果要深究概率问题，就必须提供一个样本空间。显然，具有概率的特定事件将被提供。我们可以将事件扩展为包括整天所有 hours 穿过门口的那些人；或者，将时间保持在中午，我们可以将其扩展为包括街上商店的门；还有许多其他扩展是可能的。显然，选择哪种扩展必须取决于其他标准，取决于最初提出这个问题的原因。

在这里我们只需要注意到，就这个例子而言，必须选择某个样本空间。

在我们看来，以下对独特动作的扩展相当符合我们将研究限定于'日常生活'的原则：

1）即使主体试图立即重复其动作时也会发生的变体。 a）由于肌肉运动不准确导致的变体，如同任何行走中的情况。 b）主体查找单词时字典翻开在哪一页。

2）如果在其他日子采取类似动作可能不会发生的变体。 a）所查找的特定法文单词。 b）障碍椅子的位置。 c）字典在其他100本书中的位置。 d）椅子相对于其他100本书的位置。 3）并非非常本质的。

上述不在(1)、(2)或(3)中的所有变量：特别是： a）房间的建筑特征。 b）主体在房间中的初始位置。 c）法文字典。 d）其他100本书。 e）主体本人、他的过去经验和记忆。

随着动作集合被很好地定义，我们现在可以获得关于变量之间必要传输量的良好定义估计，以实现协调和成功的动作。（由于普通成年人每天进行许多这样的动作，我们可以确定普通成年人确实至少传输了那个数量；如果他传输得更多，那他就是在测量他的低效率。）

这种观点及其逻辑，如果接受以下命题作为公理，或许可以更加清楚：一旦样本空间或集合（在其上计算传输量）被定义，无论主体是智能人类还是设计为以完全相同方式执行动作的机器人，传输量的计算都以完全相同的方式进行，并且必须得出相同的数字。通过这一公理的方法可能大大减少人们对必要传输量的初始直观估计。特别是，它将神经机制的庞大质量从我们的考虑中移除，因为这些活动既不在定义的动作集合中被描述，也不在其中变化。（如果读者倾向于将神经变体引入这九个连续成分中，他的估计将与我们的不同：然而，方法将是相同的。本质上，他将在回答一个不同的问题。）

我们接下来自然而然要研究的问题是关于九个相继的成分，它们足够独立，其传输量可以通过简单相加来复合。这九个成分在表2中给出，附带我们对连续成分传输量的估计（细节在附录中给出）。虽然可以进行许多修改，但我们的经验表明，这种修改不太可能使估计值改变超过约2倍。我们满足于以后可以做出更好的估计；在本文中，我们的重点本质上是方法的逻辑。

表2

序号		动作描述	信息量
-1	双腿行走10步，同时保持正常直立姿势		30 比特
-2	为避开椅子而偏离行走路径		10 比特
-3	在100本其他书中找到该字典		7 比特
-4	伸手取字典、抓住它并将其从书架上取下		22 比特
-5	翻开书（书必须打开），确定翻开的位置与目标单词的关联		10 比特
-6	通过手指动作重复翻阅，直到翻到目标单词所在页面		39 比特
-7	阅读法文单词（以确认找到了正确的单词）		6 比特
-8	找到对应的英文单词（将其存入某个"中枢""大脑"存储区）		14 比特
-9	通过手指动作将存储的单词转换为书写文字		31 比特
总计			169 比特

讨论

对我们来说，最终结果最令人惊讶的特征是这个数字之小：大约一分钟的活动仅需169比特，或者说每秒3比特。然而，经过进一步考虑，我们得出结论，这一估算可能基本上是合理的，理由如下。

这个问题实际上是在问：如果建造一个机器人来执行上述特定动作，需要具备哪些信号辨别和纠正动作，必须提供多少传输量？答案与我们的估算不会相差太远，因为要么这台机器只是简单地模仿这个动作（表现得极其笨拙），要么它明显在浪费传输能力。然而，即使它（或人类执行者）的效率比实际需要高出1000倍，人们仍然想知道：比如说，为什么人类的视神经拥有大约50万根纤维，每秒至少能提供同等数量的比特。为什么感觉运动系统不能接受所有额外的信息呢？

一旦我们意识到以下两种系统之间的区别，就能找到一个可能的答案：一种是执行特定动作且"仅此而已"的机器人（或人），另一种是现实生活中的人——后者不仅能执行这个动作（称之为甲），还能执行大量的动作甲₂、甲₃、甲₄……即使在执行动作甲的过程中，正常人也能对其他变量的干扰做出反应：电话铃声响起、发现字典不见了、书架倒塌，以及我们上述"日常变体"列表中未提及的种种情况。这些活动需要一种"更高层次"的信息处理活动，其处理的是任何特定动作甲之外的信息。我们的估算表明，当一个动作正在进行时，这种"更高层次"的活动实际上要比用于更明显动作本身的传输量大得多。

说到这里，我们想起阿什比关于计算机的评论：计算机主要忙于执行组织活动，这些活动与直接计算无关，而是与"可能发生什么样的计算，以及在哪里发生"有关。当然，对这些高层次信息处理量的任何估算，都需要考虑本研究的样本总体。最后，这些估算严格依赖于所选择的样本空间（且这种选择是任意的），这一事实可能会令挑剔的读者感到不安；但如果允许这种缺陷存在，选择者可以在这里取值，在那里取值，可以取169比特，也可以取任何他喜欢的数值。那么，这种任意的估算是否具有任何科学价值或用途呢？

在此我们要指出，类似的情况也存在于"势能"概念中。比如说，一块砖的势能可以被赋予任意数值，要么是在它下面挖一个足够深的井（它可以落入其中），要么是拿一个足够冷的物体靠近它（它可以向该物体辐射热量），甚至可以是搬来一些反物质。然而，物理学中的势能概念显然绝非无用。在实践中，人们当然会选定一个参考水平面，这使得增量能量的计算让任意的总值变得无关紧要。此外，增量能量这一数值总是结合它作为我们所做工作的结果而出现的操作来讨论的。本文工作的目的正是要表明，生物系统中的"信息量"最好不要被视为一个绝对数值，而应结合它所积极参与的一系列特定操作来考虑。

附录估算

成分1。这为行走提供了一个最小类比模型：腿部位置有4种状态，每只手臂有4种状态用于保持平衡，并假设用7个位置的铅垂线表示躯干姿势，以此给出运动轨迹。左臂与右臂之间的传输量为4 log₂ 4，即8比特。双臂行走时：8比特。启动和停止时，生物体还需要让双臂各转动360度，因此需要额外的6比特。

成分2。如果他能在10英尺宽的范围内选择到约半英尺的精度（= log₂ 20，即4.3比特），并且能在30英尺的行进距离中选择到半英尺的精度以避开障碍物，则增加3.9比特。因此，避免碰撞所需的传输量不超过10.2比特。

成分3。从100个物体中选择一个，log₂ 100，即6.6比特。实践中可能需要更多，因为编码的困难可能会略微增加比特需求。但无论如何不需要超过100比特，因为这已经足够应对极低效的方法（即当字典和目标单词都未知时，逐个检查它们）。

成分4。为了到达特定位置，肩关节、肘关节和腕关节的角度分别约有32、16和8个位置。这三者并非完全独立，因此它们的传输量总和小于12比特之和。一旦手靠近书本，可能还需要食指弯钩勾住书本，然后中指关节发力握持，末端关节有2种状态（= 5比特），以及拇指的类似动作以获得可对掌的握力（即刚性拇指）。

成分5。由于书本被成分6打开时，大约是双页厚度，且目标法语单词位于翻开处之前或之后，这所需的传输量不超过约1比特。然而，使用如此少的传输量（识别它是字母表中的哪个字母），翻开动作需要log₂ 26，即4.7比特，而通过5次二分法到达目标则是最小值。

成分6。一本1024页（=2的10次方）的书需要10次二分。如果眼睛的视域约为页宽的五分之一，即一个区块的五分之一，则log₂ 5，即2.3比特，这虽不精确但足以作为估算。此外，每次二分后，决定操作左半部分还是右半部分需要1比特；两者共需3.3比特。十个这样的阶段加上这最后一次，在最后一页上，还必须从（比如说）50个单词中选择一个，进一步需要5.6比特。

成分7。检验字典中找到的单词是否与目标单词相同，所需的传输量不超过：首先判断首字母是否相同（1比特），如果需要进一步辨别，则随后每个后续字母各需1比特。因此，一个平均6个字母的单词基本上需要6比特。实验对象的技术可能达到这一最小值；但实际要求通常会略高一些。

成分8。要在皮层中获得与两万个单词中的某一个相对应的状态，需要传输log₂ 20,000，即14.3比特（熵值甲等于熵值乙等于log₂ 20,000）。

成分9。转录存储的单词，考虑到实验对象有书写整个字母的经验，每个字母所需的传输量小于log₂ 26比特（4.7比特），假设每10个字母中有1个错误（位置已知），因此每个字母的平均值为4.7加上1.1，共31比特。

致谢

本文的研究部分由空军第7-67号资助项目、空军系统工程组以及国家航空航天局赞助。

（参考文献）

1. **Ashby, W. Ross** (1965). "Measuring the internal informational exchange in a system". *Cybernetica*, 8: 5-22.

2. **McGill, W. J.** (1954). "Multivariate information transmission". *Psychometrika*, 19: 97-116.

3. **Shannon, C. E., and W. Weaver** (1949). *The Mathematical Theory of Communication*. University of Illinois Press, Urbana.

来源：宋胖说事儿

原文链接：https://mp.weixin.qq.com/s/DDA4CwEY85HzAcv02V21YA

编辑：马丽萍

作者: 刘海明 时间: 2026-3-19 21:03

智能的机制——阿什比论文集（25）

[color=rgba(0, 0, 0, 0.9)]我们现在翻译的《系统中的信息流》这一专题。今天翻译该专题的第四篇文章《论系统内部信息交换的测量》第一部分。

论系统内部信息交换的测量

作者：W. Ross Ashby（英国），

伊利诺伊大学厄巴纳分校教授（美国）

如果说过去十年的控制论研究证明了什么，那就是真正的大型系统——活体大脑、现实社会、大型计算机系统、细胞内的生化过程、神经网络——都具有极其庞大的复杂性。科学家可用于研究和控制这些系统的资源相对有限，因此必须进行简化。他必须一次只关注某一个方面，暂时忽略所有其他方面。

这一论点的说服力最近已变得势不可挡。当需要处理大量信息时，人们过去常常认为，只要再增加一点复杂性、采用新的原子机械装置，或者将计算机规模扩大一倍左右，就万事大吉了。然而，布里渊（BRILLOUIN）[1] 现已证明：任何由我们今日所知的物质构成的系统，只要受制于质能关系和海森堡不确定性原理，其处理能力就不可能超过每秒每克 10^27 比特。即便动用成吨的计算机、耗费数个世纪的时间，也只能在这一极限上增加几乎可以忽略不计的几个单位。例如，假设一台机器有一万个双态继电器——那么只要想到要搜索其所有构型，就立刻需要至少进行 2^10000，即 10^3000 次运算。这个数字在物理上是不可能的，相差了近 3000 个数量级。因此，控制论当今迫切需要能够提供我们实际所能获得之物的方法——提供我们真正想要的东西，而非我们自以为想要的东西。寻找简化方法，正是当今控制论问题的核心。

其中一个方法就是从信息的角度来研究系统。本文旨在说明如何以数学的、科学的且可操作的方式来处理这一角度。信息论最初研究的是两个变量：发送者状态和接收者状态。麦吉尔（McGILL）[2] 研究了三到四个变量之间的信息关系，并指出这些关系如何推广到 n 个变量。在此，我想探讨 n 个变量之间的关系，特别是当 n 非常大的时候——比如说，达到人脑细胞数量级的规模，约 10^10 个。

推动本文的基本思想可以通过一个实际例子最直观地理解。假设一支舰队配备了所有现代化的通信设备，但在即将启航参战之际，发现整套设备中使用的一个关键部件存在缺陷，结果舰队只能依靠五十盏老式的手提信号灯在舰船之间进行通信。显然，舰队司令可以将这五十名信号兵以不同方式分配到各舰，而且舰队的整体机动可能并非完全不可能——然而，这种通信能力的匮乏必然会在舰队的机动方式上留下某种特征，因为司令从一开始就会意识到，敌方司令很可能会说："这支舰队的机动方式强烈向我暗示，其内部通信严重不足。"

带着这一思路，我想探讨如何测量系统内部信息交换的总量，特别是在动态系统（如舰队或大脑）中的测量。我们可以将这个量称为信息"流"的总"周转量"或"流量"。在这一点上提出要求，很容易只会导致一堆毫无明确意义的空话；我们需要一个术语来确保我们发展的思想具有完全清晰且可操作的基础。

什么是"信息论"？

在我看来，R. B. Banerji 博士 [3] 的建议是正确的——信息论本质上就是计数，仅仅是组合数学的一个分支。当一个人说："你只有八个信号，不可能从那颗卫星上获得十种机动动作"，他正是在运用信息论的精髓——他在计算不同原因的数量、不同效果的数量，并比较这些数字。香农 [4] 所展示的技艺，并不在于哲学（或某种新的神秘主义），而在于他展示了如何将这种计数嵌入到那些足以难倒银行出纳员计数方法的情形中——在那些情况下，原因是连续的（以波形形式存在），相关原因与无关原因（"噪声"）混杂在一起，等等。因此，如果我们研究系统内部的"信息交换"，我们实际上是在研究系统内的多样性——以及系统内部的运行机制。plogp 函数之所以进入讨论，仅仅是因为，正如香农所展示的，这个函数，且唯有这个函数，能够给出与等效原因数量保持成比例的数值。

来源：宋胖说事儿

链接：https://mp.weixin.qq.com/s/snMwhGpjfvYkLHD959hHbQ

编辑：金语垚

作者: 刘海明 时间: 2026-3-19 21:10

智能的机制——阿什比论文集（26）

[color=rgba(0, 0, 0, 0.9)]我们现在翻译的《系统中的信息流》这一专题。今天翻译该专题的第四篇文章《论系统内部信息交换的测量》第二部分。

[color=rgba(0, 0, 0, 0.9)]论系统内部信息交换的测量

[color=rgba(0, 0, 0, 0.9)]作者：W. Ross Ashby（英国），

[color=rgba(0, 0, 0, 0.9)]伊利诺伊大学厄巴纳分校教授（美国）

推广到 n 个变量McGILL [2] 以及后来 GARNER [5] 所迈出的最初几步是自然的，在此阶段无需为其辩护。我将展示它们更为广泛的推论，并希望这些推论能够证明当初将其排除在外的合理性。读者将会领悟到，在其他发展中可能存在其他可取的推广形式。我假设我们面前有某个明确定义的变量集J —— A, B,... I... N —— 共有 n 个变量。（我通常用大写字母表示集合或变量，用小写字母表示元素或数值。）这n 个变量可以是，例如，指定舰队中舰船位置的n 个坐标，或一个国家n 个地点的气压，或电阻网络网格上n 个点的电位，1,2,…,n 。许多这样的状态将提供一个频率表，而在极限情况下则是概率。因此，我们从客观基础出发来计算熵，完全符合 SHANNON 的原始定义。于是，H(A) 表示在忽略所有其他变量时变量 A 的熵（散布、不确定性、多样性等）；熵将通过求和计算。H(A,B,C) 类似地表示三个变量集合{A,B,C} 的熵，以此类推。H(A,B,…,N) ，我们简记为H(J) ，是n 个状态整个集合的熵。对于每一个特定的保留，J−I 将用来表示去掉I 后的集合；类似地，J−[I,J] 表示同时去掉I 和J 的集合。下标将按 SHANNON 的方式使用：表示保持恒定的变量（或假设已知的变量，或熵为零的变量）。首先我们可以注意到，HJ−I(I) ，它可以表示为H(J)−H(J−I) ，度量的是当系统中所有其他变量保持恒定时，变量I 的变化量（在熵的尺度上）。这显然来自"因果"的观点：I 的变化中有多少不能分配给任何其他变量，因此必须分配给标记为"噪声"的残余。因此，它精确地度量了变量 I 的"内在噪声"。对于任何值得研究的系统，所有这些熵——对于 A,B,…,N 中的每一个——都必须足够小。当然，所有这些都可以直接从观测频率中测量出来。遵循 SHANNON 和 McGILL 的方法，我们定义任意两个变

量 I 和J 之间的"传输" T(I:J) 为：

这是简单忽略所有其他变量时的传输，即通过求和形成仅显示I 和J 值频率的双向表而丢失的信息。

这是变量L 与向量IJK 之间的传输，将IJK 视为一个变量（具有三个分量）来处理：

这种传输是所有变量之间的"总"传输。它或许是系统中最重要的量，因为它度量了系统所受的总约束（给定各个变量的熵）。因此，它度量了系统中存在的关系的总量——或者说，度量了系统中定律的总量。一旦系统产生了事实数据的主体，"总传输"就被计算出来，因为它度量了可以从这些数据中提取的定律的总量。因此，在发现定律（或诸定律）的具体细节之前，就有可能度量给定数据体包含多少定律。

I 和J 之间的直接传输

通常令人感兴趣，因为它度量了当所有其他变量保持恒定时I 和J 之间的传输。因此，它度量了它们之间的直接传输。（T(I:J) 可能包括由于I 和J 与其他共同变量之间的关系而产生的I 和J 之间的关系。）

"交互" Q 通过传输以及与较少变量的交互来定义：

在给出与这些量相关的一些方程后，将讨论它们的性质。

以下所有方程要么以前已经给出（由 SHANNON、McGILL 或 GARNER 给出），要么可以通过基本定义经初等代数运算轻易导出；或者，根据 McGILL 和 GARNER 的规则——如果一个方程成立，那么当其中每一项都加上相同的下标时它仍然成立——可以发展出大量方程：这里我只给出那些特别重要的方程。

第一组：

在这些求和中，本文将始终使用如下规则：求和仅对不同的形式进行；那些因对称性而必然相同的形式将被忽略和省略。因此，如果J={A,B,C} ，则ΣIT(I:J) 表示量

其中相同的项T(B:A) 、T(C:B) 和T(C:A) 被省略。

方程或展开式 (7) 至 (10) 都直接令人感兴趣。它们适用（与稍后给出的那些方程相比）于每个变量本质上具有个体特征的情况，因此个体的特性必须保持。它们都展示了整体的某种总量特征如何通过加法组合与部分相关的量而建立起来。因此，关于H(A,B,…,N) 的方程 (7) 展示了总熵如何与通过一次检查一个变量（按某种序列或自然顺序）而获得的熵相关联。因此，第一项贡献 H(A) 可以通过单独观测A 轻易获得，HA(B) 可以通过仅控制A 并仅观测B 获得。以此类推。

看待这种展开式的另一种方式是注意到量

是一个已知常数（实际上为零），因此该方程可以在某些分量容易测量而另一些难以测量或根本无法测量时使用。那么，通过该方程进行的简单测量将为估计那些可能保持不可测量的量提供一种方法。（物理学家和工程师正是以这种方式不断地使用能量守恒定律，用已知的能量来推导出缺失的、未知的能量。）

接下来的两个方程 (8) 和 (9) —— 与总传输相关 —— 展示了表征整个系统的这个量如何可以划分为常常令人感兴趣的量。因此，方程 (8) 展示了当两个变量 A 和B 占据主导地位，而其他变量归入某种自然序列C,D,…,N 时，它可以如何被分析。它将整个传输分析为A 和B 之间的传输，加上子系统AB 与变量C 之间的传输，再加上子系统ABC 与变量D 之间的传输，以此类推。

交互

方程 (9) 将总传输分解为与系统中不同复杂程度相关的部分。首先是 ΣT(I:J) ，即所有两变量"交互"的传输之和。接下来是所有三变量"交互"之和（本文前面已定义）。如果写出 n=3 时的方程，其意义就最清楚了：

在这里，交互Q 被明确识别为不能归因于任何成对变量的总传输部分。换句话说，它代表了仅可归因于三变量作为唯一三元组共同作用的传输量（约束、定律、熵）。（下面给出一个例子。）因此，它度量了系统（此处为三个变量）的不可约复杂性程度，即不能通过每次检查两个变量来处理的程度。反之，如果Q(A,B,C) 为零，这一事实立即告诉我们，该系统的定律可以逐片处理，每次处理两个变量，且总约束仅仅是每对变量之间约束的总和。

推广到更多变量现在很容易。Q(A,B,C,D) 度量了变量A,B,C 和D 作为原因彼此作用的复杂程度，这种作用不能归因于它们三个一组的交互。只能通过它们作为唯一四元组的共同作用来解释。

交互的数值和分布对于研究任何复杂系统都是基础性的，因此有必要进行一些进一步的讨论。作为第一个性质，我们可以注意到Q 是其参数的对称函数，即单纯重新排列括号内的字母不会改变数值，例如Q(C,B,D,A) 必然具有与涉及这四个变量的任何其他排列相同的数值，尽管代数上似乎只有一个交互，而方程 (5) 和 (6) 可能暗示相反的情况。对称性的简单证明可以通过用基本熵 H 表示Q(A,B,…,G) 来给出：

其中Σ(g-1) 表示从g 个变量A,B,…,G 中取 g-1 个变量的所有熵之和，以此类推。最后两个求和遍历相同的集合。由于已知（从 H 函数的对称性）H 函数是对称的，函数Q 显然也是对称的。在这方面，这些"交互"与 Fisher 的方差分析密切相关，McGill 和 Garner [5] 已经详细追溯了这种相似性。

在方程 (9) 中，系统提供的数字在很大程度上是对交互的度量：因此，这种"信息分析"实际上是在说：系统是极度复杂的，内部 richly connected（ richly connected 保留原文或译为" richly 连接"），必须被接受为复杂的。然而，系统有时被证明本质上是简单的：这一事实将反映在高阶交互的消失上。因此，所有研究大型系统、希望在其中找到一些不如看起来那么复杂的系统的人，都将对那些高阶交互全为零的系统特别感兴趣。关于这种情况能说些什么呢？这个课题值得广泛处理：这里我只引用几个精选的事实来指明趋势。

作为第一个例子，考虑这样一种情况：一百个家庭，每个家庭由父亲、母亲、儿子和女儿组成，正在一个度假村度假。400个变量将被明确定义：400个人在任何时候可能所在的400个地点。让我们假设儿子在某个可变点 x 的位置提供了关于 Mr. X 在哪里、以及他的儿子和女儿在哪里的信息。再假设不同家庭之间互不了解，且他们的行动完全独立。在这样一个400变量的系统中，在观察到许多"状态"并计算出熵、传输和交互后，我们发现以下事实：所有非零的交互（那些参数涉及同一家庭的交互），所有五个或更多变量的交互都为零。因此，尽管该"系统"有400个变量，但它实际上由100个独立的子系统组成（每个子系统有四个变量），这一事实将反映在所有五个或更多变量的交互 Q 都为零的事实上。

这一事实可以更精确地表达为以下定理，很容易证明，只要记住 X 和 Y 之间的"独立性"对应于定量关系：

H(X)+H(Y)−H(X,Y)=0

定理 1. 如果Q(A,B,…,G) 的参数集可以被划分为两个集合，使得其中一个集合的所有子集在概率上独立于另一个集合的所有子集，那么Q 必须为零。

定理 2. 如果变量集J （包含A,B,…,N ）满足如下条件：任何子集在不包含至少一个与其余部分完全独立的变量的情况下，其大小不能超过k 个变量，那么所有k+1 个或更多变量之间的交互都将为零。

上述例子以k=4 说明了这一定理。因此，真正由独立子系统组成的"系统"其高阶交互为零。借助这一事实，我们可以开始理解零交互与将表面上复杂的系统分解为更简单系统的可能性之间的关系。

然而，绝不能立即得出结论，认为高阶交互的消失就证明了系统必须由物理上独立的部分组成。一个反例就足以说明问题。考虑一个由三个变量组成的系统——A 、B 和C ，每个变量只取两个值0 和1 ——其八种状态出现的概率为

来源：宋胖说事儿

链接：https://mp.weixin.qq.com/s/BRHvefrdKV8_kwynn126kQ

编辑：金语垚

作者: 刘海明 时间: 2026-3-24 18:30

【案例】

智能的机制——阿什比论文集（28）

我们现在翻译的《系统中的信息流》这一专题。今天翻译该专题的第四篇文章《论系统内部信息交换的测量》第四部分。

论系统内部信息交换的测量

作者：W. Ross Ashby（英国），

伊利诺伊大学厄巴纳分校教授（美国）

动态系统

必须认识到，尽管前文中的例子经常涉及动态系统——即在时间中主动变化的系统，如舰队、神经系统、社会——但信息论及其定理与实时并无直接或自然的关联：该理论的使用者完全可以自由决定他的变量如何关联（如果有关联的话）到实时中的事件。尽管该理论最初应用于实时事件（消息从发送者发出，经过一段时间后在接收者处到达），但其思想仅基于事件的配对或对应关系，我们可以自由选择适合特定目的的对应关系。例如，传输量被定义为

H(X)+H(Y)−H(X,Y)

但它完全不关心事件 X 和 Y 彼此发生在何时。

引入实时的一个明显方法就是让其中一个变量（比如 X）成为实时（时钟读数）；但这种方法从根本上来说不适合作为信息来源：秒表在最初两下滴答之后发出的每一个信号都是完全冗余的！一个更有前景的方法似乎如下所述。

对真实动态系统的持续观测，首先会得到一份原始记录，记载各变量在不同时间所取的值。因此，若变量为X1,X2,…,Xn ，且观测到的系统用下标表示时间，则该记录将为每个符号赋予实际值：

file:///C:/Users/HP/AppData/Local/Temp/ksohtml5316/wps45.jpg

最重要的情况发生在系统是状态决定的时候，即当n 元组xt+1 无论j 取何值都是同一函数f 时。该记录 Then 可以用单一函数 f 等价表示为：

xt+1=f(xt), 或 x′=f(x)

当这种情况成立时，一组重要的新变量（共2n 个）

⟨x1,x2,…xn,x1′,x2′,…xn′⟩

即表示状态转移，也就是实时行为——新系统（由 2n 个变量组成）的一个状态对应于旧系统的一次转移。

在这2n 个新变量之间，所有各种熵、传输量和交互作用的度量都可以像对任何其他变量集一样精确计算，但现在可以通过它们与实时的关系来解释。因此，T[Xi:Xi′] 度量了Xi 的取值在多大程度上依赖于其紧邻的前一个值。

同样，T[Xi:Xj] 度量了与我们朴素的"因果关系"概念非常接近的东西，因为它度量了Xi 的后来值在多大程度上依赖于Xj 的先前值。如果在X1…Xn 全部保持不变（除了Xi ）时也发现这两个变量之间存在传输量，则这个新数值度量了Xj 对Xi 的直接影响程度。

如果研究更大的集合，像T(Xit:Xjt+s) 这样的传输量将度量变量Xi 在s 步之后显示出其先前值影响的多少。因此，该度量抓住了Xi "记忆"概念中的某些本质内容。这种方法因此用完全统一的概念和方法来处理跨越空间间隙（在n 个变量中的两个之间）和跨越时间间隙（"记忆"效应）的通信。

这一课题还有待广泛发展，但有充分的理由相信这些度量可能为深入理解诸如大脑、细胞生物化学和现代社会经济等系统提供一种方法。读者会注意到大部分计算工作相当常规，因此非常适合委托给现代计算机来完成。

采样变异

显然，只有在事先掌握了关于随机采样的变幻莫测可能导致何种结果的相关知识时，才能将这些方法应用于实际数据。这一课题已由 MILLER [6] 讨论过。

结论

信息论始于研究两个变量——发送者与接收者——之间的关系，但它可以很容易地推广到研究任意数量变量之间的关系。这种推广对于研究大型计算机各部分之间、大脑各细胞之间，或大型社会各成员之间的全部内部信息交换将是有用的。

本文概述了该方法，并给出了一些基本方程。当系统由大部分相似的部件组成时，平均值变得适用并具有特殊性质，其中一些已被列成表格。

该方法的一个特别吸引人的特点是，它能够轻易地将系统中简单的部分与本质上复杂的部分分离开来。因此，如果系统内隐藏着简单性，该方法提供了一种发现它们的可能途径。

参考文献

[1] BREMMERMANN, H. J. Optimisation through evolution and re-combination. In Self-organizing systems. Eds. M. C. Yovits, G. T. Jacobi and G. D. Goldstein, Spartan Books, Washington, 1962, pp. 93-106.

[2] McGILL, W. J. Multivariate information transmission. Psychometrika, 19, 97-116, 1954.

[3] SHANNON, C. E. and WEAVER, W. The mathematical theory of communication. University of Illinois Press, Urbana, Illinois, 1949.

[4] GARNER, W. R. An information analysis of absolute judgements of loudness and dissonance. Psychometrika, 21, 219-228, 1956.

[5] MILLER, G. A. On the bias of information estimates. In Information theory in psychology. Editor H. Quastler, The Free Press, Glencoe, Illinois, 1955.

来源：宋胖说事儿

链接：https://mp.weixin.qq.com/s/Q_5_TKMumFpXhVfkOm1ByQ

编辑: 赵牧云

作者: 刘海明 时间: 2026-3-25 14:02
【案例】

智能的机制——阿什比论文集（29）

我们现在翻译的《信息的极限》这一专题。今天翻译该专题的综述和第一篇文章《信息处理系统面临布雷默曼极限的一些后果》。

专题三：信息极限（Informational Limits）

1.专题综述

在许多阿什比（Ashby）的论文中简要提及了一种信息极限，而在《布雷默曼极限的某些后果》一文中阐述得最为明确。这是由物理定律对实际可计算性施加的极限，其后果是：需要超过约 1070 比特的问题解答程序实际上是不可回答的。阿什比通过类似的推理表明，具有超过一定程度组合特性的适应系统，可以远远超出这一极限。更重要的是，他说这一极限具有哲学意涵——其中之一是："我们已实现的科学将永远只是关于世界较简单相互作用的科学。如果存在复杂的自然法则，我们永远无法认识它们。"

特别是在后期的论文中，阿什比反复强调了这一主题。然而，对于布雷默曼极限（Bremermann's Limit）存在一种常见的、 unnecessarily pessimistic（过于悲观）的解读，即："如果一个问题涉及从 21070 个或更多元素的集合中选出一个元素，那么回答它需要1070 比特的信息，因此布雷默曼极限告诉我们这个问题是不可回答的。"这种解释是错误的[105]。如果使用的方法是 1070 次二分法（每次1比特），那确实不可能，但可能存在其他方法来进行选择。

第二种信息极限是施加于决策者身上的限制，其可用信息量有限。阿什比在《机遇眷顾有准备的头脑》（致《科学》杂志编辑的一封信）中通常提到这一点，在《计算机与决策制定》中则有更详尽的阐述。他有力地指出，选择过程受到可用信息的限制。这是他著名的必要多样性定律（Law of Requisite Variety）的一种表述，但之所以特别放在本节而非下一节，是因为它们被清楚地展示为施加于信息信道或信息极限上的限制。阿什比说，基本规则是：利用你所知道的一切尽可能缩小范围；然后随心所欲。当信息极限已经达到时，机遇（chance）与其他任何决策方法一样理性。

注释：

布雷默曼极限（Bremermann's Limit）：由Hans Bremermann提出，指物理定律对计算速度的理论上限（约 1070 bits/gram/sec 量级），超过此极限的计算在物理上不可实现。

必要多样性定律：只有多样性才能吸收/控制多样性（Only variety can absorb variety），即控制系统必须具有至少与被控系统同等程度的多样性才能有效控制。

1070 bits：约等于整个宇宙质量在宇宙年龄内所能处理的信息量上限。

信息处理系统面临布雷默曼极限的一些后果

W·罗斯·阿什比
伊利诺伊大学，厄巴纳，伊利诺伊州

在先进计算的道路上存在着诸多限制。其中一些限制，如预算限制，可以随时消除；另一些限制，如科学家相互交流所用语言结构造成的限制，也许可以通过足够的努力来消除。然而，本文希望探讨的是布雷默曼（Bremermann, 1962, 1965）所确立的特定极限的后果：

"任何封闭信息传输或处理系统的容量不超过 mc2/h 比特每秒。"

（其中m 为系统质量，c 为光速，h 为普朗克常数）。若令m 等于1，并代入 c 和h 的已知数值，该极限在数值上约为每秒每克1048 比特。

几个世纪的时间和成吨的计算机仅能将这一数值提高到约1070 比特。超过这一数量，任何我们所知的物质构成的东西都无法达到。

这一极限允许高达约1070 比特的事实，乍看之下似乎实际上没有任何限制。然而，事实上，我们希望用于先进（类脑）计算的过程很快就会遇到这一极限。为证实这一点，我举两个典型例子：

例1：一个由20×20共400盏灯组成的屏幕，每盏灯只有亮或不亮两种状态，呈现出各种图像。我们希望将这些图像分成具有某种属性的和不具有该属性的两组。假设我们问："什么是最佳分组？"这个看似朴素的问题要求从一组可能中选择一个。如果有400盏灯，可能的图像就有 2400 ，即10120 种，而可能的分组方式则有2的 10120 次方种。因此，从这个集合中选出特定分组（除非有其他限制介入）至少需要10120 比特。这个表面上简单的问题提出了一个远超该极限的需求。

例2：一个人工视网膜有一百万个敏感单元，每个单元只有兴奋或不兴奋两种状态。它通过一个网络产生输出，输出只有1比特：移动或不移动。假设我们问："输入和输出之间的关系是什么？"这个问题本质上要求的是从输入状态集合（共 21,000,000 种）到输出状态集合（共2种）的映射。映射的数量等于输出数量的输入数量次方。因此，从 21,000,000 种映射中选出特定映射（除非有其他限制介入）至少需要10300,000 比特。又一次，一个表面上简单的问题要求的信息处理量远超该极限。

这些例子足以说明，我们多么容易就能提出远超布雷默曼极限的问题或计算过程。它并非遥不可及的、几乎只是想象力的好奇之物，而是一旦我们尝试更先进的信息处理形式，它立即就会挡在我们面前。

极限在仿生学中的后果

这一极限的后果是多方面的。在此我只提及几个在我看来在仿生学背景下尤为突出的后果。

由于"调节与控制"具有最高的实践重要性，让我们首先在此应用这一极限。一个简单的例子有助于阐明基本概念。假设一支舰队正要离港执行现役任务，却发现其通讯系统失效；结果，现在只能通过旗语进行船对船协调，且只有一些配备手操作闪光灯的人工信号员可用。我们这里有一个动态系统，其目标由当前海军战略明确定义，且受制于内部可发生通信量的限制，这一限制由信号员的容量决定。现在很清楚，海军上将可以用各种方式部署舰船，可能没有任何对整个舰队的单一机动是不可宣布的，然而常识告诉我们，敌方海军上将在一段时间后会注意到这一点。

"在机动中实现协调"意味着所有可能的运动组合（包括导致碰撞的组合）的总集合必须被限制为组合的一个特殊子集（经海军战略批准的组合）。实现这一限制需要相应的传输量（根据香农第十定理或必要多样性定律）。因此，为更明确起见，假设有100艘舰船，机动的唯一要求是所有舰船必须向同一方向转向，且信号员作为信道的总容量每次通信提供200比特（99条指令，3小于200）。在没有信号员分布或编码安排的情况下，无法通过增加"半右舵"和"半左舵"来细化方向选择（99条指令，5大于可用的200比特）。因此，可传输信息总量的极限存在，对可实现的调节或控制量设置了绝对限制。

这个例子的算术表明，布雷默曼极限在直接调节的情况下是一个直接的威胁。一百万艘舰船，每艘都必须精确移动到百万分之一，每次航向设置需要106log2106 比特，即约2×107 比特——远未达到极限。但这种小量并不意味着当我们转向仿生科学时可以忘记这一极限。在这里，调节和控制通常针对某种复杂模式的事件，各部分之间存在强烈的内部作用（或所有陈述高度条件化）。在这种情况下，当组件数量增加时，信息量往往以爆炸性的指数速率而非温和的多项式速率增长。

复杂目标效应的一个著名例子是机械象棋程序。目标（"将死"）看起来简单，但要明确界定其在每一步棋中的含义，目前唯一可靠的方法是写下所有可能的走法，并将每一步标记为"好"或"坏"。如果走法数量至少有 10120 种，布雷默曼极限就是一道不可逾越的屏障。由于象棋游戏比生活之战简单，我们可以预期这一极限远非仅仅是数值上的好奇，而是将在真实而实际的情境中频繁地自我显现。

舰队所用的温和信息量与象棋所要求的过度信息量之间的突然跃升，当然是由于象棋的组合特性：一个棋子的位置是好是坏，取决于其他棋子的位置。这种条件性使多样性以组合方式（通常是指数级）增长，而较简单的形式仅以加法或简单乘法速率增长。由于在仿生学和先进计算中，我们特别关注这些组合过程，因此在我们的科学中，我们很可能在工作的早期就遇到这一极限。那些特别可能意味着各部分之间存在高度相互作用的主题，尤其涉及以下概念：

系统（System）	有序/秩序（Order）
组织（Organization）	子集（Subset）
模式/图案（Pattern）	属性/性质（Property）
网络（Net）	关系（Relation）
自动机（Automaton）	约束/限制（Constraint）

所有这些都与"先进信息处理"和"机械大脑"高度相关。因此，在我们的研究中，尤其是在仿生学和人工智能领域，我们很可能在很早期就遇到这一极限。但这一主题在哲学上具有更为广泛的意涵，我想在此略作探讨。

最明显的事实是：我们自身以及我们的大脑都是由物质构成的，因此绝对服从于这一极限。不仅作为个体的我们如此，整个世界科学的合作组织也是由物质构成的，因此也受制于这一极限。因此，无论是个人能够使用的总信息量，还是世界科学能够使用的信息量，在任何常规尺度上都被限制在约1040 比特左右。无论我们未来的科学将发展到何种程度，所有的一切都将低于这一上限。

我们无法因为自己在生物界中的卓越地位而声称享有任何特殊优势。我们之所以成为现在的样子，是自然选择过程塑造和选择的结果。作为一种选择，这一过程可以用信息量来衡量：因此它也受制于其极限。在任何行星条件下的任何选择类型中，由物质构成的行星表面无法以超过某一有限速率的速度产生适应性。无论我们自认为多么优秀，1070 比特衡量的是我们大脑无法超越的界限。未来的科学将由大脑构建，而这些大脑在其运作中使用的比特数不可能超过1040 。因此，它们自身的进步也只能在远低于1070 的范围内进行。这就是我们的信息宇宙：超出此范围者，不可知。

我们多少能看出些什么将是不可知的。有时自然法则具有简单的信息结构。例如，引力定律被发现只关联两个粒子之间的吸引力，比如i 和 j ；这种关系不以其他粒子 k,l,m 等的位置为条件。这种无条件性意味着，随着更多粒子的加入，复杂度的增长是适度累加的（势能以简单的加法方式组合）。将这种情况与（比如）社会系统相对比，在社会系统中，两个变量 i 和 j 之间的关系可能依赖于其他变量。如果引力中 i 和 j 之间的吸引力定律会因 k 的取值而改变，这就会成立。在这种情况下，复杂度以某种近似指数的方式增长。因此，这一极限的存在告诉我们：我们已实现的科学将永远是关于世界较简单相互作用的科学。如果存在复杂的自然法则，我们永远无法认识它们。

因此，这一极限在复杂科学中可能特别具有阻碍性。其中之一就是社会学，刚才已作为例子提及。另一个就是我们自己的仿生学科学，尤其是当我们着手解决人工智能问题时。我们该怎么办？

对这一极限的一种反应就是简单地忽视它，只在必须注意到它时才注意到它。但科学史反复表明，当一种棘手的限制出现时，科学往往会变得停滞，直到它将这一限制纳入其工作概念结构的一部分为止。我必须以显微镜为例：起初，人们将光和波长所施加的限制视为纯粹的麻烦。眼见为实，直到阿贝（Abbe）和亥姆霍兹（Helmholtz）发展出新的显微技术，在其中衍射和干涉的波动特征成为理论的内在工作部分。微观物理学也陷入了日益增长的困境，直到它重塑其基本理念，构建了一个将基本限制（由于量子限制和不确定性）内置其中的新理论。因此，有充分的理由建议，面对这一极限，我们最好的方式是研究它，并使其成为我们工作理念的一个组成部分。

如何实现这种整合？我在这里只能提供一个粗略的建议，希望它将来能被证明是有用的。这项工作的大部分在于未来的研究。

首先，我们知道数学家和工程师从"线性"过程（矩阵代数、拉普拉斯变换等）的发展中获得了巨大优势。有了这些过程，他们可以在线性世界中进行广泛的工作，而无需担心在每一次操作中都陷入复杂得多的非线性世界。

这个例子表明，可以发展出一套广泛的操作集，使得在集合内可以完成大量有价值的工作，而操作本身自动防止工作者误入"禁区"。布雷默曼极限正是规定了这样一个禁区。

明斯基（Minsky, 1963）总结了"人工智能"问题的本质，对此我完全同意："真正的问题在于找到能够显著延缓明显不可避免的搜索树指数增长的方法。"只要所研究的指数系统是真正组合性的，指数增长就是不可避免的，而布雷默曼极限就以最大强度起作用。我们仿生学中的问题很大程度上实际上受制于强内部约束（其中大多数最终源于原子层面表现出的强烈冗余和重复性）。最普遍、最广泛的约束之一是系统在某种程度上是可约化的，即可以分块研究。当情况如此时，一个看似需要过量信息处理的系统，实际上可能允许用较少的信息完成其研究。（根本原因在于，如果一个量按 an 指数增长，可以分 k 个阶段处理，分支数就会按 ak 的量级下降。当n 很大时，k 对指数的分割作用远比其作为乘数的作用强大。）"分而治之"的方法如此普遍且强大，因此很值得尝试发展所有那些不会破坏可约性的操作。当我们知道这套操作时，其中的操作将形成一种微积分，类似于线性系统的微积分——使我们在集合内可以随心所欲，而无需担心将问题转化为在极限下无法求解的问题。朝这个方向的开创性工作是通过"柱度"（cylindrance）的公式化（Ashby, 1966）实现的，它衡量任意 n 个变量之间的关系可以在多大程度上被视作由子关系构成，每个子关系只涉及变量的某个子集。它自然地处理了关系由 k 个完全独立的子关系组成的相当明显的情况，但也处理了更有趣的情况：整个关系在实际上仍然连接的同时，具有某种 k 重划分的简单性。（一个基本例子是一个国家的电话通信：尽管所有用户在潜在上都可以相互连接，但实际上几乎所有的通信都是成对进行的。）

约1070 比特的极限意味着我们永远无法研究超过约270个变量之间的完全一般性关系；270个二元变量就提供了这个数量。由于柱度（一种内在复杂度的度量）不可能超过变量数，这一极限意味着我们永远无法研究其内在复杂度（如果用柱度衡量）超过270的完全一般性关系。

因此，如果我们打算研究一个系统（比如一个活脑），其中的关系不具有超过270的柱度，我们就有一个潜在可研究的系统。但如果我们不明智地提出问题或执行操作，将柱度提高到这个数字以上，每一种研究方法都会使它变得不可研究。现在已经知道，柱度在交集操作下是安全的（当关系被视为积空间的子集时），但在并集操作下很容易升高。

这项工作仍在进行中，但它已经表明可能存在特别适合研究复杂系统的方法，其使用看似将我们引向一种令人尴尬的处境：我们发现，正是我们自己的方法将一个潜在可研究的系统变成了一个在极限下现在本质上不可研究的系统。

结论

物质构成的东西每秒每克传输或处理信息的速度不能超过1048 比特，这一点看似实际意义不大。事实上，许多为具有人工智能的机器提出的过程所需的信息传输远远超出这一极限。文中给出的例子表明，大规模的组合丰富性过程极容易触及这一极限。

不仅我们的机器受到如此限制，科学家的大脑（由物质构成）也受到同样限制。因此，我们的个人知识、哲学和科学也在同等程度上受到限制。

文中讨论了其在科学中的一些后果。如果我们的科学要具有现实性，我们的理论必须被构建成使这一极限成为其组成部分。文中就如何实现这种整合提出了一种建议。

参考文献

【1】ASHBY W R. Constraint analysis of many-dimensional relations[M]//WIENER N, SCHADE J P. Progress in biocybernetics. Amsterdam: Elsevier Publishing Co., 1965: 10-18.

【2】BREMERMANN HJ. Optimization through evolution and recombination[C] //YOVITS M C, et al. Self-organizing systems 1962. Washington, D.C.: Spartan Books, 1962: 93-106.

【3】BREMERMANN H J. Quantum noise and information[C]//Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability. Berkeley: University of California Press, 1965.

【4】MINSKY M L. Steps towards artificial intelligence[C]//FEIGENBAUM E A, FELDMAN J. Computers and thought. New York: McGraw-Hill Book Co., 1963: 406-450.

来源：宋胖说事儿

链接：https://mp.weixin.qq.com/s/KdhRATVezokr9AEGvqOZSQ

编辑：赵牧云

作者: 刘海明 时间: 2026-3-26 15:08
【案例】

智能的机制——阿什比论文集（30）

我们现在翻译的《信息的极限》这一专题。今天翻译该专题两封信，一封是写给《自然》杂志编辑的，一封是写给好友的。

专题三：信息极限（Informational Limits）

3.致《科学》杂志编辑的一封信

机遇眷顾有准备的头脑（Chance Favors the Mind Prepared）
栏目： Letters（读者来信）

让我们假设问题本质上是一个选择的问题：从众多申请者中选拔少数学生，从大量人员中征召兵员，或者更一般地说，从大量可能的决策中做出一个好的决策。过去20年的根本发现是，所有这类选择过程都服从于信息论定律。第一，适当的选择只能基于必要数量的信息；第二，这种信息是可测量的且有限的。由此可知，在任何现实情境中，能够实现的适当选择量也是有限的。在任何给定时刻，一个意欲选择者只能获得一定量的信息，仅此而已。凭借这一数量的信息，他能够执行相应数量的理性、适当、有意义的选择。当信息耗尽时，便不再有进一步的理性依据存在。

因此，选择若要成为理性和可辩护的，必须基于信息。但在现实生活中，经常发生的情况是可用信息量少于必要量。通过"学院只招收男性"这一信息，可以合理地将一千名学生缩减到五百名；但如果学院只能招收50人，我们该怎么办？当然，人们不会忘记可能有更多信息可用，或许足以让整个选择变得"理性"；但如果所需信息要么无法获得，要么获取成本过高呢？基于有限信息量进行决策的基本原理可以表述如下：运用你所知道的一切，将可能性范围缩减到最小；之后，随心所欲。

牢记这一规则，我们就能明白为何那篇社论（讨论"机遇与人为判断"的社论）不能令人满意。它那个标题本身——"机遇，还是人为判断？"——就倾向于让读者将这两者视为相互排斥的竞争关系，而真相是它们实为自然的互补关系。在做出决策时，首先应让人为判断占主导；然后应将机遇用作必要的补充，以使决策达至唯一性……现代决策方法同时使用这两者——机遇与人为判断。从这个角度看，使用机遇绝非"否定理性"。相反，机遇是智者在其所知信息量少于被要求做出的选择量时所采用的遴选方法。

4.给C. Strachey的回信

计算机与决策制定

先生：

近期关于这一主题的通信表明，目前存在诸多误解，有些人未能跟上现代知识的步伐。由于今日任何试图澄清此事、建立清晰连贯理论的尝试，我愿勾勒其要点，以帮助增进清晰性和简明性。

引起我们兴趣并引发争论的过程（无论是由大脑还是数字计算机执行的），是那些最终产物显示出高度选择性的过程。例如，在《泰晤士报》社论作者昨日实际写出的一组文字，可能是成书字母的多种排列方式之一；或者计算机被要求输出一串与某未知电话号码的随机数字完全对应的数字。大多数实际活动都将这种选择性作为本质特征。概言之，得到正确答案意味着选择。

我们现在得出一个适用于所有系统的简单假设——无论是生物系统还是机械系统——即任何实现了适当选择（优于随机选择程度）的系统，都是基于所接收的信息而做到的。

替代方案是什么呢？难道我们要接受考试候选人在被告知问题之前就开始给出适当答案吗？难道我们要接受某人在火灾发生之前就向保险公司寄出索赔单吗？难道我们要接受计算机在程序带尚未装好之前就开始打印正确答案吗？显然，这些都不可能发生；除非清楚地证明存在此类现象，否则这一假设必须成立。

支持这一假设的论据可以给出更深刻、更严格的表述。此处无暇详述，但我必须提及它与香农第十定理[2]密切相关，该定理指出：将同一消息的多种"噪声"版本还原为正确原始消息的选择过程，受限于（无论由何种代理执行校正）必须伴随所选版本传输的一定信息量。人类与计算机同样受这一事实约束：如果它们要实现适当选择，就必须要么服从这一假设工作——要么依靠纯粹的魔法。

一旦接受这一假设，决策策略便不可避免地遵循以下路径。用简单概括的语言来说，它如下：

(1) 无论是生物还是机械的选择者，必须首先接收一定量的信息。然后利用这一信息将可能性领域（无论是可能的答案还是输出）缩减到最小。缩减的程度受限于信息的量。

(2) 当信息已在将可能性领域缩减至最小时用尽后，剩余的就是"无知领域"（field of ignorance）。缺乏进一步的信息，进一步的选择便失去合理性。其中的任何武断选择都不能声称优于任何其他方法（"随机与任何其他方法一样好"）。

换言之，决策的基本公式是：运用你所知的一切将领域缩减至尽可能小；之后，随心所欲。

有时会发生这样的情况：即使在无知领域内，仍然存在选择的需求。即使在这种情况下也可以执行第二次选择（例如，通过使用随机数表，就像棋手在面临具有适当可能性的局面时可能做的那样）。有时选择是本质性的，必须进行一次尝试。信息，而有时这种新信息可以获得，或更多"如果你想要成功，尝试"类型的信息——这不仅仅是向成功的一次射击——它可能是一个逐步获取更多信息的过程，从而使进一步的适当选择成为可能。

因此（仍在该假设的铁律之下），成功可能是分阶段实现的：首先利用主要信息将无知领域缩小；随后，通过尝试获得进一步信息，直到总信息量达到完成选择所需的量。

斯特雷奇先生（Mr. C. Strachey）[3月3日来信]提到的"绝望"，现在可以证明是合理的，或者说（根据假设）在无知领域内是合理的。如果问题是一个必须穷尽所有可能性、必须尝试一切的问题。但此处的"一切"只是"无知领域内的一切"；而这可能只是整体中很小，或许是非常小的一部分。

上述原理适用于大脑和计算机，适用于简单和复杂的情况。它们表明，决策制定会遇到选择，而该假设对每一个选择都成立。无论问题的本质是该假设的单一应用，还是分解为一系列应用，该假设对此特定情况都具有同等效力[3]。

最后，或许值得瞥一眼为何这些原理长期未被我们把握的原因。我认为原因在于，相对于计算机和人脑，我们在它们所接收的信息之前就对它们进行编程。我们对大脑如何工作知之甚少，所有都是隐藏的；但在为计算机编程时，我们敏锐地意识到这需要多少劳动，而在对人进行预编程方面，人类已经历了漫长的（尤其是在进化和童年时期）过程；事实上这一过程极其漫长。经过二十亿年的进化，他积累了今天人类的所有经验，通过童年和后来的训练，他积累了大量适当选择的能力，远超……当信息相关时，他便能显示出优势。

例如，在下棋之前，他通过在世界中活动就学到了大量关于三维几何的知识：行、列、角度可以通过棋盘上的一个轻拂手势向他表明，而无需详细指定几何；然而这一特定三维几何（比如说）对两者都是同等地缺乏原始信息。而计算机在同样意义上，其详尽和精细程度与人脑一样。关于"连续性"的大量信息也是如此，如果问题具有这种性质，人脑来到计算机面前时带着这种信息。这些事实表明，人脑的信息更适合描述为"预编程"（pre-programming），优于计算机。

如果充分考虑这一差异，他们的活动——无论是成功还是失败——都将被发现在基本假设上是一致的：我们在决策制定中都必须遵循相同的基本策略。

W·罗斯·阿什比 伯登神经学研究所布里斯托尔

参考文献

【1】ASHBY W R. An Introduction to Cybernetics[M]. London: Chapman and Hall, 1956.

【2】SHANNON C E, WEAVER W. The Mathematical Theory of Communication[M]. Urbana: University of Illinois Press, 1949.

【3】ASHBY W R. Design for a Brain[M]. 新版. London: Chapman and Hall, 1960: Chapters 17 and 18.

来源：宋胖说事儿

链接：https://mp.weixin.qq.com/s/-I-fBpjQqC6g_1GOMJ-zLQ

编辑：赵牧云

欢迎光临传媒教育网 (http://47.106.15.148/)