人工智能与新闻业案例集锦

刘海明 · 发表于 2023-10-9 22:06:44

【案例】

《学术出版中AIGC使用边界指南》正式发布

引言
2023年9月20日，为防范学术不端，加强诚信治理，引导相关利益主体就AIGC使用达成共识，中国科学技术信息研究所（简称“中信所”）与爱思唯尔（Elsevier）、施普林格·自然（Springer Nature）、约翰威立国际出版集团（Wiley）三家国际出版集团共同完成的《学术出版中AIGC使用边界指南》（中英文版）（简称《指南》）正式对外发布。
《指南》指出，学术研究和出版中使用AIGC应秉持着透明度和问责制、质量和诚信、隐私和安全、公平、可持续发展等原则。

规范使用AIGC
AIGC可在研究开展及学术出版的各个阶段提供辅助作用（服务）。为了营造良好的科研氛围，防患于未然，避免/减少不当使用AIGC行为的发生，《指南》提供了一个符合道德行为的框架，以帮助作者、研究机构、学术期刊出版单位等就如何合规合理地使用AIGC做出指导。

版权声明
参考文献：
[1]中国科学技术信息研究所.中国科学技术信息研究所携手爱思唯尔、施普林格·自然、约翰威立国际出版集团联合发布《学术出版中AIGC使用边界指南》[EB/OL].(2023-09-22)[2023-10-07].
https://www.istic.ac.cn/html/1/284/338/
1701698014446298352.html.
[2]张茜.学术出版AIGC边界指南发布：使用AIGC需声明，否则将构成学术不端[EB/OL]. (2023-09-20)[2023-10-07].https://baijiahao.baidu.com/s?id ... =spider&for=pc.

来源：学术规范与评价
链接：https://mp.weixin.qq.com/s/1wOpR81wsvHEAoWMLR6Fng

编辑：郑程程

刘海明 · 发表于 2023-10-18 22:34:22

【案例】

百度CTO王海峰：文心大模型4.0，理解、生成、逻辑和记忆能力显著提升

10月17日，以“生成未来”为主题的百度世界2023在北京首钢园举办，百度首席技术官王海峰解读文心大模型4.0背后的关键技术和最新进展。王海峰表示，文心大模型4.0的理解、生成、逻辑、记忆四大能力都有显著提升，9月已开始小流量上线，过去一个多月效果又提升了近30%。8月31日文心一言面向全社会开放至今，用户规模已经达到4500万，开发者5.4万，场景4300个，应用825个，插件超过500个。

文心大模型4.0首发

理解、生成、逻辑和记忆能力显著提升

据了解，百度在3月16日发布知识增强大语言模型文心一言。文心一言从数万亿数据和数千亿知识中融合学习，得到预训练大模型，在此基础上采用有监督精调、人类反馈强化学习、提示等技术，具备知识增强、检索增强和对话增强的技术优势。

文心一言的基础模型5月升级至文心大模型3.5，在基础模型升级、精调技术创新、知识点增强、逻辑推理增强、插件机制等方面创新突破，取得效果和效率的提升。

今天发布的文心大模型4.0，相比3.5版本，理解、生成、逻辑、记忆四大能力都有显著提升。其中理解和生成能力的提升幅度相近，而逻辑和记忆能力的提升则更大，逻辑的提升幅度达到理解的近3倍，记忆的提升幅度也达到了理解的2倍多。百度基于文心大模型研制了智能代码助手 Comate，从内部应用效果来看，整体的代码采纳率达到40%，高频用户的代码采纳率达到60%。

据悉，文心大模型4.0在9月已开始小流量上线，过去一个多月效果又提升了近30%。训练算法效率自3月以来已累计提升3.6倍，周均的训练有效率超过98%。文心大模型4.0基本技术架构与3.0和3.5版本一脉相承，并在多个关键技术方向上进一步创新突破。

在万卡算力上运行飞桨平台，通过集群基础设施和调度系统、飞桨框架的软硬协同优化，支持了大模型的稳定高效训练。建设了多维数据体系，形成了数据挖掘、分析、合成、标注、评估闭环，充分释放数据价值，大幅提升模型效果。基于有监督精调、偏好学习、强化学习等技术进行多阶段对齐，保证模型更好地与人类的判断和选择对齐。可再生训练技术通过增量式的参数调优，有效节省了训练资源和时间，加快了模型迭代速度。

此外，文心大模型4.0在输入和输出阶段都进行知识点增强。一方面，对用户输入的问题进行理解，并拆解出回答问题所需的知识点，然后在搜索引擎、知识图谱、数据库中查找准确知识，最后把这些找到的知识组装进 Prompt 送入大模型，准确率好，效率也高；另一方面，对大模型的输出进行反思，从生成结果中拆解出知识点，然后再利用搜索引擎、知识图谱、数据库，以及大模型本身进行确认，进而对有差错的点进行修正。

在强大的基础大模型的基础上，百度进一步研制了智能体机制，包括理解、规划、反思和进化，能够做到可靠执行、自我进化，并一定程度上将思考过程白盒化，让机器像人一样思考和行动，自主完成复杂任务，在环境中持续学习实现自主进化。

文心一言助力国图馆藏文化资源活化

升级国家跳水队 AI 辅助训练系统

百度已经与中国国家图书馆展开战略合作，发挥各自的资源、技术和服务优势，共同推动文化资源和知识服务智能化，普惠大众。国家图书馆拥有全球最大的古代方志，利用文心大模型学习古代方志与家谱数据，帮助全球华人获取更多寻根线索。王海峰现场分享了海外华人赵佩娟延续祖父乡愁，成功“寻根”的故事。

中国国家跳水队教练、奥运五金王陈若琳和奥运冠军全红婵、陈芋汐、王宗源也来到世界大会现场，与王海峰热切互动，解密梦之队训练“独门绝技”。基于文心一言等百度大模型技术，中国国家跳水队 AI 辅助训练系统全面升级，通过从海量数据和知识中学习，掌握了丰富的跳水知识，理解和执行教练员和运动员的复杂指令，及时提供准确信息，并对动作实时打分、精准量化分析，提供最有价值的指导信息，助力中国国家跳水队高效训练。

现场，陈若琳受中国游泳协会主席周继红委托，授予百度为“中国国家跳水队人工智能合作伙伴”。陈若琳表示，中国国家跳水队与百度从2019年就开展了深入的技术合作，携手走过了东京奥运会、福冈世锦赛、杭州亚运会，目前正在备战明年巴黎奥运会。“感谢百度一直以来提供的技术支持与服务，未来双方将携手持续用人工智能技术帮助跳水队智能训练，通过科学训练提升竞技水平。”

百度人才培养星河计划发布

再培养500万大模型人才

王海峰现场公布了百度人工智能人才培养的最新数据，百度在2020年提出5年为全社会培养500万AI人才，截至目前，百度已经培养了420万 AI 人才。

当下，大模型成为人工智能发展的热点方向，进一步加速产业变革，AI 人才培养也需与时俱进。王海峰发布了百度人才培养星河计划，他表示，“我们将与产学研各界密切合作，深化产教融合，为社会再培养500万大模型人才，让人工智能科技的‘创新之花’，结出更多‘产业之果’，服务国家战略，服务社会发展，服务人民福祉！”

来源：百度AI（公众号）

链接：https://mp.weixin.qq.com/s/PGE-_89A3QK4np9TTZuTyQ

编辑：潘洁

刘海明 · 发表于 2023-10-19 20:17:53

【案例】

编辑：潘洁

刘海明 · 发表于 2023-10-19 20:19:50

【案例】

编辑：潘洁

刘海明 · 发表于 2023-10-27 17:15:17

【案例】

邓晓芒：人工智能的本质

作者简介：

邓晓芒（1948—），男，湖南长沙人，华中科技大学哲学系教授、博士生导师，《德国哲学》主编。

［摘要］人工智能是技术的表现。海德格尔在《技术的追问》中把技术的本质追溯到它的词源含义即艺术和诗，这也提示我们，对人工智能的本质不能仅从它的强大的数字计算功能来理解，它的工具性和人为性只不过是其本质的一种异化形态，而真正的本质是人类智能的“去蔽”（

）和“成己”（Ereignis）。马克思的劳动异化思想从国民经济学批判的角度揭示了这种异化的必然性及其哲学人类学含义，将“有意识的生命活动”以及由此发生的精神劳动和物质劳动的分工作为人的本质的异化的历史根据。这就为我们理解人工智能的异化现象打开了一扇窗户，对人工智能的本质的追问也不再停留于海德格尔式的宗教神秘主义，而是进入了对人类起源的历史现象学分析。基于人的本质即“制造、使用和携带工具”及其所蕴含的意识和生命活动的统一，应将人工智能的本质理解为人的本质中意识和生命活动这两个环节在“人为性”中的统一。人的本质中意识和生命活动的对立和分离具有历史必然性，扬弃这种对立回到人性的完整性是人类不可放弃的永恒的目标。

［关键词］人工智能；技术的本质；人类起源；劳动异化；分工；人为性（artificiality）

本文原载《山东社会科学》2022年第12期，参考文献及注释参见本刊原文。欢迎转发与授权转载。如需转载请留言或联系0531—82866278，联系人：孙老师。转载请注明来源！配图均来自网络。

目前，人工智能（AI，即Artificial Intelligence）已经引起了社会各界的广泛关注，因为自21世纪以来，人们发现人工智能的发展开始有超越人类、控制人类和伤害人类的危险趋势，长此以往，我们生活的这个地球上将没有人类生存的空间，而只有“机器人”，从发展前景来看，它们必将取代人类、奴役人类，甚至消灭人类。这种担忧是否有道理呢？人类又该如何摆脱这种危险呢？这就必须对人工智能的本质进行深入的考察，而不是仅仅停留于外在的现象。

一、海德格尔对技术本质的追问给予我们的启示

1956年，约翰·麦卡锡（John McCarthy）等科学家在美国达特矛斯会议（Dartmouth Conference）上正式提出，任何有助于让机器（尤其是计算机）模拟、延伸和扩展人类智能的理论、方法和技术都可归入人工智能的范畴。但从人工智能半个多世纪的发展来看，这一规定的实质还是落实在最后一个要素即技术上，理论和方法都是为技术服务的。当然，这一规定本身是没有什么问题的，问题在于技术的本质，它影响到我们对人工智能的本质的理解。在这次会议之前的1950年6月6日，海德格尔在巴伐利亚艺术协会上作了一次演讲，演讲内容后来以《技术的追问》为题收入《演讲与论文集》（纳斯克出版社1954年出版，后辑为《海德格尔全集》第七卷）中。该演讲通过追问技术的本质，为我们研究人工智能的本质提供了一个重要的线索。换言之，人工智能是一门技术，这门技术与一般技术的区别在于它借用机器模拟、延伸和扩展人类智能。因此，要讨论人工智能的本质，就必须首先弄清一般技术的本质，在弄清楚技术的本质之后，再来看人工智能是如何从一般技术中分化出来的。经过这样一个过程，人工智能的本质才有可能得到澄清。

海德格尔演讲的一个最主要的出发点就是：“技术不同于技术的本质。……同样地，技术之本质也完全不是什么技术因素。因此，只要我们仅仅去表象和追逐技术因素，借此找出或者回避这种技术因素，那么，我们就决不能经验到我们与技术之本质的关系。” 但通常人们对技术的追问就是停留于“技术是什么”这个层次，这样的答案只有两个，即“技术是合目的的工具”以及“技术是人的行为”，它们属于对技术的工具性的和“人类学”上的规定。这些规定在其本身的层次上当然是没有错的，但它们恰好以自己的这种“正确性”遮蔽了技术的本质，甚至导致了技术本质的异化。“正如人们所说的，人们要‘在精神上操纵技术’。人们要控制技术。技术愈是有脱离人类的统治的危险，对于技术的控制意愿就愈加迫切。”但是，自从亚里士多德以来，人们对技术的理解全部是局限于工具的层面，即把一事物看成另一事物的原因，把后者看成前者的目的。于是“工具之特性据以获得规定的那个目的，也被看作原因”，其中主要是因果关系在起支配作用。而当我们在这种工具性的因果关系中看到操控技术带来的恶果时，便从道德上加以谴责，但这就堵塞了从原初意义上理解这种因果性本质的道路。

在海德格尔看来，这条道路就是不仅要把技术看作一种实用性的工具，而且要看作一种真理的揭示或“解蔽”（

）。“如是看来，技术就不仅是手段。技术乃是一种解蔽方式。倘我们注意到这一点，那么就会有一个完全不同的适合于技术之本质的领域向我们开启出来。此乃解蔽之领域，亦即真理之领域。”也就是说，我们可以不从实践（实用）方面，而是从认识方面对技术加以超功利的考察。然而，这种解蔽从一开始就带有歧义。从希腊文的技术（

，即techne）一词来看，它本身既有实用技术的含义，也有艺术创造的含义。“首先一点，

不只是表示手工行为和技能的名称，它也是表示精湛技艺和各种美好艺术的名称。

属于产出，属于；它乃是某种创作（etwas Poietisches）。”但最令人不安的是，

的这两种含义通常是格格不入的，甚至是相反的。前者即实用技术只是一种“订造”（bestellen）或“摆置”（stellen）出来的“持存物”（Bestand），而后者即美的艺术则是在后面“促逼”着人去“创作”（

）的“座架”（Be-stell），它“意味着那种解蔽方式，此种解蔽方式在现代技术之本质中起着支配作用，而其本身不是什么技术因素”。“现代技术既不仅仅是一种人类行为，根本上也不只是这种人类行为范围内的一个单纯的工具。对技术所作的单纯工具的、单纯人类学的规定原则上就失效了。这种规定不能通过一种仅仅在幕后控制的形而上学的或宗教的说明来得到补充。”这就意味着，只有让“形而上学的或宗教的说明”从幕后走上前台，即通过艺术的创作来解蔽神性的东西，才能弥补工具性技术的不足，进而展现出一般技术的本质。

显然，海德格尔的意思是，技术的本质在于技术后面的那个“座架”，技术作为一种实用性的“订造”所带来的“解蔽”，只不过是对这一座架的“遮蔽”，必须透过这一层次的遮蔽而作更深层次的解蔽，而这种更深层次的解蔽的方式无非就是艺术。在古希腊，技术和艺术是同一个词

，但在以后的发展中，工具性的技术占据了首位，艺术的解蔽方式逐渐被人们遗忘了。海德格尔试图经过这条道路把这一解蔽的真理重新揭示出来。所以他在另一篇文章中借用黑格尔的艺术定义——“艺术是理念的感性显现”加以改造，提出了自己对艺术本质的规定，即“真理自行设置入作品”。当然，他这里的真理已不再是黑格尔的那个绝对精神的“理念”，而是“存在”本身的“成己”（Ereignis）。换言之，存在本身在艺术中自行显现或“去蔽”（

），这就是最终的真理。这也正是海德格尔引用荷尔德林的诗句“但哪里有危险，/ 哪里也生出拯救”的意思，即技术的异化给人类带来了灾难，但解除危险的办法不是放弃和排除技术，而是追溯和回归技术的本质，让真理本身或存在本身自行“生长”或显现出来。而这种显现作为一切技术和艺术的根，就是“创造”（

），也就是“诗”（Dichtung）。“艺术的本质是诗”，这里的“诗”是广义的。“语言的本质就是根本意义上的诗。但由于语言是存在者之为存在者对人来说向来首先在其中得以完全展开出来的那种生发，所以，诗歌，即狭义上的诗，才是根本意义上最原始的诗。语言是诗，不是因为语言是原始诗歌，不如说，诗歌在语言中发生，因为语言保存着诗的原始本质。相反地，建筑和绘画总是已经、而且始终仅只发生在道说和命名的敞开领域之中。……而存在者之澄明早已不知不觉地在语言中发生了。”把技术的本质追溯到诗，进而追溯到诗的“原始本质”即语言，这是很有见地的。但要再往下追溯，即追问语言的起源或本质，海德格尔就做不到了，他只好求助于某种宗教的神秘或上帝的“道”的“救渡”。

这也就是《技术的追问》一文中的结论：“那种贯通并支配一切美的艺术的解蔽获得了

这个名称，成为诗歌即诗意的东西的专有名词”，而解决“技术之疯狂”的钥匙就在于“通过一切技术因素，技术之本质在真理之成己（Ereignis）中现身”；我们所面临的“危急状态”则在于“我们还没有面对喧嚣的技术去经验技术的本质现身。……我们愈是邻近于危险，进入救渡的道路便愈是开始明亮地闪烁，我们便变得愈是具有追问之态。因为，追问乃是思之虔诚”。

二、技术本质的异化及马克思的批判

海德格尔的这番追问把我们带到了这样一种危险面前，这就是：当我们丧失了“思之虔诚”时，我们有可能对无蔽的真理视而不见，而习惯性地用现成的答案来遮蔽自己的双眼。我们所能看到的只是创造出来的东西（包括我们自己创造的东西或上帝创造的东西）的异化形态。“于是，在人们根据因果关系来描述一切在场者的地方，甚至上帝也可能对表象而言丧失了一切神圣性和崇高性，也可能丧失了它的遥远的神秘性。在因果性的眼光里，上帝就可能贬降为一个原因，一个作用因（causa efficiens）。进而甚至在神学范围内，上帝会成为那些哲学家的上帝，这些哲学家按照制作的因果关系来规定无蔽领域和遮蔽领域，而同时决不去思考这种因果关系的本质来源。”这里提到的哲学家，应该是指莱布尼茨。罗素在其《西方哲学史》中对莱布尼茨的“秘传哲学”有过这样的描述，说他基于逻辑上的矛盾律和充足理由律构想了一种“万能算学”，从而以计算代替思考。在莱布尼茨看来，“有了这种东西，我们对形而上学和道德问题就能够几乎像在几何学和数学分析中一样进行推论”，“万一发生争执，正好像两个会计员之间无须乎有辩论，两个哲学家也不需要辩论。因为他们只要拿起石笔，在石板前坐下来，彼此说一声（假如愿意，有朋友作证）：我们来算算，也就行了。”这就为后来的在20世纪形成的人工语言或理想语言的分析哲学思潮开了先河，也为人工智能的发展提供了哲学上的根据。当然，用石笔在石板上“算出”上帝是否存在之类的答案肯定是无稽之谈，但这些哲学家相信，将这种人工语言运用于日常生活还是绰绰有余的，它可以得出非此即彼的唯一答案，有着自然语言通常不具备的精密性和严格性。这就使得人所创造出来的东西变成了敌视人的东西，对象化的活动变成了异化的活动。而在海德格尔这里，技术的这种异化正是他所说的“最高的危险”之所在：“一旦无蔽领域甚至不再作为对象，而是唯一地作为持存物与人相关涉，而人在失去对象的东西的范围内只还是持存物的订造者，那么人就走到了悬崖的最边缘，也即走到了那个地方，在那里人本身只还被看作持存物。但正是受到如此威胁的人膨胀开来，神气活现地成为地球的主人的角色了。由此，便有一种印象蔓延开来，好像周遭一切事物的存在都是由于它们是人的制作品。这种印象导致一种最后的惑人的假象。以此假象看，仿佛人所到之处，所照面的只还是自身而已。……但实际上，今天人类恰恰无论在哪里都不再碰到自身，亦即他的本质。”

这里所描绘的正是当今人工智能所面临的困境。信息、网络、计算机、机器人都是人工制品，我们在其中所看到的仅仅是人类的智巧，而没有看到大自然或上帝插手其间。因此，我们自以为自己无所不能，已经成为世界的主宰，但我们恰好同时也感到这个世界是多么乏味和非人化。它虽然也是想象力和创造力的产物，但一旦产生出来，就容不得任何想象力和创造力了，只能按照已经制定好的计算法则运行，建立在人工语言、机器语言之上的人工智能就是这方面的最典型的代表。这种人工智能其实恰好成了一种非人的智能，它并不介意自己演化为一种恶魔的智能、反人类的智能，而这正是它的最可怕和最危险之处。人类越来越把握不住自己的作品了，他们将被自己的作品所支配、所奴役、所损害，下降为这个作品的工具或仆从，进而失去做人的资格。

这就是人在自己的创造和生产过程中必然要发生的异化现象，这种异化现象的原理早在费希特、黑格尔尤其是马克思那里就已经被揭示得十分透彻了，只不过其严酷的后果直到今天才在人工智能的消极作用上充分地表现出来。如果说十九世纪西欧工人在破坏机器的运动中还天真地认为，只要把机器破坏了，人就可以回到手工作坊时代的自给自足或“自由自在”的生活；二十世纪的卓别林在那个“摩登时代”中已经看出，人在这一不可违抗的“命运”面前只剩下了黑色幽默和无可奈何的处境；两次世界大战则把机器对人的支配和残杀展示得淋漓尽致。21世纪的人工智能的兴起，更进一步将人对这种命运的无可奈何变成了引以为傲，在大数据和互联网的神秘操控下，个人自我的自主性已经归零，信息资讯在“订造”世界这件事上成为绝对主宰，由此滋生出人在面对自然界和人类整个过往历史时的某种虚骄和狂妄自大。至此，人工智能的自我异化上升到了无可救药的地步。技术的异化在人工智能中已走进了人的智能本身，而人的自我认同、人的一切情感和想象力甚至人的天才都成了这个人工智能愚弄的对象。

人们最熟知的异化理论是马克思的劳动异化学说。马克思在《1844年经济学—哲学手稿》中，从政治经济学的角度提出了劳动异化的四个规定：（1）劳动产品的异化；（2）劳动活动本身的异化；（3）人的类本质的异化；（4）人与人的关系的异化。其中，劳动产品的异化是劳动活动本身异化的结果，而人的本质的异化和人与人的关系的异化严格说来也不能算是异化劳动本身的规定，而只是它在心理学和社会学上所导致的后果。可见，劳动异化的四个规定在马克思那里具有内在的层次关系，其中最根本的是第二个规定，即劳动活动本身的异化，它是其他各项异化现象的起源和本质。本来，人的劳动作为人所独有的生命活动，是人与动物的根本区别所在，在其中，人“把自己的生命活动本身变成自己的意志和意识的对象”，“有意识的生命活动直接把人跟动物的生命活动区别开来”,因而这种生命活动具有了自觉性和目的性，具有了自由的特点，也就是我们所说的“人为性”特点，这就是人的本质的哲学的（或哲学人类学的）规定。但从国民经济学上看，由于私有制的建立以及资本主义生产关系导致的劳动活动中的意识与生命活动的分离，这才发生了人被异化为机器的奴仆的现象，人本身失去了主动性和自由意志，受到严格计算好的机器运转节奏的支配，人为性变成了机械性。当然，马克思的着眼点是政治经济学的异化，而不是这种异化的哲学意义。但他同时也指出，在国民经济学中，虽然私有财产表现为劳动异化的根据和原因，其实它不过是劳动异化的结果，“从而，私有财产是外化了的劳动，即劳动者同自然界和自己本身的外在关系的产物、结果和必然归结。……正像神灵本来不是人类理性迷误的原因，而是人类理性迷误的结果一样”。所以，私有财产所呈现出来的表面的矛盾，其实“是异化劳动同自己本身的矛盾，而国民经济学只不过表述了异化劳动的规律罢了”。

那么，异化劳动同自己本身相矛盾这个“规律”又是什么呢？或者说，人如何达到自己的劳动的外化、异化？这种异化如何根源于人类发展的本质？这就已经不是政治经济学问题，而是哲学问题了。马克思没有立即回答这些问题，只是说：“问题的这种新的提法已经包含着问题的解决。”但在别的地方，他立足于哲学人类学解答了这些问题，这就是：虽然有意识的生命活动直接把人和动物区别开来，从而使人的劳动具有了由人的意识和意志来自由支配的本质，但劳动的异化“把这种关系颠倒过来：正是由于人是有意识的存在物，人才把自己的生命活动、自己的本质仅仅变成维持自己生存的手段”。这就意味着人的劳动活动本身的两个环节即意识活动和生命活动的关系发生了颠倒和分离，这种分离并不是外在人为的分离，而是劳动本身在运动和发展中必然要发生的分工的结果，尤其是精神劳动和物质劳动日益分离的结果。我曾结合马克思后来一些著作中对劳动分工及其在历史中的作用的论述而得出了这样的结论：“精神劳动和物质劳动的分工是人类生产向前发展的最初的内在动力和必然趋势，其不可抗拒的必然性、自发性正根源于它构成劳动活动本身的内在本质的矛盾性；劳动活动在运动中必然表现为这二者的矛盾并发展为二者的对立，反之，又正是这种内在矛盾推动了劳动活动的运动和扩展，推动了生产力的进步，推动了人类文明的创立和发展，同时也推动了人的本质的异化的产生并使之在形式上不断纯粹化、彻底化、尖锐化，从而为人的异化的扬弃、最终为劳动活动本身异化的扬弃准备了现实的物质基础。”这就说明，在国民经济学层面的劳动异化的根源是基于哲学（哲学人类学）层面的“人的有意识的生命活动”在历史中必然发生的内在矛盾，也就是基于人的本质的自否定。从根本上来说，自否定才是人的本质，它在其历史发展中不可避免地一步步激发出劳动活动的异化以至于劳动产品的异化，并演变为人的本质的异化和人与人关系的异化。这些异化现象在国民经济学的层面上是有可能通过社会改造或革命而加以扬弃的，但它们的终极根源即由分工而导致的精神劳动和物质劳动的分化以及随之而来的某种程度的对立，则是不可能完全取消的。即使在消灭了私有制和“三大差别”（脑体、城乡、工农差别）的社会条件下，分工仍然是需要和存在的，它永远是推动社会生产力不断发展的一个重要的动力。马克思指出了分工导致异化的条件，即“只要分工还不是出于自愿，而是自然形成的，那么人本身的活动对人来说就成为一种异己的、同他对立的力量，这种力量压迫着人，而不是人驾驭着这种力量”。他设想在未来的共产主义社会里，“任何人都没有特殊的活动范围，而是都可以在任何部门内发展，社会调节着整个生产，因而使我有可能随自己的兴趣今天干这事，明天干那事，上午打猎，下午捕鱼，傍晚从事畜牧，晚饭后从事批判，这样就不会使我老是一个猎人、渔夫、牧人或批判者”。但这仍然不意味着取消了分工，而只是意味着分工不再成为一种外在的社会等级制度，而是一种“出于自愿”的兴趣爱好和天分差别的选择。在今天，这些差别所显示出来的个人独特性和多样性已经日益成为文明社会发展的动力。然而，即便如此，差别的存在毕竟包含有某种相互分离和对立的趋势。正是这种趋势，在人工智能的发展中不可避免地形成了《黑客帝国》式的支配者和被支配者之间的不对等关系，最终将导致人的自由的丧失。

由此可见，马克思的设想只是在国民经济学的层面上提供了一个扬弃异化的方案，而没有在哲学层面上对人的本质的异化作一劳永逸的处理。这与马克思哲学本质上的批判性和开放性有关，就人的哲学本质而言，他在异化问题上实际上保持了一种开放的视野。但这种开放视野与海德格尔对上帝的神秘主义的期待和“思之虔诚”又不一样，它不是对彼岸的无休止的“追问”，而是将技术的本质和人工智能的本质视为一个哲学人类学的问题。换言之，它的追问在人类的起源和由此展示的人的哲学本质中有其现实的和历史的答案。

三、从人类起源看人工智能的本质

人工智能技术和任何技术一样，无疑都是人为的产物，是人的理智的作品。因此，正如技术不同于技术的本质一样，人工智能也不同于人工智能的本质。但另一方面，也正如技术的本质不能离开技术来谈论一样，人工智能的本质也只有在人工智能本身中才能得到“追问”和“去蔽”，而这恰好是海德格尔所忽视的方面。所以，他只能撇开“存在者”来谈“存在本身”，撇开技术来谈技术的本质，最后只能凭借“思之虔诚”而求助于上帝的神秘启示。但我们必须紧紧抓住人工智能这种高度复杂化了的人类技术，以它的起源、发展和自我异化为线索揭示它的真正的本质，将人工智能的技术本质这一问题的神学解答转变为哲学人类学的现象学解答，这就必须追溯人工智能的起源乃至人类的起源。

顾名思义，人工智能中的“人工的”（artificial，人为的）这一概念建立在对人的理解上，因此，人工智能的本质源于人的本质。但反过来说，人的本质恰好又可以用人对自己智能的运用来定义，这种运用就是所谓的劳动。最广义上的人工智能就是劳动，它既是“人为的（artificial）”，又是“艺术的（artistic）”。我对人的本质的定义是：人是制造、使用和携带工具的动物，以此明确划分人猿之别。劳动不仅是制造和使用工具，而且必须加上“携带工具”这一本质特征。人们过去沿用的定义是把人简单地规定为“制造和使用工具的动物”，但这没有把人与黑猩猩甚至与乌鸦区别开来，因为它们都可以制造和使用工具（不论这工具多么简陋）。而我的定义加上了“携带工具”，这是所有其他动物都不具备的。只有人，在使用完自己制造的工具之后并不是随手扔还给自然界，而是牢牢地掌握在自己手中，把它当成了自己的“延长的手”，也就是把一个经过自己加工的自然物当成了自己身体的不可分割的一部分，使之成了一个中介，它既是自然物同时又是人的延伸了的肢体。这一特征甚至改变了人自身的生物学形态：正是由于需要把工具随时握在手里，人才从四肢着地爬行逐渐进化成了直立行走，并能运用自己解放出来的双手灵巧地支配工具以制作更精细的产品。因此，携带工具的行为导致了人的劳动所呈现出来的本质上的人为性：人不仅在劳动中不断改进着自己的工具，而且塑造了自己本身（包括智能和身体），并最终使自己的姿态动作、表情和发声都具有了某种人为的“意义”，从而导致了语言（身体语言和口头言语）的产生，人由此成了“会说话的动物”。而黑猩猩由于缺乏携带工具这一步，它的制造和使用工具就无法上升到人为性，只能为眼前的需要所刺激和中断。可见，在最原始的人类劳动中，人工智能的胚芽就已经隐含在这种人为性中了。

然而，我的这个定义也只是一个动态的、开放的定义。携带工具的习惯早已经不是后来的人类的特殊标志了，因为除了在一些原始部落中，今天已经很少有人成天把自己的劳动工具（包括武器）携带在身边。特别是我们的工具也不再是那么简单的几样（石器、棍棒等），而是各种日益复杂先进的工具（厨具、农具、猎具、渔具、文具等等），况且很多工具我们也不可能把它们都带着走，而只能根据其用途把它们存放在某个就近固定的地方，如厨房、杂物间、工地、库房、办公室等。但只要它们还是我的工具，我仍然在使用时把它们当作自己“延长的肢体”，并注意不让它们丢失。我们在遇到危险或紧急情况时，第一个想到的就是“抄家伙”。特别有意思的是，最近一二十年来，手机已经接近人手一部的程度，出门带手机似乎是把人的“携带工具”这一原始本性恢复过来了，人们随时用手机购物、打车、报警、求救、通信、拍照等等，手机不离身，简直成了另一个“我”。

手机的运用固然使人恢复了那种天生的携带、掌握某种工具的能力，但却在层次上有了一个巨大的飞跃。首先，几乎须臾不可离的手机不是我亲手制造的，而是我买的，没有任何一个人可以孤立地完整地制造一部手机，它只能是众人分工合作的产物。其次，它的使用必须依赖众人运用信息技术建构起来的互联网，它的运作方式则是远程操控。手机省掉了我们亲自动手去做某件事，而是让别人在另一个地方帮我做某件事，我只要动动手指头，就可以完成我想完成的几乎所有的事情，他人成了我的“延长的手”。但同样的，我也给他人，更多的是给素不相识的人对我进行远程操控提供了机会，我也变成了他人的“延长的手”。这种方式不可避免地导致现实中人的生命活动的异化，例如它造就了网络上几乎无处不在无孔不入的欺诈。而斯诺登所披露的国家权力出于政治目的对公民个人隐私权的侵犯和管控更是令人触目惊心，因为它将每个人都关进了一个无形的笼子里，每个人的一举一动都被暗中操控着。退一步讲，即便不是出于恶意，人与人的这种互相操控也使我无法确定自己到底还是不是一个自由的行动者，也许恰恰相反，我不知不觉间就成了被其他意图所支配的一个数据、一个棋子，而每个操控者也都面临被操控的命运，甚至甘于接受这种命运（因为它太“方便”了）。到头来，真正的操控者似乎是那个强大而无可逃避的程序本身，就连程序的发明者也将为它所操控，它使我们大家都变成了程序中的一个代码。你的任何一个灵感、一道天才的闪光，甚至于你的创造力本身，都立即被它学习和优化而纳入了它自身的数据库，仿佛不是它在模仿你，倒是你在模仿它。它甚至做得比你更完善更完美，一切都早已在它的掌握中，使你无地自容。这大概就是世界围棋冠军柯洁在以0∶3被人工智能机器人Alpha Go击败后的苦痛心情。

当然，人工智能从本质上看还是对人类智能的模仿，只不过在它这里，模仿和创造之间的区别正在趋近于零,两者完全同一在理论上是一个永远达不到的极限。因此，人工智能永远只是发挥了人类本性中的某一个片面，即学习、认知、模仿和复制的能力。人的智能的产物仿佛具备了自己独立的智能，可以脱离人而“自动”地做某些事情，但这本质上与原始人类所发明的“飞去来器”没有区别，尽管前者遵循的是思维规律，后者遵循的是自然（空气动力学）规律，在复杂程度上也不可同日而语。在人工智能中，思维规律被外化为机器式的数码传动装置，它的“自动性”是假象，其实是早就设定好了的，哪怕设定时不一定预计到它的后果，甚至结果还会出乎设计者的预料，但其中的逻辑关系（包括模态逻辑或概率关系）是能够算出来的。我们之所以不能把人工智能和人类的智能混为一谈，首先在于人工智能的“创造性”不是一种自发的创造性，而是由人预设的创造性，虽然在大数据的基础上其结果可以出乎一些人或所有人的预料，但终归是量的计算（这方面它的运算速度远超人类的智能）的结果。其次，人类的智能并不限于抽象的计算，而是与情感意志不可分离的心理活动，这种心理活动很可能干扰计算的过程，导致计算出错，这是它和人工智能相比的劣势所在，后者从来不会受到情感的扰乱，但同时这也是人类智能的优势，即它可以突破单维计算的局限而不断开拓出新的算法。最后，人类智能因此也就不能仅仅被看作一种计算性和实用性的“智能”，而是一种“精神”，不能单纯用“对错”来评价，而必须同时引入“美丑”“善恶”的标准。

从本质上看，与人类智能相比，人工智能在上述这些方面的缺陷，归根结底是因为它不具备人类的身体。人类的身体以及由此带来的人的精神的肉身化是人类几百万年进化的结果，也是人类作为一个社会化的物种将他人和自我凝聚为一个自我意识的“人格”（persona，“人身”）的纽带。相反，机器人就没有完整意义上的“自我”，当它说“我”时只是说出了一个汇聚着众多关联词的代码，而不具备对“我”的身体性的感觉，它的所有的零件都是可以替换的。因此，机器人也没有死亡意识，它不可能“先想到死”，对自己一生作出全盘筹划。它是“不死的”，因而也没有真正的“生活”。所以，我们说人工智能只是将人类智能的某个方面抽象出来并加以片面发展和膨胀的产物，因而是人类智能异化的表现，它并没有表面看来那样脱离人、与人对立的独立性和自主性，而只能是人的“无机的身体”。当然，这种异化是不可取消的，也是必要的，它对当代人类的进一步发展具有重要的积极意义，只要我们认清了它的来龙去脉，把握了它的本质，我们就可以发挥它的长处，避开它的弊端。关键是我们不能陷入对它的优势的盲目崇拜，以为它能够帮我们解决任何问题，于是就贬低人类一切自然的情感和意愿，甚至无视一般伦理规范和审美标准。如果我们人为地割断人的整个历史传统和社会纽带，拆解我们的祖先从劳动中、特别是从携带工具的习惯中形成的自我意识的知情意三维结构，到处用人工语言去取代自然语言，无疑那将导致一种“智力拜物教”。果真到了那一步，就意味着人类的自取灭亡。但如果能够从这种困境中走出来，对人工智能保持一个批判的维度，人类的发展必将借助自身的内在动力而提升到一个更高的阶段，但不会是无情无义的“超人”，而是有情有义的“新人”。

四、结语

综上所述，人工智能的本质必须从技术的本质来理解，技术的本质必须从劳动的本质来理解，而劳动的本质必须从人的本质即“有意识的生命活动”来理解。但所有这些理解都不能撇开其异化的可能性和必然性来抽象地规定，而应当放在人类历史发展的长河中，由人性的自否定的内在冲动来“解蔽”。这一历史过程呈现为人性的丰富性不断地被异化所遮蔽，但又总是有望在更高层次上回归到自身的辩证进展。现代人工智能日益走向技术化和工具化，从本质的“人为性”变身为单向实用的“人工性”，这无疑是对人类自身本质的遗忘。由此所导致的人类生存危机不可能由一个处在彼岸的上帝来拯救，只能由我们自己在现代高科技的“无所不能”的假象中坚守住人类的人文底蕴。这不是对人工智能的否定，而是对人工智能的本质、最终是对人自己的本质的守护。

来源：山东社会科学

链接：https://mp.weixin.qq.com/s/bBYOzXoK3vuBauK0tHjc6Q

编辑：洪韵

刘海明 · 发表于 2023-10-27 19:10:34

【案例】

评论区也被“定制”了！意味着什么？

导读

前不久，有网友发帖称，在某平台观看一则“男女吵架”视频时，发现自己和妻子看到的评论区留言内容竟然不一样，自己这边的以男性立场为主，妻子那边则多是站在女性立场的评论。
同一个视频，评论区却展现出两个不同的世界。“男女有别”的背后，让人不禁要问：难道评论区也被算法控制了？“信息茧房”真的无处不在？

左图为男生评论区，右图为女生评论区

一

“信息茧房”并不是算法时代的产物。2006年，哈佛大学教授桑斯坦所著的《信息乌托邦》一书，就提出了“信息茧房”概念，指的是公众只注意自己选择的东西和使自己愉悦的领域，久而久之，会将自身置于像蚕茧一般的“茧房”中。
而互联网和信息技术的发展，加剧了“茧房”的形成。近年来，一些社交平台、商业网站凭借强大的算法推荐技术，向用户推送“定制”的信息产品。“你所看到的，都是你想看的”。这句读上去有点拗口的话，就是如今社交平台运用算法推荐后读者所面对的真实情况。然而，算法介入到评论区，这是很多人没有想到的。
很多人之所以喜欢翻看评论区，一方面是想看一些带着温度和思考的表达，从而获得启发；另一方面，也想看看不同观点之间的碰撞，让自己有更全面的思考，防止偏见产生。有网友说，有的评论说出了自己想说而表达不出的话，是互联网上的“嘴替”。
在常人印象中，我们每个人看到同一篇文章或同一个短视频时，评论区里网友评论的排序应该是一样的，排序靠前的评论会优先被看到，特别是在一些爆款文章或短视频的评论区，排在前面的评论往往具有代表性、引导性。比如，有些社交平台的评论区，网友评论以点赞数多少来排序，那么点赞数第一的评论显然被更多人认同。
当算法介入评论区后，每个人所看到的评论，是经过大数据“精准画像”，系统选择性地投喂我们的评论内容。也就是说，当你想看看别人对这件事的看法时，很多时候看到的只是一个“楚门的世界”。
评论区是洞察社会舆论和公众情绪的一个重要渠道，在合法合规的前提下，不同立场、不同背景的网友各持观点，人人有权发表意见。而在算法的干预下，评论区的“信息茧房”几乎是一个堡垒，网友很可能陷入其中而未察觉，不知不觉间被带了节奏。

二

如果评论区被算法所“定制”，其带来的危害比一般的“信息茧房”更严重。
其一，限制了认知。“评论区里有人才，个个胜过李太白”，看评论区已经成为许多网友的习惯，通过评论区，我们能了解到更丰富的信息、更多元的观点，看到不同的视角和立场，增加了帖子本身的深度和广度。如果评论区被算法控制，那么网友首先看到的将是相似的立场和雷同的内容。
其二，强化了偏见。“真理越辩越明”，评论区本该是一个不同观点碰撞、交锋的地方，人们在争论中深入思考，突破自身认知的局限性，达成新的共识或生成新的认知。而在算法控制下，网友在评论区看到的多是与自己观点相一致的内容，在不断重复中强化了固有偏见和喜好。有网友坦言，一开始持有某种观点时内心也是有些犹豫的，但一看到评论全是跟自己一样的声音，顿时觉得自己的声音就是主流的声音，而一旦遇到不同的观点，就会马上否定，越来越无法接受新观点。
当然也有网友反映，发现自己跟帖评论后，平台在给自己推送的文章中，评论区置顶的全是和自己意见相左的评论，这意味着算法或许已经从过去“你喜欢什么就推送什么”拓展到了“你反对什么就强化什么”，似乎这样能使用户黏性更强。
其三，形成了误导。有的网友经常说：“我是来看评论的。”评论区的评论，特别是排在前面的评论，最先进入网友的视线，一些爆款文章或短视频下方的评论动辄数万条，网友几乎不可能全部看完。因此排在前面的评论，很容易引导网友对某个话题的看法。然而，评论区的算法推荐，让排在前面的评论不再具有代表性，反而在迎合网友的喜好或者刺激网友跟评，让网友陷入“观点茧房”中。
其四，对青少年“三观”养成造成不良影响。《中国互联网络发展状况统计报告》显示，截至2023年6月，青少年网民数量近2亿。青少年正处在世界观、人生观、价值观形成的关键时期。他们在网上“冲浪”时，评论区是他们观察世界和进行交流交往的重要渠道，如果评论区只根据其自身的喜好来呈现评论内容，那么会导致他们的视野越来越窄，价值观也容易走向偏激和片面。

图为网络截图

三

有学者提出，一个容许观点自由表达的完善机制，包括人们必须处在不被主观筛选、没有人为干预的信息之中。评论区作为表达观点的重要平台，如何突破“信息茧房”，让观点自由表达和呈现？笔者有以下三点想法。
管理制度可以进一步完善。2022年新修订的《互联网跟帖评论服务管理规定》，对评论区内容的监管提出了明确要求，其主要关注点在于评论区的违法不良信息处置上。而对于评论区算法推荐等更为隐蔽的手段，现行的法律法规尚未予以重点关注。这需要呼吁立法应尽快填补空白，同时也对将来的法律法规的前瞻性提出更高要求。
算法使用也应有边界意识。科技发展本身是中立的，一方面我们不能因为“信息茧房”的出现而否定相关信息技术的进步，更不能走向反对技术的另一个深渊；另一方面，技术的发展应该是服务人，而非束缚人，应该推动社会进步，而非阻碍发展。小小的评论区，牵动的是大的互联网舆论场。算法不能只为了追求流量而被滥用，而应在努力提供多元信息的基础上，帮助公众更全面客观地认识事物。
警惕被“定制”的评论区带偏。对网友来说，互联网本应是认识世界、改造世界的重要工具，而非控制自身的“茧”。面对无孔不入的算法，也要提醒自己，勇于打破对互联网的依赖，拓宽信息获取的渠道，建立起更为丰富多元的知识体系。尤其在一些突发热点事件中，不被评论区的观点牵着鼻子走，试着站在不同立场不同视角，学会更辩证地分析和思考问题。
评论区是网络内容供给的重要一环。在“万物皆媒”的全媒体时代，管好用好评论区，让算法应用规范起来，很有必要。

来源：传媒茶话会

链接：https://mp.weixin.qq.com/s/SIg9uBRL7E2Z3OrMaC-Z0w

编辑：洪韵

刘海明 · 发表于 2023-10-27 19:35:45

【案例】

数字人主播退潮了？

真人主播成本是数字人的20倍，带货效果能差上20倍吗？大概率不能。这便是数字人主播的市场机会

数字人主播退潮了？

数字人主播的赢利逻辑和真人主播已十分不同，使用者大多不太期待直播间产生实际的成交额，而是看重平台露出价值

数字人主播热潮渐退，这是件好事，行业发展像大浪淘沙，核心技术、研发实力被留下，蹭热点、挣快钱的投机者终将被淘汰

今年上半年，直播行业里，数字人主播一度火爆。不过才短短半年，这股热乎劲已有些退去了。

童宁就职于杭州一家电商服务公司。今年3月，公司入局数字人主播业务，招聘了十多位技术人员进行研发攻关，级别最高的技术负责人每月底薪4万元。资本市场反馈积极，靠着这项新业务，今年5月和7月，公司分别获得一轮百万元融资，数字人主播产品卖得也好，每月入账几千万元。最兴旺的时候，公司共有100多名员工。

10月之后，情况急转直下。不仅产品卖不动，融资也困难重重。此前高薪聘请的研发人员都离职了，技术部门仅剩2人，只负责系统维护，不再迭代更新，公司目前不到40名员工，几乎全是运营人员。

主播这碗饭，数字人能吃得上吗？

市场机会

一台电脑和一套软件设备，便能打造全天候直播的数字人直播间——其内核是人工智能技术，通过采集真人的图像、声音，经过机器学习，制作数字人形象，再在相关设备输入文本话术，利用唇形驱动、动作驱动等算法，生成有表情、有动作、能实时互动的数字人主播。

记者找到了几位数字人主播的使用者，咨询感受。一位直播运营吐槽，“没啥用，一看就是假人，开播后直播间根本没流量。”也有人对数字人本就期待不高，“锦上添花，能曝光就行。”记者特意找了几个虚拟直播间，数字人主播的讲解一刻不停，停留在直播间的粉丝却只有个位数。

既然效果平平，带货成绩不佳，为何要用数字人直播？

严希是数字人的销售代理，之前，她做过两年主播。“带货主播根本就不能做。”严希说，她两年挣了60万元，收入可观，代价也大，“声音都是嘶哑的，每天含润喉糖，嗓子恢复不过来，容易发炎感冒。”

严希的老家在江苏连云港，那里有全国最大的水晶市场。“那个楼有四层，最上面一层是电商基地，全都是直播间。”2021年，直播间开播，除了主播严希，还有配合话术的副播和观察数据的运营。直播间主要卖镯子，严希用灯照着讲解成色和圈号，有时得演戏，模仿实际的柜台情况，有人来看货还价，再发生争吵。

“压力很大。”严希说，“说话速度必须要练出来，别人进入直播间三五秒，还不知道你在干吗，肯定划走了，老板砸钱买了200个人进场，主播留不住其中50个，会被扣工资。”直播间突发状况也要赶紧解决，声卡没声音了，电脑没电了，镯子一下没拿住从手里滑出去掉在地上，都可能导致卡顿、断播。

后来，严希到浙江平湖做主播，开始卖课程。“晚上8点之后，大主播进场，小直播间没流量，等到次日凌晨1点，大主播全部下播，我们再开始卖情感类和励志类课程，一般会播到天亮。”严希说，“只有这个时间段，小主播才有机会。”

直播间地方很大，一边放直播设备，另一边就是高低床，3位主播轮流播，轮流休息。其他人播到规定时长，或者坚持不了了，赶紧由下一位主播补上，“冬天起来冷飕飕的，鸡也没叫，鸟也没叫，就得上播。”

直播越来越难做了，这是行业共识。彭瑞所在的公司原本以直播运营为主要业务，“前期投入巨大，且很难赢利。”几百元的东西免费送，戒指卖一分钱，面膜卖一角钱，售出价格连包装成本都不够，起号阶段，公司每个月只在货品上就要亏十几万元。

另外，主播状态不稳定，流动性大，“今天有事不来了，明天身体不舒服，后天可能被其他公司挖走了。”彭瑞说，换主播会对直播间流量产生非常糟糕的影响。

数字人主播能解决很多问题。比如，不再搭建真实直播间，节省设备费用；不再需要雇用主播，节省人力成本；且数字人每天24小时开播，不眠不休，状态稳定。

至于带货效果，大家也都心知肚明，自然和真人主播没法比，“但要算的是投入产出比。”童宁算了一笔账：目前市场主流的数字人主播产品售价为2万元左右，一年内不限时长使用，每个月平均不到2000元，每天直播24小时；在杭州，真人主播每月工资起码1万元，2位主播轮流，每天开播16个小时，每月就要2万元。

“真人主播成本是数字人的20倍，带货效果能差上20倍吗？大概率不能。”童宁说，这便是数字人主播的市场机会。

赚钱门路

去年10月，南京一家科技企业硅基智能卖出第一个数字人直播间，到现在为止，售出数量已超过5万。而行业内少说有几百家数字人公司，虚拟主播的数量可想而知。

不过，数字人主播诞生刚满一年，行业发展良莠不齐。

在电商平台上，搜索关键词“数字人主播”，单价普遍显示在100元上下，甚至1.5元便可不限时使用数字人。不少商家把数字人买回去直播，叫苦连天，没播多长时间便被封号。“封号是因为数字人形象重复。”彭瑞说，厂家1个系统中的10个数字人卖给100个客户，被平台识别出来，涉嫌公共形象混淆。

严希把她代理的数字人产品摆在记者面前——4980元就能定制1个克隆数字人；购买29800元的产品，能定制7个克隆数字人，并成为城市合伙人，也就是销售代理；而9.8万元便可开一家分公司，成为所谓的源头厂家。

10万元甚至无法加盟一家连锁小吃店。现在，不到10万元，就能成立一家人工智能领域的科技公司。

低成本吸引了很多人。据童宁观察，今年上半年，购买数字人主播的用户中，很大一部分是互联网投机者。投机者们四处找项目，主要做“倒卖”生意，每隔几天便举办所谓的沙龙，或者大会，在会上宣讲销售，赚取批发和零售之间的差价。入局者多了，想真正买来直播的商家难以辨别好坏真伪，行业名声也走下坡路。

数字人主播问世时，的确是种科技产品。硅基智能是行业龙头，也是最早将数字人技术落地直播间的公司之一。业务发展初期，推广团队联系各类博主推荐数字人产品，吃了不少闭门羹，即便提出免费使用，愿意尝试者仍是寥寥无几。

直到去年11月，ChatGPT出现，人机互动效果令人惊叹，这也让人们认识到数字人的可能性。后来，财经博主刘润在他的年度演讲中推荐数字人主播，他后续的短视频作品中，很多都标注了“本视频部分画面使用AI技术制作”，说明视频中出镜的形象，是他的克隆数字人。

今年初，卖券直播间大量出现，在本地生活、旅游娱乐等领域，销售代金券、折扣券或门票，数字人很合适，表达内容重复，互动性低，不需要处理物流问题。直播逐渐出成绩，几场成交额破万元甚至10万元的数字人直播在行业内广为流传。

既降本又提效，人们觉得这个方法可行，蜂拥而上。同一时间，彭瑞所在的直播运营公司转型，成为传媒科技公司，“投入成本很高，英伟达A100的显卡，13万元一张，买了将近200张；每个月给研发人员开工资将近80万元。”

在童宁看来，真人克隆的技术入行门槛不高。“海外都能找到源代码，聘请一些技术人员，从网站上扒下来，再进行二次加工，只不过有些人加工得比较精细，有些人加工得粗糙。”今年3月，他所在的电商服务公司开辟数字人主播业务，“形象克隆，声音克隆，都有科研人员在各自领域研究突破，把好的技术购买来用就行了，大家都在做组装的事，然后贴自己的品牌。”

今年4月，投入超过500万元后，数字人主播产品相对成熟，彭瑞也开始对外输出技术，“贴牌模式，客户直接采购技术，在销售时可以说是自己研发，同样做一家科技公司。”他补充说，“这是软件行业普遍的玩法。”

短时间内，很多家数字人公司涌了出来。直播运营公司或者达人孵化公司纷纷成立技术部门，聘请一些技术人员，一两个月便能开发出来。“对数字人在技术层面要求不高，能用就行。”童宁说，目前数字人形象相对固定，只有站姿和坐姿，动作幅度也有限，“从1.0到2.0需要很大投入，这项工作不是我们这样拿了几百万元融资的公司能做的。”

数字人产品之间的竞争脱离技术范畴，开始“卷”运营模式，这是各类直播公司的老本行。“工具用得好不好，能不能适配各类平台，落地运营的赢利板块是什么，需要广大从业者创造。”彭瑞接触的客户中，有人建了170个数字人本地生活卖券直播间，把直播间的链接作为广告位卖给实体商户；还有客户是本地装修公司，为了抓住同城流量，分区建立数字人直播间，每天获客十几条。

严希在直播平台刷到过一个数字人直播间，卖网络设备，数字人主播旁边还坐了一位真人助播，“我在评论里留言问价格，小伙子看到问题，好像按了个按钮，数字人一下就不说话了，他回答我的问题，我们的互动结束后，数字人继续直播，小伙子在一边坐着玩手机。”严希评价，“多么省力，这是大势所趋。”

至此，数字人主播的赢利逻辑和真人主播已十分不同，使用者大多不太期待直播间产生实际的成交额，而是看重平台露出价值。毕竟在直播平台上争夺流量愈发艰难，增加直播间数量、拉长直播时间或许有机会，数字人能成为不错的帮手。

“千人千面”

面对现在的行业情况，硅基智能首席技术官林会杰有心理准备。2017年，硅基智能推出AI电话机器人，提高人工客服打电话的工作效率。随着应用逐渐成熟，骚扰电话甚至电信诈骗也用上了这项技术。

“无论是电话机器人还是数字人主播，都只是为人服务的一种工具。”林会杰说。最近数字人主播热潮渐退，这是件好事，行业发展像大浪淘沙，核心技术、研发实力被留下，蹭热点、挣快钱的投机者终将被淘汰。

数字人主播只是人工智能领域实现商业化应用的一个案例。“技术本身不算新鲜。”林会杰说。2008年，他还在读大学时，便在实验室里尝试人机语音交互，“输入一张照片，合成面部说话时的口型、眼部动作和表情。”2010年前后，实验室研发出一款产品，叫“小黄鸡”，在校园网上线，可以调教它，再让它去跟别人对话。

实验室还研发了一款3D建模的数字人形象，取名“晶晶”，起初是半身模型，后来拓展到全身。通过合作项目，“晶晶”去了企业成为前台接待，能和来访者对话，介绍公司情况，还去过旅游景区，成为导游，承担景点讲解和指路引路的任务。

“人工智能的技术已经出现70多年了，上世纪六七十年代，人们便开始用计算机合成语音、合成图像，只不过技术的精细程度不够，声音机械，面部表情呆滞。”林会杰说。这些年，技术发展明显加速：2007年，siri人机语音交互出现；2016年，“小爱同学”“小度”出现；同年，AlphaGo大战围棋冠军李世石引发全球关注；2019年，机器人翻译能生成有表现力的答案……非常明显，几乎每隔几年便有新的代表性产品诞生。

“现在的技术和十多年前的技术相比，另外加入了深度学习的部分，整体方向上没有太大变化。”林会杰说，技术之外，人工智能正在寻找相应的商业闭环，把人机对话的能力转化为能够对人类社会创造价值的能力，这和技术进步本身同样关键。

硅基智能仍是创业型科技企业的模样——公司研发人员占比70%以上，为了保密，即使在内部系统中也看不到具体人员名单，连林会杰入职都以半秘密的形式进行；林会杰的办公室布置十分简单，接待来访者的椅子甚至型号不一，两块能写能画的白板占去大部分空间；他和记者约了下午5点的采访，办公桌上摆着一份盒饭，那是他的晚饭。

林会杰仍在推进的工作是数字人的“千人千面”，不仅电商主播，数字人可以扮演各种角色，“适应不同场景，不同年龄，不同性别，不同地域，数字人的形象也应当有差别，比如，新闻播报和知识分享，风格就十分不同。”若要实现，声音克隆的音色要舒适清晰，表达抑扬顿挫，肢体动作和面部表情得真实流畅，声音和画面也需要一致协同，配合自然。

除了丰富场景，还要提高效率。以前制作一个数字人的时间以“月”为单位，后来压缩到“周”，现在是“天”，进一步压缩到几个小时，或者几分钟；以前运营一个数字人需要一台价值百万元的服务器，现在一台普通的电脑，甚至一部手机就可以。

企业都有更大的野心。硅基智能喊出口号，提供1亿个硅基劳动力，让人回归人的价值。童宁和彭瑞已经决定转型，或者说是升级，从以真人形象为主的2D克隆数字人，转变为生产超写实形象的3D动画建模数字人。刚结束不久的杭州亚运会上，开幕式和闭幕式出现的数字人火炬手，便可算在3D数字人之列。“推出3D形象数字人，打造成知名博主，切入元宇宙赛道，短视频或开直播变现，搭一个虚拟直播间，照样卖货。”彭瑞说。(记者：巩持平)

来源：环球网

链接：https://capital.huanqiu.com/article/4F5JTLXf5OF

编辑：洪韵

刘海明 · 发表于 2023-10-28 19:44:11

【案例】

智能是什么？

导语

2023年 ChatGPT 的横空出世让“通用人工智能 (AGI) ”备受关注。ChatGPT是否实现了通用人工智能？在集智俱乐部 AGI 读书会第一期，美国天普大学在读博士徐博文认为，对人工智能的许多问题的讨论，都导向一个更根本的问题——智能是什么？有人认为智能是大脑涌现出的复杂现象或能力，有人认为是智能是表现得像人的能力，有人认为智能是解决困难问题的能力，有人认为智能是感知、推理、规划、决策等认知功能或能力，也有人认为智能是适应环境的能力。通过理解“智能”的定义，“通用人工智能”的含义将更容易理解。
为了深入探讨 AGI 相关话题，集智俱乐部联合集萃深度感知技术研究所所长岳玉涛、麻省理工学院博士沈马成、天普大学博士生徐博文，共同发起 AGI 读书会，涵盖主题包括：智能的定义与度量、智能的原理、大语言模型与信息世界的智能、感知与具身智能、多视角下的人工智能、对齐技术与AGI安全性、AGI时代的未来社会。读书会从2023年9月21日开始，每周四晚 19:00-21:00 进行，预计持续7-10周。欢迎感兴趣的朋友报名参与！
研究领域：智能，人工智能，通用人工智能，大语言模型，适应性徐博文 | 作者冯睿洋、梁金 | 编辑

1. “适应性”是区分“智能”的关键
2. “智能”是什么意思3. “通用智能”是什么意思4. ChatGPT的“智能”5. “通用人工智能”
结语

智能是什么？这是人工智能研究的根本性的问题。对“智能”这一概念的不同理解，会将人工智能研究导向迥然不同的方向，同时，对“智能”这一概念的界定也决定了人工智能这一学科的边界，其究竟是属于计算机科学、脑科学、认知科学等，还是自成一体的独立学科。
问答程序“沃森（Watson）”、象棋程序“深蓝（Deep Blue）”、围棋程序“AlphaGo”、聊天机器人“ChatGPT”等的现象级成功都引发了人们的热烈讨论，而其中总是存在正反两方观点，一方认为真正的人工智能已经实现并担忧其取代甚至毁灭人类，另一方认为真正的人工智能并非如此并提出还应当有诸如一二三等等特性。对人工智能的许多问题的讨论，都导向了智能是什么的问题，特别是当问到某物是否实现了真正的人工智能、智能该如何实现、如何度量智能等等，这些问题的答案都取决于“智能”是什么。
人们心中存在着对自己的思维现象的好奇，即对“心（mind）”的好奇，希望探索那个“本质”，尽管在旅途中、做具体的研究时，有时也会迷失方向，“智能”是什么这一问题的答案正是指引我们探索“自己”的“指南针”。

图1. 对“智能”这一概念的不同理解，会将人工智能研究导向迥然不同的方向

1. “适应性”是区分“智能”的关键因素

在各种复杂的、变化多端的现象下，哪个才是界定“智能”这一概念的关键因素？是否必须要忠实地模拟大脑，或是需要产生与人类相似的行为，还是要解决复杂的问题，亦或是需要具备各种认知功能？这些都有一些合理性，但背后是否有某个在抽象层次上的共同点？人类的大脑、行为、认知过程都体现了适应性，经过适应，人类往往能由简到繁地解决那些未见过的问题[1]。可以说，在各种特点中，适应性才是“智能”的核心特点。
我们当然不能否认经过漫长的演化，形成的大脑结构对“智能”而言的重要性，但模拟大脑时往往被忽略的是，究竟要在多大的精细程度上对大脑做“忠实”的模拟。毕竟，大脑中的许多生理或物理特点对“智能”未必起到关键作用。如果一个模拟大脑的机器，只是在刻板地执行某个程序，而没有适应新环境的能力，这样的机器尽管“类脑”却不符合我们对 “智能”的直觉。
人的行为同样展现出了适应性，特别是那些被称为“学习”的行为。设想，一个不能“学习”的机器，尽管某些方面展现出了像人一样的行为，但总是对相同的输入重复地做着相同的响应，还算是“智能”的吗？例如，对于“计算器”这样的系统，每当输入相同的表达式，输出总是相同且稳定的。当然，也有一些有争议的例子。例如，一个人脸识别的程序，每当看到相同的人脸图像，总是会有相同的分类结果。如果这个人脸识别程序不是从许多“样本”中“学习”得到的，而是一个程序员依靠着一系列的“如果-那么”的语句编写的，说它不是智能的大概就不那么反直觉了。
我们判断一个人“聪明”与否，有时是通过具体的“问题”或“任务”对其进行“测试”。这种测试一定程度上反映了人的“智能”程度，因为通常来说人类生来并未对外部世界有多少经验，那些越能够适应环境的人，经过岁月积累，往往能够展现出高超的能力，这也让我们建立起了“智能”与“解题能力”的“相关性”。然而，“相关不是因果”，在人工智能的研究中，通过“解题能力”来来判定智能的弊端尤其凸显。例如，“计算”曾是人类独有的能力，但是现在计算器的计算能力远远超过了一般人类，大概不会有人认为计算器拥有“智能”。这里的关键在于能力的获取过程，人类解决具体问题上的能力展现常需要一个“适应”的过程，而机器则未必。可以说，这里区分“智能”的因素仍然是“适应性”。
认知科学和人工智能最初有着相似的目标，都包含了对人的心智进行计算建模。人有许多认知功能，常被提及的包括记忆、注意力、感知、推理、规划、决策等，有时判断一个对象是否是智能的，会以是否具有这些认知功能为标准。这种认识对智能的研究有促进的作用，但也有把研究导向支离破碎的风险——将这些认知功能割裂开研究能取得很好的成果，但已有实践表明如何通过“认知架构”整合在一起、使其协同工作却是很大的问题，因为这些功能未必是能够相互割裂的。此外，如果某个机器缺少了适应性，那么即使具备了某些认知功能，也不会被认为拥有了真正的“智能”。例如，早期人工智能的研究已经涵盖了“推理”技术，象棋程序“深蓝”就有很强的“推理” 和“规划”能力，然而，它与人们内心深处所追寻的“真正的”人工智能相去甚远。当然，对此的一种回应是该机器不够“完备”，不具有所有的认知功能。且不论这种“完备”的集合如何界定，我们设想，一个机器或生物体现了对环境的适应能力，即便其不具有某些认知功能（例如“因果推理”），我们是否会认为它是“智能”的？可以说，在具有适应性的基础上，仍然有智能程度高低的问题，而各个认知功能则是为“适应” 环境服务的。
人工智能领域的其中两位奠基人纽厄尔（Newell）和司马贺（Simon）曾提出，概括来说，“智能是有限资源下适应环境的能力”（Newell & Simon, 1976），这几乎十分准确了，只不过在后来他们自己的研究中并没有遵循这一认识。而另一奠基人之一明斯基（Minsky）则认为，概括来说，“智能是解决困难问题的能力”(Minsky, 1988)，这种观点看似符合直觉，但正如前面所论证的，一个刻板的计算机程序并不能被认为是“智能”的，尽管它（如“深蓝”）能解决困难问题。虽然明斯基的观点有其合理性，毕竟人工智能最终要走向“应用”，但也具有一些误导性，容易把人工智能研究导向专门问题求解上，一个可能（且现在常见）的结果是人在解决问题而非机器自己，这也是为什么当一个曾经认为重要的问题被“人工智能”解决后，人们仍然会发出种种质疑。对于明斯基的观点的反驳，一个更容易理解的例子是，尽管婴儿没有高超的技能，且基本难以解决困难问题，但大概没有人会否认婴儿拥有“智能”。在图灵1950年的论文（Turing, 1950）中，除了提出了“模仿游戏”（也就是后来广为人知的“图灵测试”）以外，更重要的是在最后一部分，图灵对未来人工智能研究的设想。图灵构思了一个“机器婴儿”，通过后天的“教育”长大成人，进而在智力任务上与人竞争。可以说，机器如何经过“适应”从而成为领域专家，最开始就是一个重要的问题。

2. “智能”是什么意思

当然，“智能”并非“适应性”的同义词，否则我们就不必采用“智能”这个概念，直接说“适应性”就好了。在我看来，“智能”这一概念的定义要从外在和内在两个方面做约束：从外在表现看，“智能”是信息系统利用有限资源适应环境的能力；从内在过程看，“智能”是一种表征相互作用的原理。
“适应”环境意味着，“智能”不是某个特定问题的求解能力，也不是与环境交互过程中获得的技能，而是与获得这些能力或技能的过程有关。系统“适应”环境是指，外部看，在环境相对稳定时、通过某个指标进行评价，系统的表现有向好的趋势，内部看，系统内部状态朝着目标方向发生了改变。“适应”过程中，系统如何改变自身才和“智能”有关，而改变的结果可以说是形成了“技能”。“有限资源”既是一个现实约束，也是一个理论约束，它排除了一些极端情况，例如通过“暴力搜索”的方式解决问题就不是“智能”的研究关心的，因为这种方法理论上假设了无限资源，并用“算法复杂度”来衡量资源的消耗。
这里所谓“表征相互作用的原理”中，所说的“表征”不是主体内部的、对外部物体的指称物，而是指人工智能研究中的“知识表示”的具体内容，像是“专家系统（Expert System）”中的“符号”、“深度学习（Deep Learning）”中的“向量”、“类脑计算（Neuromorphic Computing）”中的“脉冲（Spikes）”等。这里所说的原理是对智能现象背后的机制的抽象描述，而“表征”则是用来描述原理的基本单元。在“适应性”这一大前提下，我们可以探讨相关的原理有哪些。对这一原理集的探索和描述有不同的切入点，例如，研究脑的结构、研究某些问题的求解过程、研究人的行为、研究认知功能，不论是从哪个角度，尽管可能会得到不同形式的描述，但最终都要进行总结和抽象，找到那个最一般的、与生物或计算机实现细节不直接相关的原理。这一原理的集合并非在本文中能够详细讨论和给出，它随着“智能”的研究深入而发展， “智能”这一概念的含义也因此会逐渐变化。
这种“智能”的解释可以适用于“机器学习（Machine Learning）”，毕竟“学习”就是适应的过程。但似乎不是所有的有限资源下的适应性都是人们内心深处的“智能”那物，特别是对于典型的“机器学习”系统。“机器学习”系统的确能工作在有限的资源下，毕竟这是一个现实约束，同时，人们也发现了，一个“机器学习”系统往往只能解决少数一些问题[2]，而没有人类智能那样的“通用性”。例如“AlphaGo”高超的围棋技能正是它的“智能”发挥作用后的结果，但“AlphaGo”及其继任者（如“Alpha Zero”）仅仅在某一类问题（例如围棋、象棋、Dota等）上表现得很好，却不具有人类这样的“通才”，不能适应广泛的场景[3]。一批研究者最早在2006年（AGI Workshop上）正式提出了“通用人工智能（Artificial General Intelligence, AGI）”的概念（Wang & Goertzel, 2007），与特定问题求解系统的“人工智能”研究划清了界限。尽管如此，我们并不能否认“机器学习”系统体现了“智能”。那么，“机器学习”中导致争议的是什么？
一个典型的机器学习系统包含三个部分：“学习算法”、“数据”、“技能程序”（也被称为“模型”），并通常将学习过程分为训练和测试两个阶段。在训练阶段，“学习算法”通过总结数据中的经验，调整“技能程序”。测试阶段，“技能程序”根据输入做出响应，从而“解决问题”。我们可以发现，“机器学习”将以往由人类开发者编写的“技能程序”交由“学习算法”从数据中总结，机器在这一过程中尝试通过适应环境（即数据）来解决问题。然而，在测试阶段，“学习算法”已经不再起作用了，也就是说，此时机器不再具有适应性，而是仅仅执行“技能程序”，“刻板地”响应输入信号。这也是为什么它不再符合人们直觉上的“智能”了。许多机器学习的研究者也意识到了这一点，提出“连续学习（Continuous Learning）”、“终身学习（Life-long Learning）”等的概念和方法正是摆脱这一困境的努力。

3. “通用智能”是什么意思

在我看来，“通用智能”是“利用有限资源适应开放环境的能力”[4]，相较之前这里增加了一个限定条件，即“开放环境”。所谓“开放环境”是一个相对概念，因为如果在整个宇宙的尺度下看，所有物质都处在宇宙这个“封闭环境”中（这里暂不考虑平行宇宙等情况）。然而，相对于一个主体而言，在其生命周期内，其活动在一个相对有限的范围内，而该范围外的情况对于该主体而言是“未知”的。其后果是，该主体所面对的环境可能发生变化（甚至是根本性的变化），未来未必与过去经验一致、主体过去认识到的规律可能被推翻。同时，“开放环境”的另一层含义是对适应的对象所做的约束，该对象排除了特定某个或某类问题这样的“封闭环境”，并认为对具体问题而言没有明确预先定义的边界。在有限的资源下，面对开放的环境，智能体的知识和资源都是不足的[5]。这种对“智能”的解释兼顾了当下的主要研究（机器学习），也可扩展至未来研究（通用人工智能）。在对“智能”的解释的基础上，这种对“通用智能”的解释既兼顾了主体的特性（应对环境的改变），又明确了适应对象的边界（非特定问题）。
除了从外在的视角看，同前面对“智能”的解释一样，“通用智能”继承了其内在的视角，即“表征相互作用的原理”。对于“通用智能”而言，这些原理是否存在某个最小完备集合？例如，有些工作认为这一集合中必须包含系统的“实时性”相关的原理，有些工作认为必须包含“感知”相关的原理，有些看法把“因果推理”放在该原理集中的至关重要的位置。我相信这在目前仍是开放的问题，也是“通用智能”研究的重点。在前述对“智能”的“内在”约束中，我猜想“原理集”的完备程度或许就确定了智能的程度高低，而某些“专用智能”系统或许缺少了完备的“原理集”中的某些部分。
“通用智能”的对立面是“专用智能”。“专用智能”并非特定问题求解的“技能”，因为按照本文中的观点，它连“智能”都算不上。在我看来，“专用智能”系统缺乏对“开放环境”的处理能力，仅仅对特定问题或领域展现出适应性。例如，一个用神经网络识别手写数字的系统，它对输入和输出的形式的规定导致了它只对手写数字的问题有效；另一个例子是，人有时会基于过往经验总结自己的“学习方法”，而这些“学习方法”适用于多个场景（例如不同学科），遵照一个“学习方法”同样能够习得具体的知识和行为，但该“学习方法”总有一定的适用范围，例如学习语文的方法就不完全适用于学习数学。相反，“通用智能”系统是“领域无关”的。例如，同样是基于神经网络，“Gato”（Reed, et al, 2022）则可以看作一个“通用智能”系统（尽管程度不高）；再比如，领域相关的“学习方法”本身就有一个习得的过程，这一习得过程所依赖的是“通用智能”。
即便一个系统满足了上述“通用智能”的定义，能够利用有限资源适应开放环境，这也不意味着“通用人工智能”的研究就此完成了。相反，我认为这常是“通用人工智能”研究的“开始”，因为“通用智能”也有程度问题。触到了智能问题的核心后，困难和有趣的地方是对上述智能原理的探索。说“通用人工智能”已经实现，或“通用人工智能”遥遥无期，两种说法虽然极端，但都体现了对实现那个原理上完备的“通用人工智能”系统的期望。至于智能科学的大厦何时建成、“通用人工智能”何时实现，就要看我们几代人的努力了。从现有工作来看，前人已经为我们指明了方向、做好了地基和框架。

4. ChatGPT的“智能”

按照前面对“智能”和“机器学习”的讨论，“典型的”机器学习方法在测试阶段已经谈论不上“智能”了，但现代的方法中有例外需要额外讨论。
ChatGPT在“测试”阶段展现出的“灵活性”让许多人惊讶，这也引发了对“适应”这一概念含义的进一步考虑。大概不会有人否认训练阶段ChatGPT体现了适应性（由于神经网络权重的修改）。那么，在测试阶段ChatGPT进行了任何“适应”吗？一方认为，每轮新的对话中ChatGPT的状态都被重置，对于每轮对话而言其表现并没有根本的变化，因此没有发生适应。另一方认为，ChatGPT 的“语境内学习（In-Context Learning）”是适应的体现。
为了讨论更具体，让我们考虑这样一种情况：一个基于概率的统计学习算法，在没有任何条件时，输出是P(X)，当增加了条件A后，输出是P(X|A)，进一步增加条件B后，其输出是P(X|A,B)，且在某个评价指标下，系统的表现逐步变好。这个例子中，变化的是新增的条件，而不变的则是概率分布。每当重新输入各个条件后，一个系统如果发生了“适应”，我们会发现第二次的P(X|A,B)的表现应当优于第一次的P(X|A,B)的表现，若是相反，则系统并未发生“适应”（Wang, 2004）。
若将“提示词（Prompts）”类比于上面的条件A、B，那么ChatGPT正是属于后者的情况，从ChatGPT的整个生命周期来看（从它诞生的那一刻开始“训练”，经过现在的“测试”，直到未来被停止运行），以某一个“对话”作为“任务”，那么每个任务上的表现没有根本的变化，即并未发生“适应”——换句话说，从这个大尺度看，“适应”仍是发生在训练阶段，而用于实现ChatGPT的“Transformer”的结构、神经网络的误差反向传播等才是和“智能”直接相关的。
但从一个更小的尺度看，将一轮“对话”看作ChatGPT系统的“生命周期”，每一次提问看作一个“任务”，那么，面对依次的输入A、B，系统的表现发生了变化，特别是再次输入A后可以观察到表现的提升（例如，对纠正错误回答后再次进行提问）。在这一观点下，ChatGPT“训练”后得到的“权重”不是严格意义上的前述概率分布P，而是习得了某种“适应程序”，在不改变权重的前提下，运行该“适应程序”P，系统产生了“适应”的表现。
双方都是对的，只不过观察的尺度不同。但是，设想，如果将训练好的ChatGPT（其模型参数不再变了）放在某个人类的语言经验或视觉经验没有触及的地方（例如另一个星球或者另一个物理规律完全不同的宇宙，或是给它一个动物或机器人的身体），那么它会体现“适应性”吗？可以说，此时那些习得的“适应程序”不再适用了。按照本文中对“智能”这一概念的解释，两种视角都看到了ChatGPT的“智能”，但其含义不同。从前者看到的是“通用智能”，即对“开放环境”的适应性（ChatGPT仍然可以通过梯度下降学习来适应新环境），而从后者看到的是“专用智能”，即对一定领域范围内的适应性（不含盖超出人类语言经验的范围）。

5. “通用人工智能”

我们会发现，目前的人工智能研究涵盖了前面提到的各个概念，图2概括了它们之间的关系。“人类智能”从大自然的演化中诞生，我们尝试观察“自己”，特别是自己的思维规律，尝试总结出一套认识和改造世界的基本原理，并用机器（特别是“计算机”）进行实现，所实现的对象（主体）常被称为“智能体（Intelligent Agent，或Agent）”。“智能体”利用自己的“智能”总结经验和解决问题，其中变化的是解决具体问题的技能，而获得技能的方法则相对稳定。如果“习得技能的方法”也可以被习得，那么习得“习得技能的方法”的又是什么？智能体总要在某个层次上“被预设”、“保持不变”，本文将这个层次上的对象称为“通用智能”，而智能体的经验经过“智能”的处理（即“表征相互作用”）则形成了用于解决问题的“技能”。其中，“习得技能的方法”也可从经验中被总结出来，只不过这里习得的“（有适应性的）技能”的适用范围与任务相关，因此在本文中它们被称为“专用智能”。
早期的人工智能研究，许多关注于用计算机解决问题，相关的计算机程序缺乏适应性，是本文中所说的“技能”；人们为特定问题设计的适应性方法，往往掺入了开发者对特定问题的经验，这些问题特定的经验不适用于“开放环境”，导致了“适应”的问题范围往往十分局限，但这些方法从应用角度来讲也十分有价值。同时，也有一些工作聚焦于与具体问题无关的原理，即“通用智能”，其旨在探索发生在人类、动物、群体、甚至可能存在的“外星人”等等的“心智”中的、复杂现象背后的、认识和改造世界的基本原理，这套原理的计算机实现被称为“通用人工智能”[6]。“通用智能”是否能由人工演化过程得来？是可能的，但演化中的适应性与人类身上的“通用智能”有着根本性的区别[7]，由于篇幅限制，此处就不展开了。
当然，“通用”也是相对的，毕竟，我们（人类）对自身“心智”的建模也难以避免地受到了自己经验的影响，即其适用范围受到了“我们对所生活世界的经验”的影响，我们总结出的“通用智能”是否是放之宇宙而皆准，这是超出我们经验范围的问题了，但至少“通用人工智能”的工作在朝着这个方向努力、尽可能减少特定问题经验的影响。

图2. 本文中的概念关系

结语

当前，有人认为只要能够解决问题、或是具有某些“认知”功能，即使没有适应性，也算是“智能”，这是本文明确反对的立场。在“适应性”这一大前提下，对有些人而言，“专用智能”就是“智能”，并且已经足够应用了；而对有些人而言，“通用智能”才是所追求的最终目标、“智能”就是指“通用智能”。或许，在未来“真正的”人工智能实现以后，大众观念大概会偏向于后者。不论怎样，按照前面的论述，我们对“智能”本身已经有了认识。可以说，“（通用）智能”是那个“生来就有”的、不随后天经验而改变的某物[8]，而“智能”通过后天与环境交互形成的“技能”则是易变的，随着“经验”的不同而不同、对特定问题有效。“通用人工智能”研究所追寻的，正是对“通用智能”的计算机实现，而非具体一个或一类问题的解决方案。
正如《金刚经》中所言：“一切有为法，如梦幻泡影，如露亦如电”。那个“不变”的“本来面目”究竟是什么样？随着“通用智能”研究深入，或许这一问题将逐渐会有答案。

致谢

感谢在完成此文章过程中参与讨论、提出意见、审阅和编辑的朋友。

注释

[1] “人类智能”有不同的抽象层次，包含“结构”、“行为”、“（问题求解）能力”、“（认知）功能”、“原则”(Wang, 2018)。下面基本按照这个框架进行论述。[2] 这里所说的是机器学习“系统”而非“算法”。一个数学方法或算法是通用的，与一个系统是通用的，二者含义不同。“人”这一智能“系统”的通用性属于后者。[3] 并非说这些工作没有价值，例如，强化学习的总体框架是对的，只不过在具体细节上需要进一步考虑。[4] 此处的“通用智能”是在人工智能的语境下讨论的，但注意同一个词在不同语境下有不同的含义。例如，在心理学中的“通用智能”就是另外的含义了，尽管二者有着在直觉上的相似性。这两个含义的相似与差别在(Wang & Goertzel, 2007)中也有类似的说明。[5] 因此，这里对“通用智能”的定义与(Wang, 2018)中对“智能” 的定义（即“智能是信息系统在知识与资源不足时适应环境的能力”）大体等价，尽管略有不同。也可参考在《智能论纲要》（王培，著）中对智能的描述，其中的智能本身就是领域无关的、通用的，说“专用智能”就太奇怪了。[6] 这里是对“通用人工智能”的非正式描述，而非正式定义。[7] 参见《智能论纲要》。图 1 中，括号中的概念与该书中的用法或许更贴近。[8] 尽管某些“生来就有”的也会随着后天经验而改变，也并非所有“生来就有”的都属于智能。例如动物身体的本能反应等。

来源：集智俱乐部

链接：https://mp.weixin.qq.com/s/xf1RJUW7nWLAKnXPImrWaA

编辑：洪韵

刘海明 · 发表于 2023-10-29 21:03:09

【案例】

腾讯混元大模型批量上新：10秒生成AI图像，超过180个腾讯业务接入

揭开大模型“混元”的面纱两个月后，10月26日，腾讯混元迎来第一次“批量上新”，并且对外开放。

首先，通过测试申请的用户，都能够在“混元”上画画了——从生成图像的准确度、美观度而言，如今混元搭载的“灵感”模块，已经能生成相当合理、逼真的图像。

文生图是AIGC领域的核心技术之一，也是体现通用大模型能力的试金石，对模型算法、训练平台、算力设施都有较高的要求。在用户侧，这又是一个和广大用户联系紧密的应用入口。

智能涌现尝试用简单的指令让混元画图，生成速度基本在10秒左右，效果可以说风格各异，细节比此前更为丰富。

来源：混元助手

如果指令更复杂一点呢？

手部细节是可以说是文生图的一个难点。但在输入弹奏古筝的指令后，如图所见，手部细节可以说比较逼真，没有出现多指、扭曲等问题。

来源：混元助手

文生图能力升级：不仅要美，更重要的是“对”

这两个月，混元在文生图领域的技术研发目标，用一句话可以总结：“AI图像不仅要美，更重要是的是‘对’。”腾讯混元大模型文生图技术负责人芦清林表示。

首先要把用户的指令理解对。在大模型的指令上，混元如今对中文里的意象理解也有所进步，采用了中英文双语细粒度的模型，同时建模中英文进行双语理解。比如，输入“轻舟已过万重山，水墨画风格”，就可以得到下面的图片：

来源：混元

能画得更“对”，也来源于腾讯在训练过程中的一些算法创新。

“在人像上的生成合理性上，我们把人物区分成肢体和手的数据，以及人体的骨架信息都加入到训练中，而手指头生成的局部情况也用了多种形式控制，这样畸形率会比较低。”腾讯混元大模型文生图技术负责人芦清林表示。

而画面细节的提升，来自多种因素的总和，比如人物衣服褶皱、色彩层粗等等——混元用多模型融合的方式，来对其进行提高。

以前，文生图产品用的常规扩散模型是基于CNN等技术架构，特点是比较局部，对整体的结构和刻画能力没有那么强。但现在，混元是基于扩散模型和Transformer架构相结合，可以刻画更多细节，而且对空间位置的定位能力也有加强。

“目前在人像的优化上，比如头发、皱纹，我们的效果提升了30%，在场景模型，比如草木、波纹，效果提升25%。”芦清林估算。

超过180个腾讯业务接入，为广告提效显著

除了千亿参数的主模型，腾讯混元此次也释出了7B、13B等中小模型，主要面向垂直业务。

腾讯机器学习平台负责人康战辉表示，目前千亿级别的混元模型训练，涉及了超过了2.5T的数据。而最近一个多月，混元大模型能力提升比较大的在代码能力以及数据推理，效果较此前有20%的提升。并且，对话上下文窗口，也从原来的4K，中小模型可以长至16K。

而第三季度，可以说是国内大模型领域的关键节点——包括百度、讯飞在内的各家厂商都不约而同地汇报对标GPT-3.5的进展。

在这个层面，腾讯表示，如今混元的千亿级主模型，中文效果整体超过GPT3.5，而7B/13B中小模型实测效果整体优于国内外开源模型，如LLaMA2等。

康战辉尤其指出了压缩比这一参数——同等效果下，混元仅需较少的tokens，训练效率更高。如今，基于，基于探真技术，混元大模型的幻觉率也下降了30%-50%。

而基于这些模型，大模型接入业务的形式既有API接入，也有基于混元进行精调后再部署。

在9月刚发布时，腾讯只有约60个业务接入，但两个月之后，这个数字变成了180个。

腾讯内部各种类型的业务，可以看作大模型落地的切面。

腾讯机器学习平台负责人康战辉表示，其中60多个业务是基于混元做精调，比如腾讯会议、腾讯文档、企业微信、腾讯广告等。

而能落地的功能也越来也多。比如最近，QQ浏览器就基于腾讯混元推出了“PDF阅读助手”，具备智能摘要、智能问答和多轮提问等功能。

可以看出，大模型落地已经到了一个新阶段。业内对大模型落地的讨论，也已经从参数量，进一步到更具体的模型选型——用大模型还是小模型？如何更切实地降低模型应用成本？

康战辉介绍，当前腾讯内部业务的应用很多还是以效果为主。但每个业务都会根据自己的实际情况和场景，来选择合适模型。“比如广告肯定要兼顾成本，这是很复杂、务实的选择。”

目前，已有来自零售、教育、金融、医疗、传媒、交通、政务等多个行业的客户，通过腾讯云调用腾讯混元大模型API，应用领域涉及智能问答、内容创作、数据分析、代码助手等多个场景。这些业务里，既有使用千亿模型，也有采用小模型，或者混合模型模式。

其中，腾讯广告既是腾讯的核心业务之一，在大模型应用上也是走在前列的业务。

最早，腾讯就在广告场景进行AI自动生成图像的探索，如今腾讯混元的文生图在人像真实感、场景真实感上有比较明显的优势。

“对包括传统广告的素材、创意生成、广告链路推荐等等，如今我们也能用混元来进行生成。”康战辉说。

而通过实测数据不断迭代，相较Midjourney等文生图的标杆模型，混元对广告业务的提升已经有明显优势。“经过几个月的攻坚，我们比MJ在广告场景的应用明显好一些，评测的goodcase率要比MJ高10个点左右，广告主测评采纳率混元比MJ高48%。”康战辉透露。

另外，混元代码、数学能力大幅提升后，当前也已经能在软件研发、学习等环节提供更多帮助。当前，腾讯混元代码处理水平提升超过20%，代码处理效果在实测中高于ChatGPT 6.34%，在HumanEval公开测试集指标上超过Starcoder、Codellama等业界头部开源代码大模型。

只需输入简单的指令如“帮我用前端语言实现一个贪吃蛇”，腾讯混元便能自动生成可运行的代码，快速制作出一个贪吃蛇小游戏。

来源：腾讯

此外，腾讯混元还支持Python、C++、Java、Javascript等多种语言的指令生成，比如输入“用Python画红色的心形线”，腾讯混元也会提供代码库选择、安装命令、绘制代码等具体操作步骤的指引。

目前，腾讯内部已经有多个开发平台接入了腾讯混元大模型，工程师们可以使用腾讯混元来进行代码生成、代码补全、代码漏洞检测和修复、表格数据处理、数据库查询等工作。

来源：网易新闻

链接：https://www.163.com/dy/article/II773ULC05118DFD.html

编辑：洪韵

刘海明 · 发表于 2023-10-30 15:18:36

【案例】

OpenAI 组建新的安全团队，以评估 AI “灾难性风险”

日前 OpenAI 方面宣布，为评估和减轻与人工智能（AI）相关的 " 灾难性风险 "，正在组建一支全新的、名为 Preparedness 的安全团队。

具体而言，Preparedness 团队将负责把各种前沿 AI 模型的能力评估、评价和内部红队（即对模型进行渗透测试的攻击方）紧密联系在一起，包括 OpenAI 在将来开发的模型，以及真正 " 具有 AGI 能力 " 的模型。该团队将帮助跟踪、评估、预测和防范多个类别的 " 灾难性风险 "，其中包括个性化说服（Individualized persuasion）、即 AI" 说服和欺骗 " 人类的能力；网络安全（Cybersecurity）；化学、生物、放射性和核 ( CBRN ) 威胁；自主复制和适应（ARA）等。

同时，Preparedness 团队还将制定和维护一项 " 风险知情的开发政策 " ( RDP ) 。据了解，该政策将详细说明 OpenAI 制定严格的前沿 AI 模型能力评估和监控、创建一系列保护行动以及建立整个开发过程的问责和监督治理结构的方法。对此 OpenAI 方面表示，"RDP 旨在补充和扩展我们现有的风险缓解工作，这有助于新的高性能系统在部署之前和之后的安全性和一致性 "。

目前，OpenAI 方面已开始招募不同背景的人才加入 Preparedness 团队，其将由麻省理工学院（MIT）可部署机器学习中心主任 Aleksander Madry 领导。值得一提的是，OpenAI 方面还推出了 AI Preparedness 挑战赛，前十名参赛选手将获得价值 2.5 万美元的 API 积分，并有望加入 Preparedness。

OpenAI 方面对此强调，" 我们相信，前沿 AI 模型的能力将超越目前最先进的模型，有可能造福全人类。不过，它们也构成了越来越严重的风险……我们需要确保对高性能 AI 模型的安全具备必要的理解和基础设施 "。

该公司还进一步指出，要管理前沿 AI 模型带来的 " 灾难性风险 "，就必须回答三个问题，分别是 " 前沿 AI 模型在现在和将来被滥用时有多危险 "、" 我们如何才能建立一个强大的框架来监测、评估、预测和防范前沿 AI 模型的危险能力 "、" 如果我们的前沿 AI 模型权重被盗，恶意行为者会如何选择利用它们 "。

【本文图片来自网络】

来源：ZAKER

链接：http://www.myzaker.com/article/653e27c28e9f094b12351669

编辑：覃韵琪

帐号		自动登录	找回密码
密码			实名注册