方兴东钟祥铭 | 谷登堡时刻：Sora 背后信息传播的范式转变与变革逻辑（中）

2024-3-19 17:12| 发布者: 刘海明| 查看: 20| 评论: 0|原作者: 方兴东钟祥铭 |来自: 现代出版

摘要: 我们需要超越技术、产品、应用和资本等层面，从人类传播变革的角度，为理解Sora提供一个更加开阔而深入的视角。

Sora在技术层面被视为“视频生成的GPT-2时刻”。它的主要功能是将文本描述转化为视频内容，这一过程的核心在于解析语言表达背后的复杂场景和动态视觉信息。正如OpenAI在其技术论文中所解释的，Sora是基于之前在图像数据生成建模方面的研究而构建的，如图像生成器DALL-E和GPT大语言模型等。以往的研究采用了循环网络、生成对抗网络（GANs）、自回归Transformer和扩散模型等多种方法，但其往往专注于某一狭窄的视觉数据类别、较短的或固定大小的视频。Sora则超越了这些限制，并且在生成不同持续时间、宽高比和分辨率的视频方面有了显著的改进。它通过结合对语言的深刻理解和视觉上下文以及准确解释提示来保持叙事的一致性，从给定的提示中捕捉角色的情感和个性，并将它们作为富有表现力的角色特征在视频中呈现出来。处理视觉数据的统一表征（unified representation of visual Data）是Sora技术的核心突破，对于大规模训练生成模型以及生成各种视觉内容的能力而言必不可少。从视觉数据到视觉子块（visual patches）的转变是Sora处理视觉内容的关键，即将图像分割成序列化的时空子块（Spacetime Patches），并将其作为视频处理的基本单位。简言之，Sora 是通过对视频数据的学习来理解现实世界的动态变化，并用计算机视觉技术模拟这些变化，从而创造出新的视觉内容。但值得注意的是，Sora学习的不仅仅是视频，也不仅仅是视频里的画面、像素点，它还学习视频里面那个世界的“物理规律”。

生成式AI技术的历史可以追溯到20世纪50年代的隐马尔可夫模型（hidden markov models， HMM）和高斯混合模型（gaussian mixture models，GMM）。从最原始的编程技术控制计算机实现内容输出，到大规模数据库的可用性增强和计算设备性能的提高带来的可用性增强，从生成对抗性网络（GANs）到大规模数据集的可用性不断增强，直到深度学习的出现，生成模型的性能才有了显著的提高。生成式模型在自然语言生成（natural language generation）、图像生成（image generation）和多模态机器学习（multimodal machine learning）等领域的发展遵循着不同的路径，但最终聚焦在自注意力模型（transformer）架构上。作为一种神经网络架构，transformer模型在自然语言处理（NLP）领域（如ChatGPT）引发了一场革命性变化。同时，它也是Sora的技术底座。阿列克谢·多索维斯基（Alexey Dosovitskiy）等人将transformer原理应用于图像识别，将transformer模型（通常用于处理语言和文字的模型）转化为处理视觉内容的工具，突破了transformer模型在计算机视觉应用中存在的局限，使模型在理解整个图像的内容和结构上变得更加灵活和高效。

作为对视觉自注意力模型（vision transformer，ViT）概念的进一步扩展，视频视觉自注意力模型（video vision transformer，ViViT）被应用于视频的多维数据。它通过将视频分解为时空子块（spatiotemporal patches），并将这些子块作为transformer模型内的词元来处理，同时捕捉视频中的静态元素和动态元素，并建模它们之间的复杂关系。在此基础上，莫斯塔法·德加尼（Mostafa Dehghani）等人提出原生分辨率视觉自注意力模型（native resolution vision transformer，NaViT），将其用于处理任意宽高比或分辨率的图像，进一步拓宽ViT应用范围。这在视觉识别领域是一个重要突破。

扩散模型（diffusion models）对Sora的影响显著且意义重大，尤其是在数据利用和生成能力方面。它以少量数据作为训练基础，不仅提高了数据的利用效率，还极大地拓展了其生成各种高质量视觉内容的能力。这种能力对媒体内容创造、游戏开发、虚拟现实等众多领域都具有深远的影响。更进一步，隐性空间扩散模型（latent diffusion models）为视频内容的高效处理和高质量生成开辟了新的途径。; 这种在隐性空间内进行高效数据处理和生成的能力，使Sora在视频合成和编辑领域的能力得到显著增强，不仅提高了效率和质量，也增大了在资源受限的设备上进行高级视觉内容创建和修改的可能性。

扩散自注意力模型（diffusion transformer,DiT）成为Sora得以实现的最关键技术。它允许更有效地处理图像贴片，使其在有效利用计算资源的同时，生成高质量的图像。DiT为Sora提供了一个强大的框架，以便更深入地学习和模拟复杂数据分布，这对于视频内容的生成尤为关键。在生成高质量图像方面，DiT比传统扩散模型拥有更低的计算成本。这种技术的使用标志着在利用深度学习模型进行内容创造方面的一个重要进步，对于增强现实、电影产业、游戏开发以及自动内容生成等领域都有着潜在的深刻影响。

四、Sora标志着媒介生产自动化与媒体形态一体化的临界点

OpenAI承认目前Sora存在的一些局限，包括物理准确性差（难以模拟复杂的物理动力学原理，导致视频可能不完全符合现实世界的原则）、连续性错误（保持较长视频序列的连续性仍然是一个挑战，对象位置或行为偶尔会不一致）、对因果关系的把握有限、空间细节不准确。但是，Sora的后续演进必将沿着现有的变革逻辑继续深化下去。

对于Sora的社会影响和可能图景，人们基本还是基于各自不同学科、不同视角来思考。但是，Sora正在多个方面重新定义AI视频生成模型的标准，也产生了一些已经确定的新变革。

1. 物理世界模拟器

以往的AI生成视频大部分是基于“大模型+大数据”架构，难以突破AI幻觉问题。Sora已经具有了“世界模型”的雏形，其生成的视频是基于对真实物理世界的理解和重建。一方面，通过观察和学习海量视频数据，Sora能够通过掌握视频世界中时空子块单元之间的物理规律建立需遵守的模式，进而利用这些模式约束时空子块的组合。例如，它能有效模拟人物、动物或物品被遮挡或离开/回到视线的场景。另一方面，Sora 对来自物理世界的人、动物和环境等的模拟是在没有经过3D、物理等明确数据标记的情况下发生的，完全得益于规模效应，这种涌现能力被看作其最引人注目的突破性特征。它不仅证明了DiT模型可以通过海量数据的学习，以“直觉”的方式理解整个物理世界，并表达各种物理规律，还指出了一条通向AGI的可行的技术路线。

2. 视频时间长度、分辨率和宽高比

Sora的最大支持长度达到60秒，目前整个行业所公布的单个连贯性视频的最大长度是16秒，行业的普遍水平是2—4秒。Sora在时长上的突破得益于NaViT技术，Sora能够生成宽屏的1920×1080p视频、竖屏的1080×1920视频以及它们之间的各种格式，可以为不同类型的设备创建任何分辨率的视觉内容。这种能力的提升大大扩展了自动生成内容在不同场景和平台中的应用范围，进一步推动了媒介形态的一体化发展。

3. 镜头切换、画面流畅性和时空一致性

此前AI生成视频产品都是单镜头单生成， Sora生成的视频，能够在保持主体一致性的前提下实现多角度镜头无缝切换，整个画面干净流畅。虽然目前还没有技术论文直接涉及该特征，但Sora能够生成动态摄像机运动的视频。随着摄像机的移动和旋转，人物和场景元素在三维空间保持一致的移动。这也表明生成式AI在理解和表现复杂叙事结构方面取得了巨大进展，是电影、电视和在线视频内容生产领域的重大变革。

4. 各类媒介形态的自动化生产和无缝一体化转换

多媒体内容制作将变得更加高效，内容创作者可以在不同的媒介形态之间更加轻松地转换和再创造内容。特别是对于内容生产和分发的生态系统来说，这是一个根本性的变化。然而，实现高质量的无缝一体化转换仍然面临挑战，如要确保转换的准确性、保留内容的意图和情感、处理复杂或模糊的内容以及确保转换内容的自然流畅性。

以Sora为代表的AI生成视频技术的不断发展，无疑将塑造文化规范、影响经济模式并挑战法律框架。它的社会影响超越了真实性和隐私，涵盖技术在塑造人类经验中的作用等更多问题。

五、两次谷登堡时刻：变革的逻辑与进程

简单地说，传播就是信息的生产、处理、传递和接收的过程。我们可以将传播简化为信息的生产和传递两个关键过程。显然，谷登堡印刷术开启的机械复制的广泛应用是智能技术出现之前最大的一次变革。这一次变革的主要作用，就是使人类传播摆脱了人类生理条件和自然条件的局限性，借助科学和工业革命，印刷术开启了传播信息的大规模生产和传递，实现了信息传播的线性增长，人类进入大众传播阶段。我们把它称为第一次谷登堡时刻，即谷登堡时刻1.0。不可否认，该时刻的来临有着中国发明印刷术等一系列准备和铺垫。但是，真正的爆发还是在欧洲，其迎来了长达数百年的大众传播时代。

第一次谷登堡时刻的来临始于印刷机这项革命性发明。印刷革命在所有方面都是其他革命的起源，推动了欧洲文化、宗教和政策的发展。尼古拉·德·孔多塞（Marquis de Condorcet）将印刷机视为人类思想进步的里程碑之一。它确保了文艺复兴的成果能够经久不衰，也保证了像中世纪那样对知识和思想的遮蔽永不会再次发生。西格弗里德·H.斯坦伯格（Sigfrid H.Steinberg）在其著作《五百年的印刷史》中指出:“印刷史是整个文明史不可分割的一部分。”他认为，无论是政治、宪法、教会和经济事件，还是社会学、哲学和文学运动，如果不考虑印刷术对它们的影响，都无法完全理解。尽管威尔伯·施拉姆（Wilbur Schramm）将印刷机视为大众传播的开端，但在相当长的一段时间内它仍是一种“未被承认的革命”——作为引起传播变革的动因，它在关于文艺复兴、宗教改革和科学革命的叙述中被低估了。爱森斯坦强烈呼吁将印刷史带入现代性的问题核心。她指出，“不能仅仅把印刷术当作复杂因果关系中的许多要素之一，这是因为传播变革使因果关系的性质变了”。

“一个历史时期已经因印刷革命而开启。不仅是火和铁的发现，抑或是国家和战争的发展，信息的传播同样创造了文化和文明。” 这场由印刷术引发的革命性变革，使人类复制信息的能力发生了一次飞跃，使知识的大规模传播成为可能，改变了人类存储和检索知识的方式，而且深刻影响了社会结构、经济活动和文化形态，可以说是现代世界发展的重要基石。在费尔南·布罗代尔看来，大众传播不是一个单纯自生自长的现象，更不是传播活动的总和，其复杂性只有在经济生活以及社会生活的整体中才能被理解，而经济生活与社会生活是在不断变化的；同时，其复杂性本身也不断在进化和演化，随时会改变其意义或影响。作为大众传播的一个重要起点，谷登堡印刷术标志着大规模信息传播时代的开始，信息传播从精英化转变为大众化，从而对信息标准化、观念和知识的广泛传播、社会动员与改革、新闻出版业的兴起等产生了深远的影响。

如果说第一次谷登堡时刻是由机械复制开启的，那么，第二次谷登堡时刻，即谷登堡时刻2.0，则是由拟像开启的。生产被再生产所取代，真实连同其参照物一起消失了，只剩下比真实还要真实的“超真实”，以及代码相互参照且对立的、自娱自乐的狂欢。法国哲学家让·鲍德里亚（Jean Baudrillard）将传播描述为“一场大型的同义反复的操作，一场大型的自我实现的预言”。这意味着在某种程度上，传播的过程不再服务于传递新信息或创造新的理解，而是变成了一种循环的自我确认的活动。在这个过程中，信息的传播不再引发深刻的沟通或实质的变化，而是成为一个自我强化的模式，即便这些信息可能是冗余的、重复的或者缺乏实际内容。鲍德里亚的论述并不是一个绝对的判断，而是一种批判性反思。他让我们对信息传播机制保持批判性思考，并警惕其可能对个体认知和社会结构产生的长期影响。如今的状况是，生成式AI进一步将拟像从视觉和符号领域带入认知领域。

从以TikTok为代表的由数据和算法驱动内容分发变革的上半场，到以ChatGPT和Sora为代表的生成式AI的下半场，智能传播将大众传播、网络传播和社交传播都变成了特例。数据主义将数据看作信息社会人类生活的中心。历经原始神秘主义和近代人文主义，人类社会已经进入数据主义主导的时代。数据正在成为人类社会发展的核心要素。也正如尤瓦尔·诺亚·赫拉利（Yuval Noah Harari）认为的，如果把人类看作数据处理系统的发展过程，人类社会的发展可以划分为认知革命时代、农业革命时代、工业革命时代和数据革命时代。在数据革命影响下，新媒体技术理论和实践应用深刻改变着人类的传播活动、传播行为和传播观念，并驱动着人类走向万物互联的新世界。然而，人工智能生成内容（AIGC）的生产模式实现了整体性的信息传播格局颠覆，第一次夺走了人类对信息流的主导，使传播指向一个无限的开放系统。如今看来，卢西亚诺·弗洛里迪（Luciano Floridi）关于“三级技术”的论断似乎正成为现实。作为使用者的技术与作为敦促者的技术一旦被媒介技术关联在一起，形成技术—技术—技术的连接方式，技术就会开始呈指数级发展。智能和自主将不再是人类独有的特性，一个超历史的、依赖于三级技术的社会可以脱离人类而独立存在。

生成式AI不仅对人类经济和社会秩序的组织原则发起挑战，它还是具有政治和文化颠覆性的自主技术的又一个例证，扮演着塑造知识、传播和权力的角色。在凯特·克劳福德（Kate Crawford）看来，“人工智能既不人工，也不智能”，它完全依赖于一套更广泛的政治和社会结构。AI还是一种权力，是技术和社会实践、机构和基础设施、政治和文化的综合体，既反映又产生社会关系和对世界的理解。因此，我们只有在理解了新技术如何改变价值观、权力结构和社会结构之后，才能知道什么是真正的进步。