不止于“视频生成”，Sora何以定位“世界模拟器” | 芒种观点 - 传媒教育网

连续两年开工时节，都被Open AI霸屏，去年就有若干厂商涉足多模态视频生成大模型的研发，今年又火出天际的Sora到底火在哪里？

首先，从定位上，在Open AI的报告里宣称：Sora定位为世界模拟器，Open AI认为视频生成模型的持续扩展是构建物理世界通用模拟器的一条有前途的道路，可以开发物理和数字世界，以及生活在其中的物体、动物和人的模拟器。

简单说来，Sora的核心功能在于“视频生成”“视频合成”与“图片生成”。与之前的Runway Gen2、Pika相比，优势主要在于：

Sora具有更长的生成时间能力，可以生成一分钟长的视频，而其他大模型一般只能生成几秒钟的视频；

Sora具有更自由的视频尺寸能力，支持宽屏、竖屏以及介于两者之间的所有尺寸的视频生成；

Sora支持向前或向后扩展视频，比如向后扩展可以在视频的基础上创造不同的开头，保持同样的结尾，生成的过程非常连续。

Sora还具有涌现出真实物理世界模拟的能力，可以生成更真实的物理世界的视频。

在讨论Sora即将影响的领域之前，本期腾讯媒体研究院带你一起来看看官方的技术报告如何解读Sora的实现原理与应用场景，努力做到知其然、知其所以然、知其所以必然。

大型语言模型通过在互联网规模的数据上进行训练，获得了出色的通用能力中，OpenAI 从这一点汲取了灵感。LLM 得以确立新范式，部分得益于创新了 token 使用的方法。研究人员们巧妙地将文本的多种模态 —— 代码、数学和各种自然语言统一了起来。

在这项工作中，OpenAI 考虑了生成视觉数据的模型如何继承这种方法的好处。大型语言模型有文本 token，而 Sora 有视觉 patches。此前的研究已经证明 patches 是视觉数据模型的有效表示。OpenAI 发现 patches 是训练生成各种类型视频和图像的模型的可扩展且有效的表示。

在更高层面上，OpenAI 首先将视频压缩到较低维的潜在空间，然后将表示分解为时空 patches，从而将视频转换为 patches。

Sora 是个扩散模型，给定输入噪声 patches（以及文本提示等调节信息），训练出的模型来预测原始的“干净”patches。重要的是，Sora 是一个扩散 Transformer。Transformer 在各个领域都表现出了卓越的缩放特性，包括语言建模、计算机视觉、和图像生成。

在这项工作中，OpenAI 发现扩散 Transformers 也可以有效地缩放为视频模型。下面，OpenAI 展示了训练过程中具有固定种子和输入的视频样本的比较。随着训练计算的增加，样本质量显著提高。

过去的图像和视频生成方法通常需要调整大小、进行裁剪或者是将视频剪切到标准尺寸，例如 4 秒的视频分辨率为 256x256。相反，该研究发现在原始大小的数据上进行训练，可以提供以下好处：

首先是采样的灵活性：Sora 可以采样宽屏视频 1920x1080p，垂直视频 1920x1080p 以及两者之间的视频。这使 Sora 可以直接以其天然纵横比为不同设备创建内容。Sora 还允许在生成全分辨率的内容之前，以较小的尺寸快速创建内容原型 —— 所有内容都使用相同的模型。

其次是改进帧和内容组成：研究者通过实证发现，使用视频的原始长宽比进行训练可以提升内容组成和帧的质量。将 Sora 在与其他模型的比较中，后者将所有训练视频裁剪成正方形，这是训练生成模型时的常见做法。经过正方形裁剪训练的模型（左侧）生成的视频，其中的视频主题只是部分可见。相比之下，Sora 生成的视频（右侧）具有改进的帧内容。

训练文本到视频生成系统需要大量带有相应文本说明的视频。Sora研究团队采用了DALL·E 330中引入的重新说明技术，将其应用于视频。

首先训练一个高度描述性的文本说明模型，然后使用它为训练集中的所有视频生成文本说明。研究发现，使用高度描述性的视频说明进行训练不仅提高了文本的准确性，还提升了视频的整体质量。

与DALL·E 3类似，研究团队还利用GPT将短用户提示转换为更详细的说明文本，并将其发送到视频模型中。这使得Sora能够生成高质量的视频，准确地遵循用户的提示。

我们已经看到了文本到视频的诸多生成示例。实际上，Sora 还可以使用其他输入，如已有的图像或视频。这使 Sora 能够执行各种图像和视频编辑任务 — 创建完美的循环视频、静态图像动画、向前或向后延长视频时间等。

只要输入图像和提示，Sora 就能生成视频。下面展示了根据 DALL-E 2 和 DALL-E 3 图像生成的视频示例：

Sora 还能够在开头或结尾扩展视频内容。以下是 Sora 从一段生成的视频向后拓展出的三个新视频。新视频的开头各不相同，拥有相同的结尾。还可以使用这种方法无限延长视频的内容，实现“视频制作永动机”。

扩散模型激发了多种根据文本 prompt 编辑图像和视频的方法。OpenAI 的研究团队将其中一种方法 ——SDEdit 应用于 Sora，使得 Sora 能够在零样本（zero-shot）条件下改变输入视频的风格和环境。

Sora可以在两个输入视频之间逐渐进行转场，从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。在下面的示例中，中间的视频在左侧和右侧的相应视频之间自动创建过渡帧。

Sora 还能生成图像。为此，OpenAI 将高斯噪声 patch 排列在时间范围为一帧的空间网格中。该模型可生成可变大小的图像，最高分辨率可达 2048x2048。

OpenAI 发现，视频模型在经过大规模训练后，会表现出许多有趣的涌现能力。这些能力使 Sora 能够模拟物理世界中的人、动物和环境的某些方面。这些特性并没有针对3D、物体等方面的显性归纳偏差，纯粹是规模效应现象。

Sora 可以生成具有动态相机运动的视频。随着摄像机的移动和旋转，人物和场景元素在三维空间中始终如一地移动。

视频生成系统面临的一个重大挑战是在对长视频进行采样时保持时间一致性。OpenAI 发现，虽然 Sora 并不总是能有效地模拟短距离和长距离的依赖关系，但它在很多时候仍然能做到这一点。

例如，即使人、动物和物体被遮挡或离开画面，Sora 模型也能保持它们的存在。同样，它还能在单个样本中生成同一角色的多个镜头，并在整个视频中保持其外观。

Sora 有时可以模拟以简单方式影响世界状态的动作。例如，画家可以在画布上留下新的笔触，这些笔触会随着时间的推移而持续，或者一个人可以吃汉堡并留下咬痕。

Sora还能够模拟人工过程，例如视频游戏。Sora 可以通过基本策略控制 Minecraft 中的玩家，同时还可以高保真地渲染世界及其动态。这些功能可以通过向 Sora 提及“Minecraft”来零样本触发相关功能。

作为一款模拟器，Sora 目前还存在许多局限性。例如，它不能准确模拟许多基本交互的物理现象，如玻璃碎裂后液体才能流出，桌面上才有玻璃碎片等。其他交互，如吃食物，并不总能产生正确的物体状态变化。官方主页列举了该模型的其他常见失效模式，例如长时间样本中出现的不一致性或物体的自发出现。

凯文·凯利描述了一个新的四维世界，这个世界被他称为“镜像世界”。Open AI让我们开始有了关于这个新世界的真实体验，镜像世界不仅是现实世界的复制品，本身就是真实世界，这将带来完全不同的生活方式与工作方式。

数字世界一直在向着“数字孪生”的高级阶段进化，Digital Twins' Future 提出从真实世界到“数字孪生”的4个发展阶段：

1. 构建真实世界的数字镜像（分为实时镜像和延迟镜像两种），以城市交通为例，比如地图软件的道路模型是延迟镜像，动态的交通实况则是实时镜像。

2.真实世界和数字镜像的交互导致了数字线程的扩展，数字世界具有影响物理实体操作的能力（可能以自主方式），比如结合地图和卫星导航的标记提醒真实世界当中的行车操作。

3. （数字物理孪生对）开始具有一定程度的自主性。比如地图导航软件模拟预测实时告诉你走哪条路更省时或路程更短。

4. 进入高级阶段，自治水平不断提高，（数字物理孪生对）可以作为自主代理在网络空间中进行交互，将本地数据分析扩展到全球数据分析。在交通领域这个交互势必需要结合传感器实现数字物理的实时镜像，AI可以通过数字计算和控制器完全代理人在真实世界的操作，这便进入了自动驾驶的发展阶段。

由此看来，Open AI致力于打造一款通用的世界模拟器，志在构建世界模型，最终通过“数字孪生”的预测和自治推动整个世界的“数智化”升级，这会是一场全新的“数智革命”。

财联社报道称：从某种意义上讲，对人工智能的利用将会在国家之间、机构之间，甚至包括人与人之间形成新的代差和新的数字鸿沟，并推动人类从农业文明、工业文明走向数字文明。因此能否充分学习和利用人工智能会对人类产生分化，甚至对人类文明产生巨大影响。

看到这里也不必焦虑，这个未来的到来毕竟还有很远的路要走，在世界的发展进化中，“未知”与“机遇”始终并存，我们需要做就是：

在“复杂世界”的基础上，能够认知“未知世界”的特征与挑战，并有能力去拥抱“未知世界”的挑战，将“未知”转化为“机会”，并从“未知”中获益。——陈春花