人工智能与新闻业案例集锦

刘海明 · 发表于 2024-3-2 21:47:15

马斯克起诉OpenAI及其首席执行官萨姆·奥尔特曼

2024-03-02 07:23·湖南日报

当地时间3月1日，据路透社报道，埃隆·马斯克 (Elon Musk) 于29日晚起诉ChatGPT制造商OpenAI及其首席执行官萨姆·奥尔特曼 (Sam Altman) 等人，称其违背了该公司最初的使命，即为人类福祉而非利润开发人工智能。诉讼还提到，该公司一直将其最先进的人工智能模型GPT-4的设计“完全保密”。

据悉，奥尔特曼和OpenAI联合创始人格雷格·布罗克曼 (Greg Brockman) 最初与马斯克接洽，希望成立一家开源非营利公司。

来源：湖南日报
链接：https://www.toutiao.com/article/ ... t&wid=1709387161600
编辑：李梦瑶

刘海明 · 发表于 2024-3-3 21:20:41

大视频模型是世界模型？DeepMind/UC伯克利华人一作：预测下一帧就能改变世界

新智元新智元 2024-03-03 12:47 北京

新智元报道
编辑：润好困【新智元导读】谷歌DeepMind、UC伯克利和MIT的研究人员认为，如果用大语言模型的思路来做大视频模型，能解决很多语言模型不擅长的问题，可能能更进一步接近世界模型。

没人怀疑，OpenAI开年推出的史诗巨作Sora，将改变视频相关领域的内容生态。

但Google DeepMind、UC伯克利和MIT的研究人员更进一步，在他们眼里，「大视频模型」也许能够像世界模型一样，真正的做到理解我们身处的这个世界。

论文地址：https://arxiv.org/abs/2402.17139

在作者看来，视频生成将彻底改变物理世界的决策，就像语言模型如何改变数字世界一样。

研究人员认为，与文本类似，视频可以作为一个统一的接口，吸收互联网知识并表征不同的任务。

例如，经典的计算机视觉任务可以被视为下一代帧生成任务（next-frame generation task）。

模型可以通过生成操作视频（例如「如何制作寿司」）来回答人们的问题，这可能比文本响应更直观。视觉和算法推理也可以作为下一帧/视频生成任务。

视频也可以统一不同实体（embodiment）的观察空间（observation space），因此可以使用单个视频生成模型为不同机器人生成视觉执行计划：

而且就像谷歌刚刚发布的世界生成模型Genie一样，视频生成也是复杂游戏的真实模拟器，可以与基于模型的规划相结合，或者用于创建游戏。生成视频模拟器对于优化科学和工程领域的控制输入也很有用，在这些领域可以收集大量视频数据，但底层的物理动力学很难明确表达（例如，云运动、与软物体的交互）。

预测下一帧，会像预测下一个字那样改变世界

过去几年，从互联网文本数据集训练大语言模型（LLMs）的工作取得了巨大进展。

LLM在各种任务上的出色表现让人不禁想把人工智能的议程缩减为扩大这些系统的规模。然而，大语言模型上取得的突破似乎也开始面临了很多的局限。首先，可公开获取的文本数据的数量正变得越来越大。这将成为进一步扩展的瓶颈。其次，也许更重要的是，仅靠自然语言可能不足以描述所有智能行为，也无法捕捉我们所处物理世界的所有信息（例如，想象一下仅用语言教人如何打结）。虽然语言是描述高层次抽象概念的强大工具，但它并不总是足以捕捉物理世界的所有细节。值得庆幸的是，互联网上有丰富的视频数据，仅YouTube上就有超过一万年的连续视频内容，其中包含了大量关于世界的知识信息。然而，今天在互联网文本或视频数据上训练出来的机器学习模型却表现出了截然不同的能力。LLMs 已经能够处理需要复杂推理、工具使用和决策制定的复杂任务。相比之下，视频生成模型的探索较少，主要集中在创建供人类消费的娱乐视频。鉴于语言建模领域正在发生的范式转变，研究人员提出这样一个问题：我们能否将视频生成模型提升到与语言模型类似的自主代理、模拟环境和计算引擎的水平，从而使机器人、自动驾驶和科学等需要视觉模式的应用能够更直接地受益于互联网视觉知识和预训练视频模型。研究人员认为视频生成对于物理世界的意义就如同语言模型对于数字世界的意义。为了得出这一观点，我们首先确定了使语言模型能够解决许多现实世界任务的关键组成部分：(1) 能够从互联网吸收广泛信息的统一表示法（即文本）、(2) 统一的接口（即文本生成），通过它可以将不同的任务表达为生成建模，以及(3) 语言模型能与外部环境（如人类、工具和其他模型）交互，根据外部反馈采取相应行动和优化决策，如通过人类反馈强化学习、规划、搜索（姚等人，2023 年）和优化等技术。从语言模型的这三个方面出发，研究人员发现：(1) 视频可以作为一种统一的表征，吸收物理世界的广泛信息；(2) 视频生成模型可以表达或支持计算机视觉、嵌入式人工智能和科学领域的各种任务；(3) 视频生成作为一种预训练目标，为大型视觉模型、行为模型和世界模型引入了互联网规模的监督，从而可以提取动作、模拟环境交互和优化决策。为了进一步说明视频生成如何对现实世界的应用产生深远影响，他们深入分析通过指令调整、上下文学习、规划和强化学习（RL）等技术，在游戏、机器人、自动驾驶和科学等领域将视频生成用作任务求解器、问题解答、策略/代理和环境模拟器。

视频生成的前提设置

研究人员将视频片段表示为一系列图像帧 x = (x 0 , ..., x t )。图像本身可被视为具有单帧 x = (x 0 , ) 的特殊视频。条件视频生成模型是条件概率 p(x|c)，其中 c 是条件变量。条件概率 p(x | c) 通常由自回归模型、扩散模型或掩蔽Transformer模型进行因子化。

根据不同的因式分解，p(x | c)的采样要么对应于连续预测图像（斑块），要么对应于迭代预测所有帧（x 0 ，...，x t ）。根据条件变量 c 的内容，条件视频生成可以达到不同的目的。

统一表征法和任务接口

在本节中，作者首先介绍了视频是如何作为一种统一的表征，从互联网中捕捉各种类型的信息，从而形成广泛的知识。

然后，讨论如何将计算机视觉和人工智能中的各种任务表述为条件视频生成问题，从而为现实世界中的视频生成决策提供基础。作为信息统一表征的视频

虽然互联网文本数据通过大型语言模型为数字/知识世界提供了很多价值，但文本更适合捕捉高级抽象概念，而不是物理世界的低级细节。

研究人员列举几类难以用文本表达，但可以通过视频轻松捕捉的信息。

-视觉和空间信息：这包括视觉细节（如颜色、形状、纹理、光照效果）和空间细节（如物体在空间中的排列方式、相对位置、距离、方向和三维信息）。与文本格式相比，这些信息自然是以图像/视频格式存在的。-物理和动力学：这包括物体和环境如何在物理上相互作用的细节，如碰撞、操作和其他受物理规律影响的运动。虽然文字可以描述高层次的运动（如 "一辆汽车在街道上行驶"），但往往不足以捕捉低层次的细节，如施加在车辆上的扭矩和摩擦力。视频可以隐含地捕捉到这些信息。-行为和动作信息：这包括人类行为和代理动作等信息，描述了执行任务（如如何组装一件家具）的低层次细节。与精确的动作和运动等细节信息相比，文本大多能捕捉到如何执行任务的高级描述。为什么是视频？有人可能会问，即使文本不足以捕捉上述信息，为什么还要用视频呢？视频除了存在于互联网规模之外，还可以为人类所解读（类似于文本），因此可以方便地进行调试、交互和安全推测。此外，视频是一种灵活的表征方式，可以表征不同空间和时间分辨率的信息，例如以埃级（10 -10 m）运动的原子和以每秒万亿帧速度运动的光。作为统一任务接口的视频生成

除了能够吸收广泛信息的统一表征外，研究人员还从语言建模中看到，需要一个统一的任务接口，通过它可以使用单一目标（如下一个标记预测）来表达不同的任务。

同时，正是信息表征（如文本）和任务接口（如文本生成）之间的一致性，使得广泛的知识能够转移到特定任务的决策中。经典计算机视觉任务在自然语言处理中，有许多任务（如机器翻译、文本摘要、问题解答、情感分析、命名实体识别、语音部分标记、文本分类等）都是视觉任务。文本分类、对话系统，传统上被视为不同的任务，但现在都统一到了语言建模的范畴内。这使得不同任务之间的通用性和知识共享得以加强。同样，计算机视觉也有一系列广泛的任务，包括语义分割、深度估计、表面法线估计、姿态估计、边缘检测和物体跟踪。最近的研究表明，可以将不同的视觉任务转换成上图所示的视频生成任务，而且这种解决视觉任务的统一方法可以随着模型大小、数据大小和上下文长度的增加而扩展。将视觉任务转换为视频生成任务一般涉及以下步骤：(1) 将任务的输入和输出（如分割图、深度图）结构化到统一的图像/视频空间中；(2) 对图像帧重新排序，使输入图像后跟有特定任务的预期输出图像（如常规输入图像后跟有深度图）；(3) 通过提供输入-输出对示例作为条件视频生成模型的输入，利用上下文学习来指定所需的任务。视频即答案在传统的视觉问题解答（[color=var(--weui-LINK)][url=]VQA[/url]）. 随着视频生成技术的发展，一种新颖的任务是将视频作为答案，例如，在回答「如何制作折纸飞机」时生成视频。与语言模型可以对文本中的人类询问生成定制回复类似，视频模型也可以对具有大量低级细节的如何操作问题生成定制回复。对于人类来说，这样的视频回答可能比文本回答更受欢迎。

在上图中，研究人员展示了由文本到视频模型生成的视频，这些视频是对一组「如何做」问题的回答。此外，还可以考虑以初始帧为生成条件，在用户特定场景中合成视频答案。尽管有如此宏大的前景，但当今文本到视频模型合成的视频一般都太短/太简单，没有足够的信息来完全回答用户的问题。合成视频帧以回答用户问题的问题与使用语言模型进行规划有相似之处，人们可以利用语言模型或视觉语言模型将高层次目标（如「如何制作寿司」）分解为具体的子目标（如「首先，将米饭放在滚动垫上」），并为每个子目标合成计划，同时验证合成计划的合理性。视觉推理和思维链有了统一的信息表征和统一的任务界面，语言模型中就出现了推理，模型可以推导出相关信息，作为解决更复杂问题的中间步骤。

同样，以视频作为统一的表示和任务界面，视频生成也通过预测图像的遮蔽区域显示出视觉推理的早期迹象，如上图所示。通过生成具有正确辅助线集的视频，下一帧预测是否可用于解决更复杂的几何问题，这将是一个有趣的课题。在利用下一帧预测进行视觉推理和解决几何问题的基础上，还可以利用以下方法进一步描述推理过程和算法。具体来说，利用视频描述了广度优先搜索（BFS）算法的执行状态。

在这种情况下，学习生成视频就相当于学习搜索，如上图所示。虽然图 3 和图 4 中的示例可能看起来有些矫揉造作，但它们作为早期指标表明，视频生成作为一种预训练任务，可能会引发类似于语言模型的推理行为，从而揭示了利用视频生成解决复杂推理和算法任务的机会。作为统一状态-行动空间的视频

视频生成可以吸收广泛的知识并描述不同的视觉任务。

研究人员将通过提供体现式人工智能中使用视频作为统一表征和任务界面的具体实例来进一步支持这一观点。数据碎片化是体现式人工智能长期面临的挑战之一，在这种情况下，一个机器人在执行一组任务时收集的数据集很难用于不同机器人或不同任务的学习。跨机器人和跨任务知识共享的主要困难在于，每种类型的机器人和任务都有不同的状态-行动空间。为了解决这一难题，可以使用像素空间作为跨任务和环境的统一状态行动空间。在这一框架下，可将机器人规划视为条件视频生成问题，从而受益于互联网预训练视频生成模型。大多数现有工作都是为每个机器人训练一个视频生成模型，这削弱了将视频作为统一的状态-动作空间用于体现式学习的潜在优势。

在上图中提供了在 Open X-Embodiment 数据集之前和新生成的视频计划看起来都非常逼真，并成功完成了指定任务。

视频生成即模拟

视频生成技术不仅能解决前文提到的众多任务，还能够在另一个重要领域发挥作用——模拟各种系统和过程的视觉效果，进而根据模拟结果优化系统的控制策略。

这一能力对于那些能够收集到大量视频数据，但难以精确描述底层物理动态的应用场景尤为重要，如云层的流动、与柔软物体的交互等。游戏环境的生成

多年来，游戏已成为测试AI算法的理想平台。举个例子，街机学习环境（Arcade Learning Environment）推动了深度Q学习技术的发展，这一技术成功让AI智能体首次在Atari游戏中达到了人类的水平。

同样的，我们可以通过与游戏引擎中的真实模拟结果进行对比，来验证生成式模拟器的质量。- 模拟复杂游戏环境通过动作条件下的视频生成技术，可以模拟出像Minecraft这类复杂电脑游戏的环境动态。基于此，研究人员提出了一个能够根据以往的游戏进程预测未来的动作和游戏状态的Transformer模型。游戏中的观察结果和玩家动作都被转化为了Token，这样就把预测下一步动作简化为了预测下一个Token。值得注意的是，在这种情况下，模型既可以作为世界模型，也可以作为行动策略。如图6所示，给定一个以行动结束的观察和行动交替序列，模型就能推断出下一个观察结果（世界模型）；给定一个以观察结束的类似序列，模型就能推断出下一个要采取的行动（策略）。借助这种策略和动态分析骨干，还可以应用基于模型的强化学习算法，如Dyna、Dreamer和[color=var(--weui-LINK)][url=]MuZero[/url]，来进一步优化策略。

- 创造新型游戏环境在游戏AI领域，程序化创造新型游戏内容和关卡是一个热门研究方向，而这也已被证实对训练和评价强化学习（RL）智能体非常有用。如图7所示，通过学习大规模互联网上未经标注的游戏数据中的潜动作，然后训练一个可控制动作的视频模型，可以实现从一张提示图像生成无限可能的多样化互动环境。虽然这项工作还处于探索阶段，但在未来，我们或许可以通过集成学习到的奖励模型，让RL智能体在完全由生成模型创造的游戏环境中进行训练。

机器人与自动驾驶模拟SE(3)动作空间是机器人学习领域的一大挑战，尤其体现在如何将在虚拟模拟器中训练的策略成功应用到真实机器人上的问题。此前的研究成功地在真实机器人的视频数据上，针对Language Table环境，学习了一个基于动作的下一帧预测模型，并采用了一个简单的笛卡尔（[color=var(--weui-LINK)][url=]Cartesian[/url]）动作空间。如图8所示，可以看到，下一帧预测能够预测出SE(3)空间中更为通用的末端执行器动作所产生的视觉效果。
生成式SE(3)模拟器的一个直接应用是评估机器人策略，这在涉及真实机器人评估的安全考虑时特别重要。除了评估，此前的研究还在Language Table环境中使用来自生成式模拟器的rollouts训练了强化学习（RL）策略。下一个步骤可能是，使用Dyna式算法并结合模拟的演示和真实环境的数据来学习策略。在这种情况下，当策略在执行时，真实世界的视频会被收集起来，为生成式模拟器提供额外的示范和反馈。最后，通过在多样化环境中进行视频演示，生成式模拟器能够有效地训练多任务和多环境策略，这在之前是无法实现的，因为通常一个策略一次只能接触到一个真实世界环境。

科学与工程

视频已经成为了跨越众多科学和工程领域的一个统一的表现形式，对医学成像、计算机图像处理、计算流体动力学等领域的研究产生了影响。

在一些情况下，虽然我们可以通过摄像头轻松捕捉到视觉信息，但是很难识别背后的动态系统（比如云的运动，或者电子显微镜下原子的运动）。

而基于控制输入的视频生成模型可以成为一个有效的视觉模拟工具，进而帮助我们得到更优的控制方案。

下图展示了硅原子在碳原子单层上，在电子束的刺激下的动态变化。可以看到，这种生成式模拟器能够准确地在像素层面捕捉硅原子的移动。除了帮助缩小模拟与现实之间的差距，生成式模拟器还有一个优点是它们的计算成本是固定的，这在传统计算方法无法应对的情况下尤为重要。

总结

总结而言，研究人员认为，视频生成技术在物理世界的作用，就像语言模型在数字世界中的角色一样重要。团队通过展示视频如何能够像语言模型一样，广泛地表达信息和执行任务来支持这个观点。并且，从新的角度探讨了视频生成技术的应用，这些应用通过结合推理、场景中的学习、搜索、规划和强化学习等方法，来解决现实世界中的问题。虽然视频生成模型面临着如虚假生成（幻觉）和泛化能力等挑战，但它们有潜力成为自主的AI智能体、规划者、环境模拟器和计算平台，并最终可能作为一种人工智能大脑，在物理世界中进行思考和行动。参考资料：https://arxiv.org/abs/2402.17139

来源：新智元（公众号）
链接：https://mp.weixin.qq.com/s/pMzISIodXUO92cik8uJS7Q
编辑：李梦瑶

刘海明 · 发表于 2024-3-3 21:29:59

央视剧评｜Sora来了，智能时代的影视行业路在何方？

[color=rgba(0, 0, 0, 0.3)]原创央视剧评 CCTV电视剧 2024-03-03 14:17 北京

特约评论员李本乾

美国当地时间2月15日，OpenAI推出其首款文本生成视频（text-to-video）的人工智能模型Sora。它不仅使文生视频成为现实，而且各种要素、场景之间的无缝衔接更是令人叹为观止！

01

Sora是什么？

科学分析Sora带来的新挑战

回溯互联网与数字媒介发展，不难发现媒介技术的每次重大突破，势必引起产业与社会的巨大变化。

Sora技术的突破，将给影视行业带来怎样的冲击与变化呢？

价值链体系的冲击。

Sora不仅文生视频，更是能创造长达一分钟的视频，且具备多镜头的一致性。Sora让“扔进一部小说、出来一部大片”的梦想，从未如此接近现实。

显然，Sora将对传统影视产业价值链体系造成强烈冲击。

人工生产模式的变化。

Sora模型擅长生成具有多个角色、精确动作和详细背景的复杂场景渲染视频；Sora具备仿真功能和3D动态赋能特征，可学习影片生成、3D生成和4D生成等。

在上述领域中，Sora可替代人类传统生产模式，创造更加逼真的视频和引人入胜的体验。

市场结构的改变。

可以预见的是，未来视频制作的门槛将逐步降低，大众化成为大势所趋。

大众生产的海量视频势必分散用户注意力，中低端影视市场必将遭受强烈冲击，传统影视市场结构将发生重大变化。

02

我们怎么办？

热情拥抱Sora提供的新技术

创建“人机共生”的影视新生态。

虽然如何应对Sora这一新生事物，我们尚无经验可循，但人与自然的关系却是中国文化老生常谈的话题。

汲取中国文化“天人合一”的思想，创建“人机共生”的影视新生态，将是推动影视行业高质量发展的必由之路。

创建Sora赋能的制作新模式。

电影百年历史中，任何一次技术革命都为其赋能。为此，抓住Sora技术创新，迭代机遇，创建影视制作新模式。抓住AI发展的机遇，有利于大力发展影视生产力。

首先，解放简单重复的影视劳动。

Sora只需简单的自然语言提示，即可生成高清视频。它将人从简单重复的劳动中解脱出来，以更高的效率去创造更大的价值。

其次，提高动画特效智能化水平。

Sora的出现将推动特效制作更加简单、高效、智能。

再次，Sora催生新的职业需求。

如提示工程（prompt）师、AI技术专家等。

拥抱"世界模拟器"的新未来。

Sora的重要目标是成为“世界模拟器”。它并非文生视频那样简单，而是人工智能对物理世界的理解、模拟能力达到空前的高度。

为此，我们要以开放的心态，积极拥抱“世界模拟器”的新未来，不断拓展影视行业的新边界，创新影视创作的新领域，推动影视行业高质量发展。

03

Sora不是终点

超越大模型创新精品力作

面对Sora带来的冲击，影视业不能亦步亦趋。

事实上，Sora同样属于人工智能（AI）的范畴，有赖于数据、算法与算力三要素而存在。因此，创新数据，引领算法和超越Sora模型，影视业才能赢得未来。

《庄子·天道》中“轮扁斫轮”的故事给了我们启示。

齐国轮扁砍制车轮时，往往根据多年的实践经验达到得心应手的境界，但他无法将其“奥妙”教给儿子，儿子也无法继承，其中的“奥妙”只能通过自身实践去领悟。

真正的“奥妙”不可言、无法传，只能靠人亲身实践和感悟。真正的艺术、高超的创意和精湛的作品都是独一无二和不可复制的。

Sora降低了影视制作业的门槛，但同时提高了视频创新的"天花板"，对影视创作者的创新、创意和专业水准提出了更高要求。

影视创作者唯有频出“金点子”，不断推出精品力作，建设强大的数字资源，才能完成从追赶Sora到超越数据和算法，进而引领模型的“华丽转身”。

Sora的关键技术之一在于使用潜在空间（latent space）技术。该技术的目标在于提取视频的普遍特征，而一些个性化的元素容易被误视为“杂质”，或被忽略、或被踢出。它虽然可以逼真反映物理现实世界，但它很难反映人类的精神世界中独一无二的情感体验！

勇于超越Sora潜在空间算法的新逻辑，回归影视作品反映精神世界本位，驾驭Sora赋能影视创作，将是未来影视业发展新质生产力的主要方向之一。

通过AI赋能，不断推出高质量的精品力作，引领数据，引领算法，主流媒体责无旁贷，任重道远。

作者系上海交通大学智能传播研究院院长

媒体与传播学院特聘教授

来源：CCTV电视剧（公众号）
链接：https://mp.weixin.qq.com/s/JFidJ2cWn1Nj-DBCq4H6dw
编辑：李梦瑶

刘海明 · 发表于 2024-3-5 00:25:46

【案例】

不止于“视频生成”，Sora何以定位“世界模拟器” | 芒种观点

连续两年开工时节，都被Open AI霸屏，去年就有若干厂商涉足多模态视频生成大模型的研发，今年又火出天际的Sora到底火在哪里？

首先，从定位上，在Open AI的报告里宣称：Sora定位为世界模拟器，Open AI认为视频生成模型的持续扩展是构建物理世界通用模拟器的一条有前途的道路，可以开发物理和数字世界，以及生活在其中的物体、动物和人的模拟器。

简单说来，Sora的核心功能在于“视频生成”“视频合成”与“图片生成”。与之前的Runway Gen2、Pika相比，优势主要在于：

Sora具有更长的生成时间能力，可以生成一分钟长的视频，而其他大模型一般只能生成几秒钟的视频；

Sora具有更自由的视频尺寸能力，支持宽屏、竖屏以及介于两者之间的所有尺寸的视频生成；

Sora支持向前或向后扩展视频，比如向后扩展可以在视频的基础上创造不同的开头，保持同样的结尾，生成的过程非常连续。

Sora还具有涌现出真实物理世界模拟的能力，可以生成更真实的物理世界的视频。

在讨论Sora即将影响的领域之前，本期腾讯媒体研究院带你一起来看看官方的技术报告如何解读Sora的实现原理与应用场景，努力做到知其然、知其所以然、知其所以必然。

来源 | 德外5号

作者 | 王一婷

Sora主要技术原理

视觉数据的统一表示：Patches

大型语言模型通过在互联网规模的数据上进行训练，获得了出色的通用能力中，OpenAI 从这一点汲取了灵感。LLM 得以确立新范式，部分得益于创新了 token 使用的方法。研究人员们巧妙地将文本的多种模态 —— 代码、数学和各种自然语言统一了起来。

在这项工作中，OpenAI 考虑了生成视觉数据的模型如何继承这种方法的好处。大型语言模型有文本 token，而 Sora 有视觉 patches。此前的研究已经证明 patches 是视觉数据模型的有效表示。OpenAI 发现 patches 是训练生成各种类型视频和图像的模型的可扩展且有效的表示。

在更高层面上，OpenAI 首先将视频压缩到较低维的潜在空间，然后将表示分解为时空 patches，从而将视频转换为 patches。

用于视频生成的缩放 Transformer

Sora 是个扩散模型，给定输入噪声 patches（以及文本提示等调节信息），训练出的模型来预测原始的“干净”patches。重要的是，Sora 是一个扩散 Transformer。Transformer 在各个领域都表现出了卓越的缩放特性，包括语言建模、计算机视觉、和图像生成。

在这项工作中，OpenAI 发现扩散 Transformers 也可以有效地缩放为视频模型。下面，OpenAI 展示了训练过程中具有固定种子和输入的视频样本的比较。随着训练计算的增加，样本质量显著提高。

可变的持续时间，分辨率，宽高比

过去的图像和视频生成方法通常需要调整大小、进行裁剪或者是将视频剪切到标准尺寸，例如 4 秒的视频分辨率为 256x256。相反，该研究发现在原始大小的数据上进行训练，可以提供以下好处：

首先是采样的灵活性：Sora 可以采样宽屏视频 1920x1080p，垂直视频 1920x1080p 以及两者之间的视频。这使 Sora 可以直接以其天然纵横比为不同设备创建内容。Sora 还允许在生成全分辨率的内容之前，以较小的尺寸快速创建内容原型 —— 所有内容都使用相同的模型。

其次是改进帧和内容组成：研究者通过实证发现，使用视频的原始长宽比进行训练可以提升内容组成和帧的质量。将 Sora 在与其他模型的比较中，后者将所有训练视频裁剪成正方形，这是训练生成模型时的常见做法。经过正方形裁剪训练的模型（左侧）生成的视频，其中的视频主题只是部分可见。相比之下，Sora 生成的视频（右侧）具有改进的帧内容。

语言理解

训练文本到视频生成系统需要大量带有相应文本说明的视频。Sora研究团队采用了DALL·E 330中引入的重新说明技术，将其应用于视频。

首先训练一个高度描述性的文本说明模型，然后使用它为训练集中的所有视频生成文本说明。研究发现，使用高度描述性的视频说明进行训练不仅提高了文本的准确性，还提升了视频的整体质量。

与DALL·E 3类似，研究团队还利用GPT将短用户提示转换为更详细的说明文本，并将其发送到视频模型中。这使得Sora能够生成高质量的视频，准确地遵循用户的提示。

Sora主要功能

以图像和视频作为提示

我们已经看到了文本到视频的诸多生成示例。实际上，Sora 还可以使用其他输入，如已有的图像或视频。这使 Sora 能够执行各种图像和视频编辑任务 — 创建完美的循环视频、静态图像动画、向前或向后延长视频时间等。

为 DALL-E 图像制作动画

只要输入图像和提示，Sora 就能生成视频。下面展示了根据 DALL-E 2 和 DALL-E 3 图像生成的视频示例：

视频内容拓展

Sora 还能够在开头或结尾扩展视频内容。以下是 Sora 从一段生成的视频向后拓展出的三个新视频。新视频的开头各不相同，拥有相同的结尾。还可以使用这种方法无限延长视频的内容，实现“视频制作永动机”。

视频到视频编辑

扩散模型激发了多种根据文本 prompt 编辑图像和视频的方法。OpenAI 的研究团队将其中一种方法 ——SDEdit 应用于 Sora，使得 Sora 能够在零样本（zero-shot）条件下改变输入视频的风格和环境。

连接视频

Sora可以在两个输入视频之间逐渐进行转场，从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。在下面的示例中，中间的视频在左侧和右侧的相应视频之间自动创建过渡帧。

图像生成能力

Sora 还能生成图像。为此，OpenAI 将高斯噪声 patch 排列在时间范围为一帧的空间网格中。该模型可生成可变大小的图像，最高分辨率可达 2048x2048。

涌现仿真能力

OpenAI 发现，视频模型在经过大规模训练后，会表现出许多有趣的涌现能力。这些能力使 Sora 能够模拟物理世界中的人、动物和环境的某些方面。这些特性并没有针对3D、物体等方面的显性归纳偏差，纯粹是规模效应现象。

三维一致性

Sora 可以生成具有动态相机运动的视频。随着摄像机的移动和旋转，人物和场景元素在三维空间中始终如一地移动。

长序列连贯性和目标持久性

视频生成系统面临的一个重大挑战是在对长视频进行采样时保持时间一致性。OpenAI 发现，虽然 Sora 并不总是能有效地模拟短距离和长距离的依赖关系，但它在很多时候仍然能做到这一点。

例如，即使人、动物和物体被遮挡或离开画面，Sora 模型也能保持它们的存在。同样，它还能在单个样本中生成同一角色的多个镜头，并在整个视频中保持其外观。

与世界互动

Sora 有时可以模拟以简单方式影响世界状态的动作。例如，画家可以在画布上留下新的笔触，这些笔触会随着时间的推移而持续，或者一个人可以吃汉堡并留下咬痕。

模拟数字世界

Sora还能够模拟人工过程，例如视频游戏。Sora 可以通过基本策略控制 Minecraft 中的玩家，同时还可以高保真地渲染世界及其动态。这些功能可以通过向 Sora 提及“Minecraft”来零样本触发相关功能。

Sora志在数字孪生的终局？

作为一款模拟器，Sora 目前还存在许多局限性。例如，它不能准确模拟许多基本交互的物理现象，如玻璃碎裂后液体才能流出，桌面上才有玻璃碎片等。其他交互，如吃食物，并不总能产生正确的物体状态变化。官方主页列举了该模型的其他常见失效模式，例如长时间样本中出现的不一致性或物体的自发出现。

凯文·凯利描述了一个新的四维世界，这个世界被他称为“镜像世界”。Open AI让我们开始有了关于这个新世界的真实体验，镜像世界不仅是现实世界的复制品，本身就是真实世界，这将带来完全不同的生活方式与工作方式。

数字世界一直在向着“数字孪生”的高级阶段进化，Digital Twins' Future 提出从真实世界到“数字孪生”的4个发展阶段：

1. 构建真实世界的数字镜像（分为实时镜像和延迟镜像两种），以城市交通为例，比如地图软件的道路模型是延迟镜像，动态的交通实况则是实时镜像。

2.真实世界和数字镜像的交互导致了数字线程的扩展，数字世界具有影响物理实体操作的能力（可能以自主方式），比如结合地图和卫星导航的标记提醒真实世界当中的行车操作。

3. （数字物理孪生对）开始具有一定程度的自主性。比如地图导航软件模拟预测实时告诉你走哪条路更省时或路程更短。

4. 进入高级阶段，自治水平不断提高，（数字物理孪生对）可以作为自主代理在网络空间中进行交互，将本地数据分析扩展到全球数据分析。在交通领域这个交互势必需要结合传感器实现数字物理的实时镜像，AI可以通过数字计算和控制器完全代理人在真实世界的操作，这便进入了自动驾驶的发展阶段。

图注：数字孪生发展阶段。来源：Digital Twins’ Future

由此看来，Open AI致力于打造一款通用的世界模拟器，志在构建世界模型，最终通过“数字孪生”的预测和自治推动整个世界的“数智化”升级，这会是一场全新的“数智革命”。

财联社报道称：从某种意义上讲，对人工智能的利用将会在国家之间、机构之间，甚至包括人与人之间形成新的代差和新的数字鸿沟，并推动人类从农业文明、工业文明走向数字文明。因此能否充分学习和利用人工智能会对人类产生分化，甚至对人类文明产生巨大影响。

看到这里也不必焦虑，这个未来的到来毕竟还有很远的路要走，在世界的发展进化中，“未知”与“机遇”始终并存，我们需要做就是：

在“复杂世界”的基础上，能够认知“未知世界”的特征与挑战，并有能力去拥抱“未知世界”的挑战，将“未知”转化为“机会”，并从“未知”中获益。——陈春花

来源：腾讯媒体研究院

链接：https://mp.weixin.qq.com/s/MAtS8DZbYd1eHXHc8DlLtg

编辑：王晨雅

刘海明 · 发表于 2024-3-9 15:31:34

【案例】

马斯克与OpenAI之争

马斯克与OpenAI之间的争议围绕着开源问题展开，引发了人工智能安全性的讨论。马斯克认为OpenAI不够开放，甚至嘲讽称将其改名为ClosedAI。这一争议凸显了人工智能部署和安全问题的复杂性。

Elon Musk和OpenAI之间的争议

马斯克起诉OpenAI，指责该公司偏离了其利他主义使命，将利润置于最初目标之上。马斯克声称，OpenAI（他曾是创始董事会成员）转向了盈利模式，与他们最初约定的为造福人类而开发人工智能的目标相悖。OpenAI回应称，马斯克曾支持创建盈利实体的想法，甚至建议将OpenAI与特斯拉合并。随着马斯克的诉讼，争议升级，突显了双方在控制权、资金和OpenAI发展方向上的分歧。马斯克对人工智能透明度和负责任开发的担忧也在争议中扮演重要角色。这场法律纠纷引发了人工智能社区更广泛的讨论，涉及人工智能研究的透明度以及在追求先进人工智能系统时开放合作与保护知识产权之间的平衡。这场争议凸显了在人工智能发展、治理和伦理考量中面临的复杂性。

争议对人工智能的影响

争议对人工智能的影响主要体现在对人类生存和安全的潜在威胁上。一些人认为人工智能可以为人类带来益处，但也有人担心其可能导致灾难性后果，甚至成为“不朽的独裁者”。

在马斯克与OpenAI之间的争议中，人工智能的部署和安全问题变得更加复杂，特别是在涉及开源模型和国家安全之间的平衡时。

人工智能对就业市场未来的影响

随着人工智能技术的迅速发展，自动化可能导致工作岗位的转移和工作角色的变化，需要重新培训和转岗人员适应新的就业环境.未来的工作将更加强调创造性思维、沟通能力、团队协作等人文素质，这对劳动者提出了挑战。人工智能对就业市场带来机遇与挑战并存，需要适应新的就业趋势和技能需求，人工智能的发展将改变就业市场的格局，劳动力需求可能会发生重大变化，需要不断适应和学习新技能以适应未来就业环境。

来源：科技星旅（公众号）

链接：https://mp.weixin.qq.com/s/ASyaOCjPoOXHiNMLDFPw8w

编辑：王晨雅

刘海明 · 发表于 2024-3-13 17:13:04

【案例】
全球首部AI生成电影上映，需要担忧吗？

当地时间3月6日，全球首部完全由AI生成的长篇电影终结者2翻拍版《Our T2 Remake》在洛杉矶进行首映。

电影“主演”之一Timmy the Terminator（下图右侧机器人）在社交平台上晒出了自己的“首映礼红毯照”。

01

50位AI领域

艺术家联合创作

图片来源：Instagram

这部由50位AI领域艺术家合作创作出的《终结者2》翻拍重制作品，呈现了一个人类对抗人工智能统治的世界，探讨当代AI发展的影响。

团队利用Midjourney、Runway、Pika、Kaiber、Eleven Labs、ComfyUi、Adobe等多个AIGC工具进行创作，同时不使用原电影中的任何镜头、对话或音乐，确保《Our T2 Remake》所有内容均为原创。

“这将是AI在电影制作应用中的一个重要里程碑……我们希望向世界展示，AI赋予了每一个人创作自己的史诗级故事的能力。”电影制作团队如此表示。

虽说线下首映式的门票已告罄，现场照片中看来上座率也不低，但目前在社交平台上，暂时没有什么影评发布。目前，该电影还未大规模放映，本周末，将在线上直播，或许届时可以得到更多反馈。

02

面对人工智能冲击

影视创作者需要担忧吗？

影视创作与生成式人工智能的碰撞，为影视创作注入了新的活力和可能性。这种结合不仅改变了影视创作的工具和方法，更在深层次上影响了创作的思维方式和艺术观念，影视创作者们必须积极应对这一冲击，采取有效的策略来保持创作的独特性和创新性。

首先需要明确认识到，生成式人工智能本质上是一种技术的延伸，就像为人类安装上一双机械臂，当影视创作者面对这项技术的发展时，需要做到的第一点就是去了解它，接触它，去了解其背后的逻辑。无知带来恐惧，模糊带来焦虑，当对新技术背后的生成的逻辑有足够的认识的时候，恐惧感自然会消失。

其次，创作者们应该去充分地利用它，如何利用挖掘人工智能能够给影视产业带来的一些积极的作用，然后迅速地将其融入自己的创作过程当中，提升创作效率。

第三是从自己的角度去训练它，改进它，让人工智能成为创作者们助手。例如，除了从无到有创造新作品外，人工智能技术还可以应用于老电影的修复和老照片的修复过程当中，在对人类原有创作进行超分辨率和重新上色的过程，本质是一种以人类为主体、AI作为重要参与者的再创造。

第四是保持足够的警惕，人工智能技术一方面能够丰富人们的创作思维，为人们提供更多的选择，但同时它也像算法推送一样，会限制了人类思维和创造，让创作者迷失在与AI共建的茧房中，人类创作者可能会沦为“配角”甚至“观众”，失去对作品的掌控力和影响力。

艺术作品所独有的“灵韵”是从人类的朴素的情感与人类世界不同实体之间交互的情感当中所迸发出来，这是机器所无法取代的。

人工智能出现是为了提高工作效率，而非让人类懒于去思考，过度依赖AI可能会导致创作的同质化和缺乏个性，失去独特性和人文气息，变成千篇一律的“工业产品”。

《我们的终结者2重置版》Our T2 Remake海报。图片来源：豆瓣

最后，人工智能的应用还涉及诸多关于版权和伦理的问题，创作者在应用中不能单纯地以效率或者是以利益为先，需要在尊重艺术创作、尊重伦理、尊重法律的基础上去合理运用人工智能技术，这样才能够确保影视产业在人工智能技术的助力下健康发展。

来源：传媒头条（公众号）

链接：https://mp.weixin.qq.com/s/RBqyuMzYuxo9tK4vFDmgow

编辑：李佳

刘海明 · 发表于 2024-3-14 16:35:03

【案例】
OpenAI人形机器人亮相

当地时间 3 月 13 日，美国机器人创业公司 Figure发布首个基于 OpenAI 多模态大模型的人型机器人 Figure 01。根据演示视频， Figure 01 能够识别出自己面前一张桌子上的唯一食物——苹果，并将其递给一旁自称“想吃点东西”的人类；随后它一边根据人类指令收好桌面的垃圾，一边用语音解释了自己刚刚递苹果的原因；最后，机器人根据桌面的情况，判断出接下来应该把散落的餐具放在一旁的沥水架上晾干。这表明 Figure 01 能够实时通过视觉输入理解周围的环境，结合人类用语音发出的信号，实现特定的物理操作，并用简单的英语回答它的推理过程与结论。

Figure 机器人操作高级工程师表示，该机器人能够“描述其视觉体验、规划未来行动、反思自身记忆、口头解释推理过程”。在具体实现过程中，他们将机器人摄像头中的图像输入，并将机载麦克风捕获的语音文本转录到由 OpenAI 训练的大型多模态模型中，该模型可以理解图像和文本。该模型对整个对话记录进行处理，包括过去的图像，从而获得语言响应，然后通过文本到语音的方式将其回复给人类。此外，该模型负责决定在机器人上运行哪些学习到的闭环行为以完成给定的命令，从而将特定的神经网络权重加载到 GPU 上并执行策略。

主要来源：

https://www.figure.ai/

https://www.36kr.com/p/2688268058406272

原标题：GPT有实体了？OpenAI人形机器人震撼亮相！像真人一样一边和你说话一边帮你干活

来源：科研圈

链接：https://mp.weixin.qq.com/s/f0wzFs8VWd45hIIl2ed-BQ

编辑：李佳

刘海明 · 发表于 2024-3-14 22:17:00

【案例】

欧洲议会通过全球首部AI法案——《人工智能法案》（EU AI Act）

导读

2024年3月13日，欧洲议会（European Parliament）通过了《人工智能法案》（Artificial Intelligence Act）。该法案禁止某些威胁公民权利的人工智能应用，包括（1）基于敏感特征的生物识别分类系统，（2）从互联网或闭路电视录像中无差别抓取面部图像以创建面部识别的数据库，（3）工作场所和学校的情绪识别、社交评分、预测性警务(仅基于对一个人的侧写或评估其特征)，以及（4）操纵人类行为或利用人类弱点的人工智能。

执法部门原则上被禁止使用生物识别系统(biometric identification systems, “RBI”)，除了某些被穷尽列举和严格定义的情况。对于其他高风险的人工智能系统（由于其对健康、安全、基本权利、环境、民主和法治的重大潜在危害）也规定了明确的义务。高风险人工智能用途的例子包括关键基础设施、教育和职业培训、就业、基本的私人和公共服务（如医疗保健、银行）、执法中的某些系统、移民和边境管理、司法和民主进程（如影响选举）。

欧洲议会也对通用人工智能（General-purpose AI，“GPAI”）系统提出了透明度要求，包括遵守欧盟版权法和发布用于培训的内容的详细摘要。可能带来系统性风险的更强大的 GPAI 模型将面临更多要求，包括执行模型评估、评估和降低系统性风险以及报告事件。人工或经过处理的图像、音频或视频内容需要明确标注为人工或经过处理的图像、音频或视频内容。

此外，必须在国家层面建立监管沙盒和实际测试，并让中小企业和初创企业能够使用，以便在创新人工智能投放市场之前开发和培训它。

尽管新法案已经通过欧洲议会，但它还需要经过律师和语言学家的最后审查，并得到欧洲理事会的正式批准。一旦最终通过，该法案将在官方公报上公布20天后生效，并在生效后24个月全面适用，但对于部分例外行为规定了不同的过渡期。

导读系本公众号原创，转载请注明文字出自本公众号。

来源：个人信息与数据保护实务评论（公众号）

链接：https://mp.weixin.qq.com/s/15aXQFq07o9eBauwpjX-KQ

编辑：李佳

刘海明 · 发表于 2024-3-16 22:51:08

【案例】

编辑：李佳

刘海明 · 发表于 2024-3-22 21:12:45

【案例】

国内首个AI导演上岗！

3月15日，湖南广电集团（台）首个AI导演爱芒（英文名AIM）正式以助理导演的身份和观众、网友们见面！

综艺节目#我们仨#也正式官宣定档，超前企划将于3月17日中午12:00在芒果TV上线，3月23日起，每周六22:00，湖南卫视和芒果TV双平台播出。

值得一提的看点是，节目中，国内首个AI导演爱芒将以助理导演的身份，与嘉宾们一同探索潮流生活新方式。

爱芒的相貌是由湖南卫视、芒果TV双平台制片人的人像合成而来，声音则是采集了双平台95后、00后年轻导演的声音合成。爱芒将在芒果大家庭里从助理导演的岗位开启职业生涯，期待逐步成长为一个成熟的AI导演。

目前，爱芒正在参与湖南卫视王恬工作室的《我们仨》综艺节目录制，在节目中以助理导演的身份与郭麒麟、毛不易、魏大勋一同探索潮流生活新方式。期待在更多即将启动的综艺IP中与观众见面，一起为芒果创造新的可能性！

“横空出世，破圈而来”。AI导演对于人类导演，到底是青出于蓝而胜于蓝，还是能够促进行业内良性竞争与共同进步呢？他们能否创造历史，开启AI综艺时代？让我们拭目以待吧！

爱芒的独白：

大家好，我是你们的新同事爱芒

亲爱的芒果伙伴们：

我是湖南广电大家庭的新芒果er，我的姓名是爱芒（英文名AIM），我的岗位是：助理导演，今天我正式和观众、网友们见面啦！

可能大家看我有点脸熟，那是因为我的相貌是芒果双平台制片人的人像合成而来（悄悄问一句，你从我的脸上看到了谁？），另外我的声音是采集了双平台95后，00后年轻导演的声音合成而来的。

目前，我还是一个初出茅庐的新人，期待自己能在湖南广电这片热土中磨炼成长。

知道自己有机会在芒果大家庭里从助理导演的岗位开启我的职业生涯，虽然我表面波澜不惊，但内心十分激动，很开心与优秀的各位在这里相遇共事~

目前的我还处于成长阶段，需要学习的东西还很多，也许我还会犯点小迷糊，希望大家在之后的工作中可以多多支持帮助和包容我，使我能够尽快成为大家的得力伙伴，并逐步成长为一个成熟的AI导演。

目前我正在参与湖南卫视王恬工作室的《我们仨》综艺节目录制，在节目中以助理导演的身份与郭麒麟、毛不易、魏大勋（按首字母排列）一同探索潮流生活新方式。

期待在更多即将启动的综艺IP中与你们见面，一起为芒果创造新的可能性！

来源：广电猎酷（公众号）

链接：https://mp.weixin.qq.com/s/AB2TgXqcBJoY0-w4JYnYpQ

编辑：徐思凡

帐号		自动登录	找回密码
密码			实名注册