人工智能与新闻业案例集锦

刘海明 · 发表于 2024-3-1 21:46:42

Sora 发布两周后，关于 Sora 的一些冷思考

Pika 是前菜，Sora 才是主菜。

作者丨王悦

编辑丨陈彩娴

两周前的今天，北京时间 2 月 16 日，OpenAI、谷歌、Meta、Stability 都在这一时间节点前后发布文生视频模型成果，但只有 OpenAI 的 Sora 在这场角逐中破圈而出，成功抢占全球的注意力。可以说，Sora 打响了文生视频大模型行业 2024 年的第一炮。

面对 Sora 着实优异的视频生成效果，短时间内 AIGC行业内掀起一轮又一轮讨论，一方面，没人想到 OpenAI 的动作如此之快，令人激动兴奋的同时也来不及招架，另一方面，也都在为其 “60秒超长长度”、“单视频多角度镜头”和“世界模型”的等炸裂的效果震惊，并声称会迎来行业洗牌。

在对于 Sora 的各种争论、预判热火朝天、此起彼伏的时候，AI 科技评论反观从最初的 Disco Diffusion 再到 Stable Diffusion 出现的过程，并和行业内的投资人、技术专家、学术大咖、AIGC创业者等数十位行业人士做出了关于 Sora 的冷思考。

从长期的角度来看，不可否认 Sora 是文生视频大模型的里程碑事件，标志着视频生成能力上升到新高度。但一些业内人士也指出，“大家要清醒”，Sora 的冲击也没有想象中那么大，不会对影视、广告、内容创作等领域产生立竿见影的颠覆性影响，也不一定会断了 AIGC 创业者的后路。

Sora 发布两周之际，此时更需要的不是热捧，而是降温。Sora 的影响，不急于在当下就说完道尽，更需要在接下来 1—3 年的时间中且行且看。

1

Sora 技术不无探索空间

Pika 火爆之时，香港大学计算机教授徐东老师称其是文生视频行业的曙光——让世界看到了文生视频的惊艳效果，但同时也意识到，Pika 只是先跑出来的那个，它离大规模的用户付费还有一段距离。

而 Sora 的出现，徐东教授则评价其是一个“极大的 breakthrough（突破）”，它不是一个简单的从 ChatGPT-3.0 到 ChatGPT-4.5 的迭代，而是对之前视觉模型的一次降维打击。

60 秒的视频长度，让其他文生视频产品望尘莫及 Sora 。但其实，跳出生成长度的考量要素，生成速度也是考量文生视频大模型的关键指标。

一个 60 秒的、效果惊艳的 AI 视频，其背后的生成时间是十分钟还是一个小时，对使用者来说是截然不同的体验。如果生成时长在 60 秒以内，就又会是另一番惊人的效果。

面对未来视频生成低时延的要求，背后算力的支持情况是最根本的基础。预计通过什么方式能够高效调用算力去满足庞大的需求量，这些是 Sora 等文生视频模型可以探索的空间之一。

解决生成时长的一系列问题，除了算力之外，石榴科技创始人 Frank 认为背后技术的解决方案也是关键影响因素之一。因为 Sora 底层是一个扩散模型，如果模型本身有一些限制导致处理的速度达不到，那生成的时间确实快不了，即使算力再强也用不上。

除了生成视频的 60 秒时长外，世界模型也是 Sora 带给人们打开的新视野。从世界模型的技术起源来说，Sora 目前的做法和杨立昆最开始提出的是不一样的。Yann LeCun更强调在空间中去做规则表达的理解，即能不能直接在这个模型中找到被清晰定义的某个对象的表达。

Sora 显然和这种做法是不同的，他们走了“大力出奇迹”的路子。用基于 Transformer 的 Diffusion 去压缩，这仍然是一个数据驱动生成式的基本方法。

在这一过程中能否真正地去反推归纳出中间学习到的物理规律，动漫生成「捏Ta」产品创始人胡修涵表示这仍然需要被打一个问号。如果相信 OpenAI 的哲学就是“Scaling is everything”，之后可能会随着规模的扩大，压缩效能越来越强，模型就被迫学会和总结到了所有的物理规律，但是基于现在的模型规模和效能，还不能直接得出 Sora 是世界模型的结论。

Frank 持有同样的观点，并补充道不仅要从物理的意义上来看，也需要从非物理的角度去思考。作为一个世界模型，更需要考虑到社会中的「人情规律」。就像当一个小宝宝手里的东西被抢走后，Sora 是否能成功地预测出来宝宝会哭——所以世界模型除了符合物理规律的演进以外，也需要更进一步地满足日常生活当中的场景和判断。

而这种社会意义上的信息，大部分都不是通过文字和语音来表达的，背后仍然要探索文生视频模型怎样才能理解、生成到位。为了实现这一效果，Frank 认为则需要建立表面文字和其背后潜台词之间的对应连接关系。

基于 OpenAI 冰山一角之下的海量数据和一定连接关系的建立，GPT-4 已经展现出它对于人类潜台词、双关语句等很多复杂内容的理解率是非常高的，表现得很聪明。

Sora 也同样值得期待，看它是否能有更多的联想，提示一句话，就能理解背后的 10 句话，然后用 10 句话来去完成一个更好的作品。

但现阶段的视觉模型 Sora 又不同于之前的大语言模型。在 OpenAI 成立的早期，大部分的研究成果都是开源的，甚至数据库也是放出来开源的。但是现在已经不再是开源的， Sora 的技术报告只对外讲了很宏观的框架，剩下的都需要同赛道公司自己去探索。

徐东教授认为 OpenAI 的闭源，使得追赶探索 OpenAI 成果的工作变得很难。但从社会宏观的侧面出发，国内是有必要追赶 Sora 的。

一方面，诸如游戏或其他涉及商业机密的行业跑在 OpenAI 的底层技术上并不是很合适。另一方面，文生视频技术的攻防问题也是更重要的侧面。因为 Sora 这套技术会很容易地生成大量的虚假视频，之后可能会被别有用心者用来散播一些虚假视频或价值观不正确的视频以引导舆论。面对这样的情况，如果都不知道对手是怎么进攻的，那也很难防守。

从应用的方面来讲，国内对于文生视频的需求是很旺盛的，不能都翻墙去用 OpenAI 的产品。

追赶 Sora 这是一件长期的事，也需要更多的社会资源倾斜进来扶持人才，人才是这场新的 AI 竞争的核心。

目前，港大的罗平教授带领学生们正一点点摸索文生视频，在几乎没有卡的情况下，研究出来跟 Sora 最像的技术路线。

在 Sora 冲击下的 AI 竞争格局中，做产品应用是一个更安全的方式，国内同样也需要深耕追赶技术的公司。因为无论做任何产品，如果技术底座不坚实，又没人开源，好产品是很难问世的。况且，在 Sora 的基础上做应用，如果 Sora 卖得很贵的话，那么产品的意义也不会很大。

2

内容生态不会被轻易撼动

Sora 强悍的内容生成能力，最先冲击到的就是和视频相关的内容产业。

Sora 的出现的确会让一些大厂紧张，比如以字节剪映为代表的智能剪辑工具。某大厂内部人士透露，Sora 对视频的冲击确实挺大的，内部还没有太想清楚这个事具体要怎么玩。

徐东教授认为，剪映作为一种剪辑工具是成熟的产品，且技术特点没那么强，在有擅长工程化、产品化人才的情况下，Sora 也可能做出来。而文生视频的技术则是重磅功能，剪映如果没有办法很好地提高质量服务，很可能在 Sora 积累到足够的用户量之后被降维打击。

但如果剪映自己做得好，智能生成能力会成为核心创作流程中核心的步骤。如果剪映不这么做，那么剪映的意义长期来看肯定是会被消磨掉很大一部分。

在 Sora 和抖音等内容生成平台的关系上，胡修涵认为 Sora 不会是去直接取代抖音生态位，因为单纯的 AIGC 并不能取代分发价值。而 Sora 不应该是一个素材提供框架，更加是个模板生产器，如果 Sora 的智能得到很好的运用，它会变成一个更强的模板格式，而不会构成中间的每段素材。

但完全由 AI 生成的虚假视频内容，是会对平台的内容产生影响。前快手全景视频业务负责人、英俊文化联合创始人马英武表示，相比较于流量处于二线位置的内容平台，Sora 更多地会冲击一线位置的内容平台，甚至对二线位置的内容平台来讲，是一个个锦上添花的一个事情，因为以前还会考虑，内容生产端端供给不足，现在 AI 内容能够让生产从数量和质量上丰富起来。

对于像抖音、快手这样流量较高的平台，Sora 带来的 AI 内容充斥进去之后，对平台首先的考验就是能否把流量精准分配到最好的内容上，这对技术和算力都是一个挑战。

如何平衡真实内容和 AI 内容的关系是需要面临的问题。平衡不好的话就会面临原本优质创作者的流失问题，因为他们没有得到足够播放量的正反馈就会选择「出走」，或者创作者也会降低他们内容生产的质量，比如，原本一条视频有 100 万播放量，创作者会按照 100 万播放量的要求做好内容，但 AI 内容分走蛋糕后，播放量只有1万了。创作者就会抱着「随便做做」的心态应付内容，降低标准，不断形成恶性循环。

根据抖音快手的用户协议，目前都会有一条就是禁止使用 AIGC 相关的工具去批量生产视频内容，或者也会要求对AI内容进行显著标记以示提醒。平台也会防止 Sora 这类工具生产的 AI 内容去破坏原有的内容逻辑。

除此之外，Sora 对以 PGC 为主的长视频生产和以 UGC 为主的短视频生产的冲击也是不一样的。

虽然 Sora 还没有完全出来，行业内都在预测其价格应该很贵。对于 UGC 而言，制作 1 分钟以内的短视频价格都是很高的。甚至马英武调侃道，根据对创作者的了解，国内内容创作者的付费意识较低，除非 Sora 特别便宜到用一次一块钱，否则就很难以被广泛接受，因为创作者制作一条视频有时甚至是零收入。

对于 PGC 的长视频而言，如何能保证主体的一致性、稳定性、持续性，都尚未可知。而影视行业又有很强的头部效应，这也是长视频的逻辑，只有长视频的效果做到最头部的位置，才能在院线里拿到最好的排片。如果做了一个内容不是很抗打的二三线的长视频，那么虽然也能进院线，但是营收也不会太好。

所以长视频是要向着冲击最顶部的方向去，做二三线的视频意义不大，而AI视频是否能做到一线这对 Sora 来说是很大的考验。

Sora 更多的还是对视频生产链路产生变革。Frank 向 AI 科技评论透露，当下文生视频工具的角色更像是在原本的工作流程中，能够用 AI 的部分都用 AI 来做。但它也只是一个生产工具，需要有人来去创业的。策划、编导、脚本语言、拍摄这样一个工作流中，Sora 只会对后两者产生一定的替代作用，但不会替代前两者。

Sora 也可以运用在时下火爆的短剧制作中。Sora 具备生成一分钟视频的能力，已经足够做一集内容了，这样就可以纯原创，可以实现纯足不出户拍短剧，成本又极大降低。

但即便是 Sora 能出来，并且效果极好，也不是谁都能拍短剧。Sora 更多的只是工具，降本增效，无法取代能力和创造力。就像咪蒙无论有没有 Sora，他都会火。也如同现在的 ChatGPT 已经很完善，但鲜少有人通过用 ChatGPT 写出 10 万加的超级爆款。

过去会有一些编剧或其他创造能力很强的人，他们的内容足够好，只不过受制于生产力，他们没办法那么高产，这样Sora可以极大程度缓解他们的痛点。但是对于普通人而言，拍出流量和关注度高的短视频，门槛是极高的。

综上，Sora 出现之后，创意点、创造力、创新性的重要性不会变，对内容的思考和理解也是不会变的。Sora 其实无法去撼动那些本来就是靠优质内容为生的部分。

在短期的 1-3 年内，Sora 带来的不变会大于改变。就像在影视娱乐、短视频的行业中，原本的工作流和行业知识依然非常重要。

3

创业者不无机会

「Pika、Runway 这样的文生视频初创公司该怎么办？」这是 Sora 出来后，行业内人士不约而同会发出的疑问。

的确，基于一个已有的、很明显是过时的技术框架直接扩张用户数量的公司，现在确实处于危险的位置。

因为在这个过程中，不仅围绕着上一代、不成熟的技术框架做了很多工程适配、产品验证、画蛇添足的设计，同时产出的结果要迁移到新的过程中，还会一定程度上牺牲老用户的利益，也会让整体的迁移过程像在飞行的飞机上换引擎一样痛苦。

但于 Pika 而言，它和 OpenAI 一样都是微软系公司，两者其实是一个阵营。有行业内人士判断，Pika 在一定程度上更像是一个排头兵或者是试验田，当然 Pika 之中有很好的技术，用他们先来呈现，以获得反馈。而之后 OpenAI 的 Sora 才是更重磅的，是要经受更多考验的产品。

至于 OpenAI 和其他生存下来的 AIGC 公司的关系，现在一超多强的局势初步呈现，还很难看到终局。Frank 表示，可以确定的一点是，使用者靠近 OpenAI，创业者远离 OpenAI 。

和 OpenAI 的业务主体技术保持一定安全距离，和他能够辐射到的市场需求保持一定空间，这个空间需得是它作为一个超级应用的大公司还暂时触及不了的，而在这些领域是可以形成业务纵深，知道自己的生存缝隙，比如 AI 教育、AI 电商。

出现这些机会的背后，定然是市场和技术的结合，也是国外公司必然触达不了的角落，国内的互联网产品比国外做得更精细、更强、更适配、更好用，更能满足我们中国人自己的需求。这样相比之下，国外产品的竞争力会降低。

如果是把 OpenAI 或者其它大模型作为一个超级底座的话，在此基础上更进一步的细化对具体的技术和业务理解会更重要。去做某一类人群、或者说特定垂类上的内容需求，都是有价值的。

胡修涵举例说，面向电商的营销场景的内容生成，都是值得单独做的事情，但是在大块的垂类场景的之上，它也不会是一个切得过于细碎的区块。比如，不能为一个剪映模板能做出来的视频，专门去训一个模型创业，这就违背了通用人工智能的基本逻辑。

本质上来讲，现在 AIGC 产品的母模型都是大语言模型，也可以理解成，大模型在更大程度上是一个概率抽样器，所以它会基于给定的条件，输出一个平均的结果。一旦在一个确定的领域上深耕，需要模型输出的往往是小概率、反共识、反常规的一些结果，这一部分就需要做单独的适配才能更符合这部分用户的习惯，这也是 AIGC 创业者的机会所在。

当下，对于人才密度不够的创业团队而言，重做技术的风险很大，马英武认为此时的机会反而在于做用户运营。在 Sora 上搭建一套新的工具栏，「做皮不做瓤」，基于这样的模式去做工具运营，生产的内容也可以留存到自己的平台，如果这时候能有一个消费平台，就可以做出从生产到消费的自闭环。

在这个过程中，技术虽然是属于 Sora ，但用户、内容、渠道都属于创业者，未来这种中小型平台诞生的可能性非常大。

Sora 冲击之下，无论是做技术还是做产品，都需要有一些原生的、开拓性的思考、积累、预判、坚持，如果单纯地亦步亦趋则前路渺茫。

来源：AI科技评论（公众号）
链接：https://mp.weixin.qq.com/s/Zqs8hvTLPOZrE6K9s1Bisw
编辑：李梦瑶

刘海明 · 发表于 2024-3-1 23:34:43

人工智能传播：病毒还是解药

去年讨论ChatGPT时，笔者曾经推测，如果没有意外的话，一年后，或者更短时间，将会有新的技术热点替代它，就像元宇宙替代区块链、ChatGPT替代元宇宙一样。新技术一如耀眼明星光芒四射，而被替代的技术则黯然退场，被资本、政策和研究者弃之如敝屐。Sora的登场，一时惊艳了四座，人工智能生成从文字、图片跨越到了视频，好像输入一本小说，就能产出一部影视剧，这运算能力和智能化程度，确实让人叹为观止。

不过，回到技术与人类的关系来看，Sora作为人工智能传播的新地标究竟是病毒还是解药，似乎难以确认，通常的表述会是打开了一个新的“潘多拉的盒子”。好奇心是人类进步永不枯竭的源泉，激励着创新不断涌现。但另外一面，好奇害死猫，如果技术创新是病毒，则不如抑制一下好奇心；唯有技术创新致力于成为医治人类社会顽疾的解药，这样的技术创新才值得我们为之欢呼。当然，技术创新未必都会自觉如此。例如，互联网诞生于冷战时期的军事对抗，到今天却成为世界对话与交流的网络，甚至成为当代社会生活的基础设施。这也是技术发明者所始料不及的。

引发笔者将新技术类比为新病毒还缘于一种技术观察的现实。新病毒的出现往往是断裂式的，例如2003年的非典和刚过去的新冠肺炎大流行。新型病毒突如其来的入侵，让既有医疗技术束手无策，没有特效药，也没有针对性的疫苗，只能被迫另起炉灶，针对新病毒启动定向的研发，以遏制病毒的肆虐。让笔者将新技术定性为一种新病毒的假想，缘于社会对新技术的态度和对待新病毒的态度如出一辙：永远关注最新的，而对被更迭的技术先驱似乎存在[color=var(--weui-LINK)][url=]健忘症[/url]。假若新技术具有新病毒的特性，这“病毒”就成了人类自己投放给自己的“[color=var(--weui-LINK)][url=]毒丸[/url]”，而不是大自然演化强加给人类的各种病毒。如果这样的逻辑真能够成立，人类可真是病入膏肓了，只能不断通过导入病毒激起活力，颇有“垂死梦中惊坐起，笑问客从何处来”的荒诞。

按照最为质朴的逻辑，新技术的诞生，应该是医治人类社会顽疾的解药。就新传播技术的演化来看，自然是致力于促进人与人之间、人与社会之间更有效的交流沟通，以促进多元观念之间形成建设性关系，推动更高程度的社会共识达成。共识何以重要？因为只有共识程度越高的社会问题解决方案才会越有效。如果一个社会缺乏足够程度的共识，将会面临分崩离析的风险，日益陷入到连绵不绝的摩擦与冲突之中。此外，深度媒介化社会的不断发育也从另外一个层面证实了媒介沟通对于社会发展的重要性正被日益凸显。互联网刚刚登场时刻，人们之所以为之喝彩、为之欢呼，其实不外乎它给人们提供了更多交流沟通的希望。

如果我们视技术为社会演化的独立参与要素，技术则需要遵循“解药”的创新伦理。具体到新传播技术而言，技术创新需要回到解决人与社会沟通交流的问题主线上来，才能确保我们对技术创新的关注不是断裂式的、病毒式的，而是有着明晰而有力的逻辑主线。以此来评价过去30多年互联网技术的发展，我们会发现在新技术不断更迭的表象下，人类沟通交流的状况似乎并没有得到有效改善，信息茧房、群体极化与后真相时代的诸多标签成为我们体察时代问题的共识。这样的结论显得有些尴尬，在无数次为新技术的英明神武而欢呼后，我们却似乎只收获了一地鸡毛。很显然，对新技术过于乐观的判断是武断的，还需要在基于“病毒”框架开展观察而获得的切片式的结论之外追问“解药”的逻辑。当我们把诸多“切片”叠加在一起，或许能看得另外的一种结果。如果我们继续以“病毒”逻辑进行断裂的、孤立的研究，“东边日头西边雨”的热闹过后，其实还是很难为解决社会交流问题找到“解药”。

来源：新闻大学（公众号）
链接：https://mp.weixin.qq.com/s/aMjtW4iYFvvsnQRLGFtC7g
编辑：李梦瑶

刘海明 · 发表于 2024-3-2 21:27:48

马斯克起诉OpenAI 欢迎AI来到真实世界

周末，全球科技界又爆猛料：OpenA被告上法庭了，起诉者还是前联合创始人马斯克。

当地时间2月29日晚间，特斯拉CEO埃隆·马斯克（Elon Musk）向旧金山高等法院提起诉讼.

马斯克在诉讼中表示，奥特曼和OpenAI违背了这家AI研究公司成立时达成的一项协议，即开发技术以造福人类而不是利润。马斯克声称OpenAI最近与科技巨头微软的关系损害了该公司最初致力于公共、开源的通用人工智能（AGI）的目标。

法院文件显示，马斯克对OpenAI提出了包括违约、违反信托义务和不公平商业行为在内的指控，并要求该公司恢复开源。

马斯克还要求法院下达禁令，禁止OpenAI、其总裁格雷戈里·布罗克曼和奥特曼（此案的共同被告）以及微软从该公司的人工通用智能技术中获利。

马斯克指出，OpenAI与微软的合作关系，尤其是对最新GPT-4模型的闭源处理，显然与其公开、共享的承诺相悖。

他强调，这种闭源策略不仅阻碍了科研进步，更是将原本应服务于公共福祉的技术变成了商业巨头追求利润的工具。马斯克认为，OpenAI此举明显违背了双方初始协议，从而构成了违约行为。

①

马斯克起诉OpenAI，要求其全面开源，对于大洋彼岸的我们而言，是支持还是反对？

从国内企业的角度来看，如果OpenAI全面开源，就可以低成本、快捷地“弯道超车“，当下轰轰烈烈的”百模（大模型）大战“，可以省下多少投入呀。

但有一说一，马斯克在诉讼中诉求禁止OpenAI、布罗克曼、奥特曼及微软从AGI技术中获利的行为，有些自相矛盾。

毕竟，特斯拉自身也在不断推进自动驾驶等前沿AI技术的研发和应用，这其中同样蕴含着巨大的商业价值。

或许，马斯克发起这次诉讼，还有一个原因是他不喜欢微软和比尔盖茨。

微软是一家坚持闭源模式的企业。微软在20世纪90年代至21世纪初，凭借Windows操作系统和Office办公软件等闭源产品在全球范围内占据主导地位，它对开源软件持强烈反对态度，特别是Linux被视为对其商业模式的威胁。

比尔·盖茨在1998年的备忘录中将开源视为对知识产权的威胁，更是引发了一场关于软件开发模式的大讨论。

除了闭源与开源主义之争，马斯克和比尔盖茨还有不少私人恩怨。

②

此前，马斯克对比尔·盖茨在自动驾驶技术方面的看法有所不满。马斯克积极推动特斯拉在自动驾驶领域的研发，而据报道，比尔·盖茨在相关评论中表达了对比特斯拉Autopilot等现有自动驾驶系统的保守态度，认为这些系统距离真正的全自动驾驶还有较大差距。马斯克因此在社交媒体上发表意见，甚至嘲讽比尔·盖茨在这方面不够前卫或者“土”。

在2022年，马斯克计划收购社交媒体平台推特的过程中，比尔·盖茨对此持反对态度，去年12月，盖茨批评马斯克：凭直觉做决策致推特混乱，加剧数字两极分化。，

马斯克和比尔·盖茨在电动车行业的投资和信念也有所不同。2022年，当时盖茨做空了特斯拉股票，押注特斯拉股价会下跌。这一举动让马斯克感到非常愤怒。

③

当然，此次诉讼的背后，肯定不是一诉解恩仇那么直白。坦率说，马斯克是一个公关大师，尤其是当他意识到[color=var(--weui-LINK)][url=]生成式[/url][color=var(--weui-LINK)][url=]AI[/url]所带来的技术和市场价值后，很快宣布 xAI 公司正式成立，虽然口号仍是高大上的““了解宇宙的真实本质”，但打造一家能够与微软、谷歌抗衡的第三大人工智能(AI)公司，才是他的真实想法。

因此，马斯克利用此次诉讼，试图拖住OpenAI及背后的微软，也就顺理成章了。

以上都是我的个人猜测，马斯克此次起诉，或许就是要站在AI如何更好服务人类的大局，高举开源的正义之旗，坚决打击奥特曼、比尔盖茨等一小撮保守主义者自私自利的闭源行为。

④

回到此次诉讼的开源与闭源、公益与营利之争，看似矛盾的道德命题，实则是科技进步过程中必须审慎权衡的现实议题。

开源与闭源，这两个概念出现在软件领域。。在20世纪50年代和60年代，软件主要是作为硬件的一部分附带提供的，很少单独销售，那时并没有明确的开源或闭源概念。

开源软件作为一种明确的开发模式和哲学，则相对较晚出现。开源运动的起源可以追溯到1970年代和80年代，当时出现了Unix操作系统及其衍生品。

但“开源”这一词汇直到1998年才被正式提出，当年，开源倡议者布鲁斯·佩伦斯（Bruce Perens）和埃里克·雷蒙德（Eric S. Raymond）等人为推广自由软件运动，提出了“开源”这一更容易被商业世界接受的概念，以替代“自由软件”一词，同年成立了开源促进会（Open Source Initiative, OSI），制定了开源定义并开始认证开源许可协议。

科技界的“开源模式“倡导分享、透明、合作和开放创新的理念。开源软件意味着源代码可供公众查看、使用、复制、修改和分发，无需支付版权费用。开源软件强调的是知识共享、社区驱动、集体智慧的积累和升华，以及对技术民主化的追求。

“开源主义“使得任何人都可以参与到开源项目中，这意味着更多的头脑、更多的创新想法得以汇集，大大加快了软件的创新和发展速度。

同时，开源软件便于学习和教学，有助于培养新一代开发者，也有利于新手快速熟悉实际项目开发流程。

此外，开源促进了技术标准的制定和应用，有利于不同系统间的协同工作

然而，“开源模式“并非完美。开源软件的商业模式较为复杂，难以单纯依靠售卖软件获取收入，可能导致开发者难以得到充足的经济回报。

尽管开源理论上可以吸引大量贡献者，但缺乏有效的管理和质量控制可能导致代码质量和用户体验参差不齐。常用安卓手机的用户，对此深有体会。

⑤

相比之下，闭源模式属于“古典知识产权模式“，强调的是知识产权保护、独家所有权和商业模式的稳定性。开发商通过拥有源代码的独家使用权，来保护投资、确保收益和维持竞争优势。

对于开发者而言，闭源软件可通过销售授权许可获得直接收益，激励开发者和企业投入更多资源进行研发和维护。还能保护核心技术不受竞争对手抄袭，维护企业的竞争优势和市场地位。

当然，支持闭源模式的开发方往往还称，通过严格的内部质量管理，闭源软件在产品质量、一致性和服务支持上有更高的标准。苹果ios系统就是典型。

但开源主义者对闭源模式的质疑，就如马斯克所说，闭源可能导致技术垄断，不利于市场竞争和新技术的普及应用。

由此，开源和闭源，被演绎成了技术垄断与反垄断。

⑥

其实，无论是中国还是美国，AI领域的开源与闭源模式众多，除了谷歌和苹果外，两派阵营都不乏大量知名企业。

比如，Facebook的AI研究团队开发的开源机器学习库PyTorch，以其动态计算图和易于使用的API著称，被广泛应用于深度学习研究和生产环境。

亚马逊AWS赞助的开源深度学习框架[color=var(--weui-LINK)][url=]MXNet[/url]，以其高效和灵活性获得了广泛的关注和支持。

在闭源模式中，除了被马斯克起诉“开源不彻底“的OpenAI外，DeepMind的Alpha系列AI系统（如击败围棋世界冠军的AlphaGo、星际争霸II AI AlphaStar以及蛋白质结构预测的AlphaFold）虽然在科学界引起了轰动，但其核心技术与算法细节并未公开

在国内，华为曾表示其盘古大模型不会开源，以保护商业利益和技术优势，这类大型预训练模型主要用于内部研发和商业化应用。

商汤等专注于计算机视觉和深度学习应用的AI公司，其核心算法和模型往往是闭源的，以保护知识产权和维持技术领先地位。

⑦

说回马斯克，在特斯拉电动汽车技术方面。2014年，特斯拉决定开放其电动车相关的专利技术，鼓励其他汽车制造商使用特斯拉的专利，以加速全球电动汽车产业的发展。

马斯克认为，通过这种方式可以促进整个行业的进步，并加快向可持续能源的转型。

然而，在其他场合或项目中，马斯克的企业并没有始终坚持开源策略。马斯克旗下的SpaceX 和 Neuralink 公司，其技术和研究成果往往并未对外完全开放源代码或详细设计。

SpaceX 在航天器和火箭方面的技术和设计是高度保密的，属于典型的闭源商业秘密，而 Neuralink 在脑机接口技术方面也没有采取开源策略。

可见，马斯克的众多创新项目中，并非所有技术和成果都坚持开源。为啥马斯克言必称开源，甚至为此OpenAI和奥特曼，自家企业却没有做到百分百的知行合一呢？

首先，相较于传统软件开发，这些新兴产业的投资规模与技术研发难度不是一个量级，过早的开源或许如同揠苗助长。

以OpenAI为例，其在GPT-3模型的研发上耗费巨资，据估计仅训练费用就高达数千万美元，且不包括前期的研发投入和后期的服务器运维成本。

印度新闻媒体平台Analytics India Magazine2023年的一份报告称， OpenAI可能在2024年底破产。报告称，OpenAI仅运行其人工智能服务ChatGPT每天就要花费约70万美元。

报告称，自从其开始开发ChatGPT以来，其亏损额在5月份翻了一番，达到了5.4亿美元。微软对OpenAI投资了100亿美元，这可能是目前支撑该公司运行的原因。

这就是OpenAI选择闭源模式的原因。在尚未回收成本、确立商业模式之前便匆忙开源，很可能造成巨额投资瞬间贬值，挫伤投资者信心，遏制进一步的创新投入。

⑧

此外，马斯克还忽略了一个不宜道明的因素。

人工智能不仅仅是科技，其战略价值不容小觑。它关乎国家安全、社会秩序乃至全球科技竞争格局。过早开源可能将关键技术拱手让人。就如同高精尖武器的研发一般，人工智能领域的核心技术也存在着一定的保密必要性。

OpenAI彻底开源，美国政府还未必开心呢。

同样，在太空科技领域，马斯克的星链计划也体现了这一点。

该项目总投资预计超过百亿美元，涉及卫星制造、发射、地面站建设以及运营管理等环节，每个环节都是高科技密集型且充满挑战。

倘若在技术成熟前就将核心技术开源，可能会加速竞争对手的追赶速度，甚至造成自身在商业竞争中的劣势。

去年，就曾有美国议员提议拜登政府要采取行动，限制美国企业参与合作研发在中国广泛使用的RISC-V开源技术。

可见，对于人工智能和星链等新兴科技产业，开源与否并非简单的二元选择，而是关乎产业发展策略、创新动力维护以及国家安全等多重考量。

⑼

针对马斯克的此次起诉，我其实很想问ChatGPT：你怎么看马斯克给你上的“这一课“？

这其实也是一个挺有意思的话题：随着生成式AI越来越聪明，各国都在讨论：AI何时会取代人类？

尽管现代生成式人工智能系统如GPT系列不断刷新我们对其智慧的认知边界，在模拟人类思维的深度与广度上仍存在着明显的局限性。尤其当涉及到“赚钱”这一人类经济活动的核心概念，或是复杂的政治运作机制时，AI尚无法像人一样完全理解和参与其中。

这就揭示了一个至关重要的现实——即便机器智能日益精进，对于人类社会那些错综复杂、充满动态适应性的要素，AI的理解与运用依然面临着难以逾越的鸿沟。

“赚钱”，这一看似简单的词汇背后蕴藏着深邃的社会经济学原理、市场策略以及个人价值观的交融。它涉及创新、竞争、合作、风险评估等诸多因素，而这每一个环节都需要对人性有深刻洞察及灵活应对的能力。

生成式AI虽然可以模拟预测市场走势，甚至编写投资策略，但在面对市场经济中的非线性关系、黑天鹅事件及社会心理等因素时，其理解与决策能力却远不及经验丰富的人类。

在政治领域，权力运作、外交博弈、政策制定与执行等均要求具备深厚的文化底蕴、历史观照、伦理考量和人际互动技巧。政治不仅仅是逻辑推演与数据分析，更是情感动员、价值塑造和战略预判的交织。

当下最尖端的AI虽能辅助政策分析、舆情监控，但在真正理解和实践政治智慧方面，仍无法替代人类的独特判断与创造性解决问题的能力。

AI能编程，能绘画，能创作文字、音乐和视频，但这远远不够，AI还要学会懂人性，知世故。这方面，它需要学习的还有很多。这次诉讼，就是让AI来到真实的人类世界，感受代码无法解释的种种奥妙。

来源：评论员毕舸（公众号）
链接：https://mp.weixin.qq.com/s/f1oXlLgUeVlTQgR_lsXGIQ
编辑：李梦瑶

刘海明 · 发表于 2024-3-2 21:47:15

马斯克起诉OpenAI及其首席执行官萨姆·奥尔特曼

2024-03-02 07:23·湖南日报

当地时间3月1日，据路透社报道，埃隆·马斯克 (Elon Musk) 于29日晚起诉ChatGPT制造商OpenAI及其首席执行官萨姆·奥尔特曼 (Sam Altman) 等人，称其违背了该公司最初的使命，即为人类福祉而非利润开发人工智能。诉讼还提到，该公司一直将其最先进的人工智能模型GPT-4的设计“完全保密”。

据悉，奥尔特曼和OpenAI联合创始人格雷格·布罗克曼 (Greg Brockman) 最初与马斯克接洽，希望成立一家开源非营利公司。

来源：湖南日报
链接：https://www.toutiao.com/article/ ... t&wid=1709387161600
编辑：李梦瑶

刘海明 · 发表于 2024-3-3 21:20:41

大视频模型是世界模型？DeepMind/UC伯克利华人一作：预测下一帧就能改变世界

新智元新智元 2024-03-03 12:47 北京

新智元报道
编辑：润好困【新智元导读】谷歌DeepMind、UC伯克利和MIT的研究人员认为，如果用大语言模型的思路来做大视频模型，能解决很多语言模型不擅长的问题，可能能更进一步接近世界模型。

没人怀疑，OpenAI开年推出的史诗巨作Sora，将改变视频相关领域的内容生态。

但Google DeepMind、UC伯克利和MIT的研究人员更进一步，在他们眼里，「大视频模型」也许能够像世界模型一样，真正的做到理解我们身处的这个世界。

论文地址：https://arxiv.org/abs/2402.17139

在作者看来，视频生成将彻底改变物理世界的决策，就像语言模型如何改变数字世界一样。

研究人员认为，与文本类似，视频可以作为一个统一的接口，吸收互联网知识并表征不同的任务。

例如，经典的计算机视觉任务可以被视为下一代帧生成任务（next-frame generation task）。

模型可以通过生成操作视频（例如「如何制作寿司」）来回答人们的问题，这可能比文本响应更直观。视觉和算法推理也可以作为下一帧/视频生成任务。

视频也可以统一不同实体（embodiment）的观察空间（observation space），因此可以使用单个视频生成模型为不同机器人生成视觉执行计划：

而且就像谷歌刚刚发布的世界生成模型Genie一样，视频生成也是复杂游戏的真实模拟器，可以与基于模型的规划相结合，或者用于创建游戏。生成视频模拟器对于优化科学和工程领域的控制输入也很有用，在这些领域可以收集大量视频数据，但底层的物理动力学很难明确表达（例如，云运动、与软物体的交互）。

预测下一帧，会像预测下一个字那样改变世界

过去几年，从互联网文本数据集训练大语言模型（LLMs）的工作取得了巨大进展。

LLM在各种任务上的出色表现让人不禁想把人工智能的议程缩减为扩大这些系统的规模。然而，大语言模型上取得的突破似乎也开始面临了很多的局限。首先，可公开获取的文本数据的数量正变得越来越大。这将成为进一步扩展的瓶颈。其次，也许更重要的是，仅靠自然语言可能不足以描述所有智能行为，也无法捕捉我们所处物理世界的所有信息（例如，想象一下仅用语言教人如何打结）。虽然语言是描述高层次抽象概念的强大工具，但它并不总是足以捕捉物理世界的所有细节。值得庆幸的是，互联网上有丰富的视频数据，仅YouTube上就有超过一万年的连续视频内容，其中包含了大量关于世界的知识信息。然而，今天在互联网文本或视频数据上训练出来的机器学习模型却表现出了截然不同的能力。LLMs 已经能够处理需要复杂推理、工具使用和决策制定的复杂任务。相比之下，视频生成模型的探索较少，主要集中在创建供人类消费的娱乐视频。鉴于语言建模领域正在发生的范式转变，研究人员提出这样一个问题：我们能否将视频生成模型提升到与语言模型类似的自主代理、模拟环境和计算引擎的水平，从而使机器人、自动驾驶和科学等需要视觉模式的应用能够更直接地受益于互联网视觉知识和预训练视频模型。研究人员认为视频生成对于物理世界的意义就如同语言模型对于数字世界的意义。为了得出这一观点，我们首先确定了使语言模型能够解决许多现实世界任务的关键组成部分：(1) 能够从互联网吸收广泛信息的统一表示法（即文本）、(2) 统一的接口（即文本生成），通过它可以将不同的任务表达为生成建模，以及(3) 语言模型能与外部环境（如人类、工具和其他模型）交互，根据外部反馈采取相应行动和优化决策，如通过人类反馈强化学习、规划、搜索（姚等人，2023 年）和优化等技术。从语言模型的这三个方面出发，研究人员发现：(1) 视频可以作为一种统一的表征，吸收物理世界的广泛信息；(2) 视频生成模型可以表达或支持计算机视觉、嵌入式人工智能和科学领域的各种任务；(3) 视频生成作为一种预训练目标，为大型视觉模型、行为模型和世界模型引入了互联网规模的监督，从而可以提取动作、模拟环境交互和优化决策。为了进一步说明视频生成如何对现实世界的应用产生深远影响，他们深入分析通过指令调整、上下文学习、规划和强化学习（RL）等技术，在游戏、机器人、自动驾驶和科学等领域将视频生成用作任务求解器、问题解答、策略/代理和环境模拟器。

视频生成的前提设置

研究人员将视频片段表示为一系列图像帧 x = (x 0 , ..., x t )。图像本身可被视为具有单帧 x = (x 0 , ) 的特殊视频。条件视频生成模型是条件概率 p(x|c)，其中 c 是条件变量。条件概率 p(x | c) 通常由自回归模型、扩散模型或掩蔽Transformer模型进行因子化。

根据不同的因式分解，p(x | c)的采样要么对应于连续预测图像（斑块），要么对应于迭代预测所有帧（x 0 ，...，x t ）。根据条件变量 c 的内容，条件视频生成可以达到不同的目的。

统一表征法和任务接口

在本节中，作者首先介绍了视频是如何作为一种统一的表征，从互联网中捕捉各种类型的信息，从而形成广泛的知识。

然后，讨论如何将计算机视觉和人工智能中的各种任务表述为条件视频生成问题，从而为现实世界中的视频生成决策提供基础。作为信息统一表征的视频

虽然互联网文本数据通过大型语言模型为数字/知识世界提供了很多价值，但文本更适合捕捉高级抽象概念，而不是物理世界的低级细节。

研究人员列举几类难以用文本表达，但可以通过视频轻松捕捉的信息。

-视觉和空间信息：这包括视觉细节（如颜色、形状、纹理、光照效果）和空间细节（如物体在空间中的排列方式、相对位置、距离、方向和三维信息）。与文本格式相比，这些信息自然是以图像/视频格式存在的。-物理和动力学：这包括物体和环境如何在物理上相互作用的细节，如碰撞、操作和其他受物理规律影响的运动。虽然文字可以描述高层次的运动（如 "一辆汽车在街道上行驶"），但往往不足以捕捉低层次的细节，如施加在车辆上的扭矩和摩擦力。视频可以隐含地捕捉到这些信息。-行为和动作信息：这包括人类行为和代理动作等信息，描述了执行任务（如如何组装一件家具）的低层次细节。与精确的动作和运动等细节信息相比，文本大多能捕捉到如何执行任务的高级描述。为什么是视频？有人可能会问，即使文本不足以捕捉上述信息，为什么还要用视频呢？视频除了存在于互联网规模之外，还可以为人类所解读（类似于文本），因此可以方便地进行调试、交互和安全推测。此外，视频是一种灵活的表征方式，可以表征不同空间和时间分辨率的信息，例如以埃级（10 -10 m）运动的原子和以每秒万亿帧速度运动的光。作为统一任务接口的视频生成

除了能够吸收广泛信息的统一表征外，研究人员还从语言建模中看到，需要一个统一的任务接口，通过它可以使用单一目标（如下一个标记预测）来表达不同的任务。

同时，正是信息表征（如文本）和任务接口（如文本生成）之间的一致性，使得广泛的知识能够转移到特定任务的决策中。经典计算机视觉任务在自然语言处理中，有许多任务（如机器翻译、文本摘要、问题解答、情感分析、命名实体识别、语音部分标记、文本分类等）都是视觉任务。文本分类、对话系统，传统上被视为不同的任务，但现在都统一到了语言建模的范畴内。这使得不同任务之间的通用性和知识共享得以加强。同样，计算机视觉也有一系列广泛的任务，包括语义分割、深度估计、表面法线估计、姿态估计、边缘检测和物体跟踪。最近的研究表明，可以将不同的视觉任务转换成上图所示的视频生成任务，而且这种解决视觉任务的统一方法可以随着模型大小、数据大小和上下文长度的增加而扩展。将视觉任务转换为视频生成任务一般涉及以下步骤：(1) 将任务的输入和输出（如分割图、深度图）结构化到统一的图像/视频空间中；(2) 对图像帧重新排序，使输入图像后跟有特定任务的预期输出图像（如常规输入图像后跟有深度图）；(3) 通过提供输入-输出对示例作为条件视频生成模型的输入，利用上下文学习来指定所需的任务。视频即答案在传统的视觉问题解答（[color=var(--weui-LINK)][url=]VQA[/url]）. 随着视频生成技术的发展，一种新颖的任务是将视频作为答案，例如，在回答「如何制作折纸飞机」时生成视频。与语言模型可以对文本中的人类询问生成定制回复类似，视频模型也可以对具有大量低级细节的如何操作问题生成定制回复。对于人类来说，这样的视频回答可能比文本回答更受欢迎。

在上图中，研究人员展示了由文本到视频模型生成的视频，这些视频是对一组「如何做」问题的回答。此外，还可以考虑以初始帧为生成条件，在用户特定场景中合成视频答案。尽管有如此宏大的前景，但当今文本到视频模型合成的视频一般都太短/太简单，没有足够的信息来完全回答用户的问题。合成视频帧以回答用户问题的问题与使用语言模型进行规划有相似之处，人们可以利用语言模型或视觉语言模型将高层次目标（如「如何制作寿司」）分解为具体的子目标（如「首先，将米饭放在滚动垫上」），并为每个子目标合成计划，同时验证合成计划的合理性。视觉推理和思维链有了统一的信息表征和统一的任务界面，语言模型中就出现了推理，模型可以推导出相关信息，作为解决更复杂问题的中间步骤。

同样，以视频作为统一的表示和任务界面，视频生成也通过预测图像的遮蔽区域显示出视觉推理的早期迹象，如上图所示。通过生成具有正确辅助线集的视频，下一帧预测是否可用于解决更复杂的几何问题，这将是一个有趣的课题。在利用下一帧预测进行视觉推理和解决几何问题的基础上，还可以利用以下方法进一步描述推理过程和算法。具体来说，利用视频描述了广度优先搜索（BFS）算法的执行状态。

在这种情况下，学习生成视频就相当于学习搜索，如上图所示。虽然图 3 和图 4 中的示例可能看起来有些矫揉造作，但它们作为早期指标表明，视频生成作为一种预训练任务，可能会引发类似于语言模型的推理行为，从而揭示了利用视频生成解决复杂推理和算法任务的机会。作为统一状态-行动空间的视频

视频生成可以吸收广泛的知识并描述不同的视觉任务。

研究人员将通过提供体现式人工智能中使用视频作为统一表征和任务界面的具体实例来进一步支持这一观点。数据碎片化是体现式人工智能长期面临的挑战之一，在这种情况下，一个机器人在执行一组任务时收集的数据集很难用于不同机器人或不同任务的学习。跨机器人和跨任务知识共享的主要困难在于，每种类型的机器人和任务都有不同的状态-行动空间。为了解决这一难题，可以使用像素空间作为跨任务和环境的统一状态行动空间。在这一框架下，可将机器人规划视为条件视频生成问题，从而受益于互联网预训练视频生成模型。大多数现有工作都是为每个机器人训练一个视频生成模型，这削弱了将视频作为统一的状态-动作空间用于体现式学习的潜在优势。

在上图中提供了在 Open X-Embodiment 数据集之前和新生成的视频计划看起来都非常逼真，并成功完成了指定任务。

视频生成即模拟

视频生成技术不仅能解决前文提到的众多任务，还能够在另一个重要领域发挥作用——模拟各种系统和过程的视觉效果，进而根据模拟结果优化系统的控制策略。

这一能力对于那些能够收集到大量视频数据，但难以精确描述底层物理动态的应用场景尤为重要，如云层的流动、与柔软物体的交互等。游戏环境的生成

多年来，游戏已成为测试AI算法的理想平台。举个例子，街机学习环境（Arcade Learning Environment）推动了深度Q学习技术的发展，这一技术成功让AI智能体首次在Atari游戏中达到了人类的水平。

同样的，我们可以通过与游戏引擎中的真实模拟结果进行对比，来验证生成式模拟器的质量。- 模拟复杂游戏环境通过动作条件下的视频生成技术，可以模拟出像Minecraft这类复杂电脑游戏的环境动态。基于此，研究人员提出了一个能够根据以往的游戏进程预测未来的动作和游戏状态的Transformer模型。游戏中的观察结果和玩家动作都被转化为了Token，这样就把预测下一步动作简化为了预测下一个Token。值得注意的是，在这种情况下，模型既可以作为世界模型，也可以作为行动策略。如图6所示，给定一个以行动结束的观察和行动交替序列，模型就能推断出下一个观察结果（世界模型）；给定一个以观察结束的类似序列，模型就能推断出下一个要采取的行动（策略）。借助这种策略和动态分析骨干，还可以应用基于模型的强化学习算法，如Dyna、Dreamer和[color=var(--weui-LINK)][url=]MuZero[/url]，来进一步优化策略。

- 创造新型游戏环境在游戏AI领域，程序化创造新型游戏内容和关卡是一个热门研究方向，而这也已被证实对训练和评价强化学习（RL）智能体非常有用。如图7所示，通过学习大规模互联网上未经标注的游戏数据中的潜动作，然后训练一个可控制动作的视频模型，可以实现从一张提示图像生成无限可能的多样化互动环境。虽然这项工作还处于探索阶段，但在未来，我们或许可以通过集成学习到的奖励模型，让RL智能体在完全由生成模型创造的游戏环境中进行训练。

机器人与自动驾驶模拟SE(3)动作空间是机器人学习领域的一大挑战，尤其体现在如何将在虚拟模拟器中训练的策略成功应用到真实机器人上的问题。此前的研究成功地在真实机器人的视频数据上，针对Language Table环境，学习了一个基于动作的下一帧预测模型，并采用了一个简单的笛卡尔（[color=var(--weui-LINK)][url=]Cartesian[/url]）动作空间。如图8所示，可以看到，下一帧预测能够预测出SE(3)空间中更为通用的末端执行器动作所产生的视觉效果。
生成式SE(3)模拟器的一个直接应用是评估机器人策略，这在涉及真实机器人评估的安全考虑时特别重要。除了评估，此前的研究还在Language Table环境中使用来自生成式模拟器的rollouts训练了强化学习（RL）策略。下一个步骤可能是，使用Dyna式算法并结合模拟的演示和真实环境的数据来学习策略。在这种情况下，当策略在执行时，真实世界的视频会被收集起来，为生成式模拟器提供额外的示范和反馈。最后，通过在多样化环境中进行视频演示，生成式模拟器能够有效地训练多任务和多环境策略，这在之前是无法实现的，因为通常一个策略一次只能接触到一个真实世界环境。

科学与工程

视频已经成为了跨越众多科学和工程领域的一个统一的表现形式，对医学成像、计算机图像处理、计算流体动力学等领域的研究产生了影响。

在一些情况下，虽然我们可以通过摄像头轻松捕捉到视觉信息，但是很难识别背后的动态系统（比如云的运动，或者电子显微镜下原子的运动）。

而基于控制输入的视频生成模型可以成为一个有效的视觉模拟工具，进而帮助我们得到更优的控制方案。

下图展示了硅原子在碳原子单层上，在电子束的刺激下的动态变化。可以看到，这种生成式模拟器能够准确地在像素层面捕捉硅原子的移动。除了帮助缩小模拟与现实之间的差距，生成式模拟器还有一个优点是它们的计算成本是固定的，这在传统计算方法无法应对的情况下尤为重要。

总结

总结而言，研究人员认为，视频生成技术在物理世界的作用，就像语言模型在数字世界中的角色一样重要。团队通过展示视频如何能够像语言模型一样，广泛地表达信息和执行任务来支持这个观点。并且，从新的角度探讨了视频生成技术的应用，这些应用通过结合推理、场景中的学习、搜索、规划和强化学习等方法，来解决现实世界中的问题。虽然视频生成模型面临着如虚假生成（幻觉）和泛化能力等挑战，但它们有潜力成为自主的AI智能体、规划者、环境模拟器和计算平台，并最终可能作为一种人工智能大脑，在物理世界中进行思考和行动。参考资料：https://arxiv.org/abs/2402.17139

来源：新智元（公众号）
链接：https://mp.weixin.qq.com/s/pMzISIodXUO92cik8uJS7Q
编辑：李梦瑶

刘海明 · 发表于 2024-3-3 21:29:59

央视剧评｜Sora来了，智能时代的影视行业路在何方？

[color=rgba(0, 0, 0, 0.3)]原创央视剧评 CCTV电视剧 2024-03-03 14:17 北京

特约评论员李本乾

美国当地时间2月15日，OpenAI推出其首款文本生成视频（text-to-video）的人工智能模型Sora。它不仅使文生视频成为现实，而且各种要素、场景之间的无缝衔接更是令人叹为观止！

01

Sora是什么？

科学分析Sora带来的新挑战

回溯互联网与数字媒介发展，不难发现媒介技术的每次重大突破，势必引起产业与社会的巨大变化。

Sora技术的突破，将给影视行业带来怎样的冲击与变化呢？

价值链体系的冲击。

Sora不仅文生视频，更是能创造长达一分钟的视频，且具备多镜头的一致性。Sora让“扔进一部小说、出来一部大片”的梦想，从未如此接近现实。

显然，Sora将对传统影视产业价值链体系造成强烈冲击。

人工生产模式的变化。

Sora模型擅长生成具有多个角色、精确动作和详细背景的复杂场景渲染视频；Sora具备仿真功能和3D动态赋能特征，可学习影片生成、3D生成和4D生成等。

在上述领域中，Sora可替代人类传统生产模式，创造更加逼真的视频和引人入胜的体验。

市场结构的改变。

可以预见的是，未来视频制作的门槛将逐步降低，大众化成为大势所趋。

大众生产的海量视频势必分散用户注意力，中低端影视市场必将遭受强烈冲击，传统影视市场结构将发生重大变化。

02

我们怎么办？

热情拥抱Sora提供的新技术

创建“人机共生”的影视新生态。

虽然如何应对Sora这一新生事物，我们尚无经验可循，但人与自然的关系却是中国文化老生常谈的话题。

汲取中国文化“天人合一”的思想，创建“人机共生”的影视新生态，将是推动影视行业高质量发展的必由之路。

创建Sora赋能的制作新模式。

电影百年历史中，任何一次技术革命都为其赋能。为此，抓住Sora技术创新，迭代机遇，创建影视制作新模式。抓住AI发展的机遇，有利于大力发展影视生产力。

首先，解放简单重复的影视劳动。

Sora只需简单的自然语言提示，即可生成高清视频。它将人从简单重复的劳动中解脱出来，以更高的效率去创造更大的价值。

其次，提高动画特效智能化水平。

Sora的出现将推动特效制作更加简单、高效、智能。

再次，Sora催生新的职业需求。

如提示工程（prompt）师、AI技术专家等。

拥抱"世界模拟器"的新未来。

Sora的重要目标是成为“世界模拟器”。它并非文生视频那样简单，而是人工智能对物理世界的理解、模拟能力达到空前的高度。

为此，我们要以开放的心态，积极拥抱“世界模拟器”的新未来，不断拓展影视行业的新边界，创新影视创作的新领域，推动影视行业高质量发展。

03

Sora不是终点

超越大模型创新精品力作

面对Sora带来的冲击，影视业不能亦步亦趋。

事实上，Sora同样属于人工智能（AI）的范畴，有赖于数据、算法与算力三要素而存在。因此，创新数据，引领算法和超越Sora模型，影视业才能赢得未来。

《庄子·天道》中“轮扁斫轮”的故事给了我们启示。

齐国轮扁砍制车轮时，往往根据多年的实践经验达到得心应手的境界，但他无法将其“奥妙”教给儿子，儿子也无法继承，其中的“奥妙”只能通过自身实践去领悟。

真正的“奥妙”不可言、无法传，只能靠人亲身实践和感悟。真正的艺术、高超的创意和精湛的作品都是独一无二和不可复制的。

Sora降低了影视制作业的门槛，但同时提高了视频创新的"天花板"，对影视创作者的创新、创意和专业水准提出了更高要求。

影视创作者唯有频出“金点子”，不断推出精品力作，建设强大的数字资源，才能完成从追赶Sora到超越数据和算法，进而引领模型的“华丽转身”。

Sora的关键技术之一在于使用潜在空间（latent space）技术。该技术的目标在于提取视频的普遍特征，而一些个性化的元素容易被误视为“杂质”，或被忽略、或被踢出。它虽然可以逼真反映物理现实世界，但它很难反映人类的精神世界中独一无二的情感体验！

勇于超越Sora潜在空间算法的新逻辑，回归影视作品反映精神世界本位，驾驭Sora赋能影视创作，将是未来影视业发展新质生产力的主要方向之一。

通过AI赋能，不断推出高质量的精品力作，引领数据，引领算法，主流媒体责无旁贷，任重道远。

作者系上海交通大学智能传播研究院院长

媒体与传播学院特聘教授

来源：CCTV电视剧（公众号）
链接：https://mp.weixin.qq.com/s/JFidJ2cWn1Nj-DBCq4H6dw
编辑：李梦瑶

刘海明 · 发表于 2024-3-5 00:25:46

【案例】

不止于“视频生成”，Sora何以定位“世界模拟器” | 芒种观点

连续两年开工时节，都被Open AI霸屏，去年就有若干厂商涉足多模态视频生成大模型的研发，今年又火出天际的Sora到底火在哪里？

首先，从定位上，在Open AI的报告里宣称：Sora定位为世界模拟器，Open AI认为视频生成模型的持续扩展是构建物理世界通用模拟器的一条有前途的道路，可以开发物理和数字世界，以及生活在其中的物体、动物和人的模拟器。

简单说来，Sora的核心功能在于“视频生成”“视频合成”与“图片生成”。与之前的Runway Gen2、Pika相比，优势主要在于：

Sora具有更长的生成时间能力，可以生成一分钟长的视频，而其他大模型一般只能生成几秒钟的视频；

Sora具有更自由的视频尺寸能力，支持宽屏、竖屏以及介于两者之间的所有尺寸的视频生成；

Sora支持向前或向后扩展视频，比如向后扩展可以在视频的基础上创造不同的开头，保持同样的结尾，生成的过程非常连续。

Sora还具有涌现出真实物理世界模拟的能力，可以生成更真实的物理世界的视频。

在讨论Sora即将影响的领域之前，本期腾讯媒体研究院带你一起来看看官方的技术报告如何解读Sora的实现原理与应用场景，努力做到知其然、知其所以然、知其所以必然。

来源 | 德外5号

作者 | 王一婷

Sora主要技术原理

视觉数据的统一表示：Patches

大型语言模型通过在互联网规模的数据上进行训练，获得了出色的通用能力中，OpenAI 从这一点汲取了灵感。LLM 得以确立新范式，部分得益于创新了 token 使用的方法。研究人员们巧妙地将文本的多种模态 —— 代码、数学和各种自然语言统一了起来。

在这项工作中，OpenAI 考虑了生成视觉数据的模型如何继承这种方法的好处。大型语言模型有文本 token，而 Sora 有视觉 patches。此前的研究已经证明 patches 是视觉数据模型的有效表示。OpenAI 发现 patches 是训练生成各种类型视频和图像的模型的可扩展且有效的表示。

在更高层面上，OpenAI 首先将视频压缩到较低维的潜在空间，然后将表示分解为时空 patches，从而将视频转换为 patches。

用于视频生成的缩放 Transformer

Sora 是个扩散模型，给定输入噪声 patches（以及文本提示等调节信息），训练出的模型来预测原始的“干净”patches。重要的是，Sora 是一个扩散 Transformer。Transformer 在各个领域都表现出了卓越的缩放特性，包括语言建模、计算机视觉、和图像生成。

在这项工作中，OpenAI 发现扩散 Transformers 也可以有效地缩放为视频模型。下面，OpenAI 展示了训练过程中具有固定种子和输入的视频样本的比较。随着训练计算的增加，样本质量显著提高。

可变的持续时间，分辨率，宽高比

过去的图像和视频生成方法通常需要调整大小、进行裁剪或者是将视频剪切到标准尺寸，例如 4 秒的视频分辨率为 256x256。相反，该研究发现在原始大小的数据上进行训练，可以提供以下好处：

首先是采样的灵活性：Sora 可以采样宽屏视频 1920x1080p，垂直视频 1920x1080p 以及两者之间的视频。这使 Sora 可以直接以其天然纵横比为不同设备创建内容。Sora 还允许在生成全分辨率的内容之前，以较小的尺寸快速创建内容原型 —— 所有内容都使用相同的模型。

其次是改进帧和内容组成：研究者通过实证发现，使用视频的原始长宽比进行训练可以提升内容组成和帧的质量。将 Sora 在与其他模型的比较中，后者将所有训练视频裁剪成正方形，这是训练生成模型时的常见做法。经过正方形裁剪训练的模型（左侧）生成的视频，其中的视频主题只是部分可见。相比之下，Sora 生成的视频（右侧）具有改进的帧内容。

语言理解

训练文本到视频生成系统需要大量带有相应文本说明的视频。Sora研究团队采用了DALL·E 330中引入的重新说明技术，将其应用于视频。

首先训练一个高度描述性的文本说明模型，然后使用它为训练集中的所有视频生成文本说明。研究发现，使用高度描述性的视频说明进行训练不仅提高了文本的准确性，还提升了视频的整体质量。

与DALL·E 3类似，研究团队还利用GPT将短用户提示转换为更详细的说明文本，并将其发送到视频模型中。这使得Sora能够生成高质量的视频，准确地遵循用户的提示。

Sora主要功能

以图像和视频作为提示

我们已经看到了文本到视频的诸多生成示例。实际上，Sora 还可以使用其他输入，如已有的图像或视频。这使 Sora 能够执行各种图像和视频编辑任务 — 创建完美的循环视频、静态图像动画、向前或向后延长视频时间等。

为 DALL-E 图像制作动画

只要输入图像和提示，Sora 就能生成视频。下面展示了根据 DALL-E 2 和 DALL-E 3 图像生成的视频示例：

视频内容拓展

Sora 还能够在开头或结尾扩展视频内容。以下是 Sora 从一段生成的视频向后拓展出的三个新视频。新视频的开头各不相同，拥有相同的结尾。还可以使用这种方法无限延长视频的内容，实现“视频制作永动机”。

视频到视频编辑

扩散模型激发了多种根据文本 prompt 编辑图像和视频的方法。OpenAI 的研究团队将其中一种方法 ——SDEdit 应用于 Sora，使得 Sora 能够在零样本（zero-shot）条件下改变输入视频的风格和环境。

连接视频

Sora可以在两个输入视频之间逐渐进行转场，从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。在下面的示例中，中间的视频在左侧和右侧的相应视频之间自动创建过渡帧。

图像生成能力

Sora 还能生成图像。为此，OpenAI 将高斯噪声 patch 排列在时间范围为一帧的空间网格中。该模型可生成可变大小的图像，最高分辨率可达 2048x2048。

涌现仿真能力

OpenAI 发现，视频模型在经过大规模训练后，会表现出许多有趣的涌现能力。这些能力使 Sora 能够模拟物理世界中的人、动物和环境的某些方面。这些特性并没有针对3D、物体等方面的显性归纳偏差，纯粹是规模效应现象。

三维一致性

Sora 可以生成具有动态相机运动的视频。随着摄像机的移动和旋转，人物和场景元素在三维空间中始终如一地移动。

长序列连贯性和目标持久性

视频生成系统面临的一个重大挑战是在对长视频进行采样时保持时间一致性。OpenAI 发现，虽然 Sora 并不总是能有效地模拟短距离和长距离的依赖关系，但它在很多时候仍然能做到这一点。

例如，即使人、动物和物体被遮挡或离开画面，Sora 模型也能保持它们的存在。同样，它还能在单个样本中生成同一角色的多个镜头，并在整个视频中保持其外观。

与世界互动

Sora 有时可以模拟以简单方式影响世界状态的动作。例如，画家可以在画布上留下新的笔触，这些笔触会随着时间的推移而持续，或者一个人可以吃汉堡并留下咬痕。

模拟数字世界

Sora还能够模拟人工过程，例如视频游戏。Sora 可以通过基本策略控制 Minecraft 中的玩家，同时还可以高保真地渲染世界及其动态。这些功能可以通过向 Sora 提及“Minecraft”来零样本触发相关功能。

Sora志在数字孪生的终局？

作为一款模拟器，Sora 目前还存在许多局限性。例如，它不能准确模拟许多基本交互的物理现象，如玻璃碎裂后液体才能流出，桌面上才有玻璃碎片等。其他交互，如吃食物，并不总能产生正确的物体状态变化。官方主页列举了该模型的其他常见失效模式，例如长时间样本中出现的不一致性或物体的自发出现。

凯文·凯利描述了一个新的四维世界，这个世界被他称为“镜像世界”。Open AI让我们开始有了关于这个新世界的真实体验，镜像世界不仅是现实世界的复制品，本身就是真实世界，这将带来完全不同的生活方式与工作方式。

数字世界一直在向着“数字孪生”的高级阶段进化，Digital Twins' Future 提出从真实世界到“数字孪生”的4个发展阶段：

1. 构建真实世界的数字镜像（分为实时镜像和延迟镜像两种），以城市交通为例，比如地图软件的道路模型是延迟镜像，动态的交通实况则是实时镜像。

2.真实世界和数字镜像的交互导致了数字线程的扩展，数字世界具有影响物理实体操作的能力（可能以自主方式），比如结合地图和卫星导航的标记提醒真实世界当中的行车操作。

3. （数字物理孪生对）开始具有一定程度的自主性。比如地图导航软件模拟预测实时告诉你走哪条路更省时或路程更短。

4. 进入高级阶段，自治水平不断提高，（数字物理孪生对）可以作为自主代理在网络空间中进行交互，将本地数据分析扩展到全球数据分析。在交通领域这个交互势必需要结合传感器实现数字物理的实时镜像，AI可以通过数字计算和控制器完全代理人在真实世界的操作，这便进入了自动驾驶的发展阶段。

图注：数字孪生发展阶段。来源：Digital Twins’ Future

由此看来，Open AI致力于打造一款通用的世界模拟器，志在构建世界模型，最终通过“数字孪生”的预测和自治推动整个世界的“数智化”升级，这会是一场全新的“数智革命”。

财联社报道称：从某种意义上讲，对人工智能的利用将会在国家之间、机构之间，甚至包括人与人之间形成新的代差和新的数字鸿沟，并推动人类从农业文明、工业文明走向数字文明。因此能否充分学习和利用人工智能会对人类产生分化，甚至对人类文明产生巨大影响。

看到这里也不必焦虑，这个未来的到来毕竟还有很远的路要走，在世界的发展进化中，“未知”与“机遇”始终并存，我们需要做就是：

在“复杂世界”的基础上，能够认知“未知世界”的特征与挑战，并有能力去拥抱“未知世界”的挑战，将“未知”转化为“机会”，并从“未知”中获益。——陈春花

来源：腾讯媒体研究院

链接：https://mp.weixin.qq.com/s/MAtS8DZbYd1eHXHc8DlLtg

编辑：王晨雅

刘海明 · 发表于 2024-3-9 15:31:34

【案例】

马斯克与OpenAI之争

马斯克与OpenAI之间的争议围绕着开源问题展开，引发了人工智能安全性的讨论。马斯克认为OpenAI不够开放，甚至嘲讽称将其改名为ClosedAI。这一争议凸显了人工智能部署和安全问题的复杂性。

Elon Musk和OpenAI之间的争议

马斯克起诉OpenAI，指责该公司偏离了其利他主义使命，将利润置于最初目标之上。马斯克声称，OpenAI（他曾是创始董事会成员）转向了盈利模式，与他们最初约定的为造福人类而开发人工智能的目标相悖。OpenAI回应称，马斯克曾支持创建盈利实体的想法，甚至建议将OpenAI与特斯拉合并。随着马斯克的诉讼，争议升级，突显了双方在控制权、资金和OpenAI发展方向上的分歧。马斯克对人工智能透明度和负责任开发的担忧也在争议中扮演重要角色。这场法律纠纷引发了人工智能社区更广泛的讨论，涉及人工智能研究的透明度以及在追求先进人工智能系统时开放合作与保护知识产权之间的平衡。这场争议凸显了在人工智能发展、治理和伦理考量中面临的复杂性。

争议对人工智能的影响

争议对人工智能的影响主要体现在对人类生存和安全的潜在威胁上。一些人认为人工智能可以为人类带来益处，但也有人担心其可能导致灾难性后果，甚至成为“不朽的独裁者”。

在马斯克与OpenAI之间的争议中，人工智能的部署和安全问题变得更加复杂，特别是在涉及开源模型和国家安全之间的平衡时。

人工智能对就业市场未来的影响

随着人工智能技术的迅速发展，自动化可能导致工作岗位的转移和工作角色的变化，需要重新培训和转岗人员适应新的就业环境.未来的工作将更加强调创造性思维、沟通能力、团队协作等人文素质，这对劳动者提出了挑战。人工智能对就业市场带来机遇与挑战并存，需要适应新的就业趋势和技能需求，人工智能的发展将改变就业市场的格局，劳动力需求可能会发生重大变化，需要不断适应和学习新技能以适应未来就业环境。

来源：科技星旅（公众号）

链接：https://mp.weixin.qq.com/s/ASyaOCjPoOXHiNMLDFPw8w

编辑：王晨雅

刘海明 · 发表于 2024-3-13 17:13:04

【案例】
全球首部AI生成电影上映，需要担忧吗？

当地时间3月6日，全球首部完全由AI生成的长篇电影终结者2翻拍版《Our T2 Remake》在洛杉矶进行首映。

电影“主演”之一Timmy the Terminator（下图右侧机器人）在社交平台上晒出了自己的“首映礼红毯照”。

01

50位AI领域

艺术家联合创作

图片来源：Instagram

这部由50位AI领域艺术家合作创作出的《终结者2》翻拍重制作品，呈现了一个人类对抗人工智能统治的世界，探讨当代AI发展的影响。

团队利用Midjourney、Runway、Pika、Kaiber、Eleven Labs、ComfyUi、Adobe等多个AIGC工具进行创作，同时不使用原电影中的任何镜头、对话或音乐，确保《Our T2 Remake》所有内容均为原创。

“这将是AI在电影制作应用中的一个重要里程碑……我们希望向世界展示，AI赋予了每一个人创作自己的史诗级故事的能力。”电影制作团队如此表示。

虽说线下首映式的门票已告罄，现场照片中看来上座率也不低，但目前在社交平台上，暂时没有什么影评发布。目前，该电影还未大规模放映，本周末，将在线上直播，或许届时可以得到更多反馈。

02

面对人工智能冲击

影视创作者需要担忧吗？

影视创作与生成式人工智能的碰撞，为影视创作注入了新的活力和可能性。这种结合不仅改变了影视创作的工具和方法，更在深层次上影响了创作的思维方式和艺术观念，影视创作者们必须积极应对这一冲击，采取有效的策略来保持创作的独特性和创新性。

首先需要明确认识到，生成式人工智能本质上是一种技术的延伸，就像为人类安装上一双机械臂，当影视创作者面对这项技术的发展时，需要做到的第一点就是去了解它，接触它，去了解其背后的逻辑。无知带来恐惧，模糊带来焦虑，当对新技术背后的生成的逻辑有足够的认识的时候，恐惧感自然会消失。

其次，创作者们应该去充分地利用它，如何利用挖掘人工智能能够给影视产业带来的一些积极的作用，然后迅速地将其融入自己的创作过程当中，提升创作效率。

第三是从自己的角度去训练它，改进它，让人工智能成为创作者们助手。例如，除了从无到有创造新作品外，人工智能技术还可以应用于老电影的修复和老照片的修复过程当中，在对人类原有创作进行超分辨率和重新上色的过程，本质是一种以人类为主体、AI作为重要参与者的再创造。

第四是保持足够的警惕，人工智能技术一方面能够丰富人们的创作思维，为人们提供更多的选择，但同时它也像算法推送一样，会限制了人类思维和创造，让创作者迷失在与AI共建的茧房中，人类创作者可能会沦为“配角”甚至“观众”，失去对作品的掌控力和影响力。

艺术作品所独有的“灵韵”是从人类的朴素的情感与人类世界不同实体之间交互的情感当中所迸发出来，这是机器所无法取代的。

人工智能出现是为了提高工作效率，而非让人类懒于去思考，过度依赖AI可能会导致创作的同质化和缺乏个性，失去独特性和人文气息，变成千篇一律的“工业产品”。

《我们的终结者2重置版》Our T2 Remake海报。图片来源：豆瓣

最后，人工智能的应用还涉及诸多关于版权和伦理的问题，创作者在应用中不能单纯地以效率或者是以利益为先，需要在尊重艺术创作、尊重伦理、尊重法律的基础上去合理运用人工智能技术，这样才能够确保影视产业在人工智能技术的助力下健康发展。

来源：传媒头条（公众号）

链接：https://mp.weixin.qq.com/s/RBqyuMzYuxo9tK4vFDmgow

编辑：李佳

刘海明 · 发表于 2024-3-14 16:35:03

【案例】
OpenAI人形机器人亮相

当地时间 3 月 13 日，美国机器人创业公司 Figure发布首个基于 OpenAI 多模态大模型的人型机器人 Figure 01。根据演示视频， Figure 01 能够识别出自己面前一张桌子上的唯一食物——苹果，并将其递给一旁自称“想吃点东西”的人类；随后它一边根据人类指令收好桌面的垃圾，一边用语音解释了自己刚刚递苹果的原因；最后，机器人根据桌面的情况，判断出接下来应该把散落的餐具放在一旁的沥水架上晾干。这表明 Figure 01 能够实时通过视觉输入理解周围的环境，结合人类用语音发出的信号，实现特定的物理操作，并用简单的英语回答它的推理过程与结论。

Figure 机器人操作高级工程师表示，该机器人能够“描述其视觉体验、规划未来行动、反思自身记忆、口头解释推理过程”。在具体实现过程中，他们将机器人摄像头中的图像输入，并将机载麦克风捕获的语音文本转录到由 OpenAI 训练的大型多模态模型中，该模型可以理解图像和文本。该模型对整个对话记录进行处理，包括过去的图像，从而获得语言响应，然后通过文本到语音的方式将其回复给人类。此外，该模型负责决定在机器人上运行哪些学习到的闭环行为以完成给定的命令，从而将特定的神经网络权重加载到 GPU 上并执行策略。

主要来源：

https://www.figure.ai/

https://www.36kr.com/p/2688268058406272

原标题：GPT有实体了？OpenAI人形机器人震撼亮相！像真人一样一边和你说话一边帮你干活

来源：科研圈

链接：https://mp.weixin.qq.com/s/f0wzFs8VWd45hIIl2ed-BQ

编辑：李佳

帐号		自动登录	找回密码
密码			实名注册

人工智能与新闻业案例集锦

马斯克起诉OpenAI及其首席执行官萨姆·奥尔特曼

浏览过的版块