人工智能与新闻业案例集锦

刘海明 · 发表于 2024-2-23 21:42:52

【案例】OpenAI 首席执行官萨姆·奥尔特曼 (Sam Altman) 终于承认人工智能行业正在走向能源危机！

来源：https://www.nature.com/articles/d41586-024-00478-x

作者：By Kate Crawford

上个月，OpenAI 首席执行官萨姆·奥尔特曼 (Sam Altman) 终于承认了研究人员多年来一直在说的——人工智能 (AI) 行业正在走向能源危机。这是一个不寻常的承认。

在瑞士达沃斯举行的世界经济论坛年会上，奥特曼警告说，下一波生成型人工智能系统消耗的电力将远远超出预期，能源系统将难以应对。

“如果没有突破，就不可能实现这一目标，”他说。

自从我在 2018 年开始发表有关人工智能行业环境成本的文章以来，我看到人们一直在淡化和否认人工智能行业的环境成本。

Altman 的承认让研究人员、监管机构和行业巨头开始谈论生成式人工智能对环境的影响。

那么奥特曼指望实现什么能源突破呢？不是设计和部署更可持续的人工智能系统，而是核聚变。

他也参与了这场游戏：2021 年，Altman 开始投资位于华盛顿埃弗里特的核聚变公司 Helion Energy。

大多数专家都认为，核聚变不会对本世纪中叶应对气候危机的脱碳这一关键目标做出重大贡献。

Helion最乐观的估计是，到2029年，它将产生足够为40,000个美国普通家庭供电的能源；

一项评估表明，OpenAI 在加利福尼亚州旧金山创建的聊天机器人 ChatGPT 已经消耗了 33,000 个家庭的能源。

据估计，由生成式人工智能驱动的搜索所消耗的能量是传统网络搜索的四到五倍。几年之内，大型人工智能系统可能需要与整个国家一样多的能源。

这不仅仅是能源。生成式人工智能系统需要大量淡水来冷却处理器并发电。在爱荷华州西得梅因，一个巨大的数据中心集群为 OpenAI 最先进的模型 GPT-4 提供服务。

当地居民的一项诉讼显示，2022 年 7 月，即 OpenAI 完成模型训练的前一个月，该集群使用了该地区约 6% 的水。根据谷歌和微软的环境报告，随着谷歌和微软准备他们的 Bard 和 Bing 大型语言模型，这两个模型的用水量都出现了大幅增长——在一年内分别增加了 20% 和 34%。

一份预印本表明，到 2027 年，全球人工智能对水的需求可能是英国的一半。在另一份预印本中，Facebook 人工智能研究人员将该行业追求规模的环境影响称为“房间里的大象”。

我们现在需要的不是白日梦技术，而是务实的行动来限制人工智能对生态的影响。

没有理由不能做到这一点。该行业可以优先考虑使用更少的能源，建立更高效的模型，并重新考虑如何设计和使用数据中心。正如法国 BigScience 项目以其 BLOOM 模型所展示的那样，可以构建与 OpenAI 的 GPT-3 大小相似且碳足迹低得多的模型。但整个行业的情况并非如此。

获得准确、完整的环境影响数据仍然非常困难。生成式人工智能的全部全球成本是严格保密的企业机密。数据来源于 Emma Strubell和Sasha Luccioni等研究人员的实验室研究；有限公司报告；以及地方政府公布的数据。目前，公司几乎没有动力做出改变。

但立法者终于注意到了这一点。2月1日，以马萨诸塞州参议员埃德·马基为首的美国民主党提出了《2024年人工智能环境影响法案》。该法案指示国家标准与技术研究所与学术界、工业界和民间社会合作，制定评估人工智能环境影响的标准，并为人工智能开发商和运营商创建自愿报告框架。该立法是否会通过仍不确定。

自愿措施很少能产生持久的问责文化和一致采用，因为它们依赖于善意。鉴于紧迫性，还需要做更多工作。

要真正解决人工智能对环境的影响，需要采取多方面的方法，包括人工智能行业、研究人员和立法者。在工业领域，可持续实践势在必行，并应包括测量和公开报告能源和水的使用情况；优先发展节能硬件、算法和数据中心；并仅使用可再生能源。独立机构的定期环境审计将支持透明度和对标准的遵守。

研究人员可以优化神经网络架构以实现可持续性，并与社会和环境科学家合作，指导技术设计实现更大的生态可持续性。

最后，立法者应该同时提供胡萝卜和大棒。首先，他们可以设定能源和水的使用基准，激励可再生能源的采用，并强制要求进行全面的环境报告和影响评估。《人工智能环境影响法案》只是一个开始，但还需要更多的努力。

来源：书上的蜗牛

链接：https://mp.weixin.qq.com/s/eJHu9vNjPbE6GH0OXH-SDQ

编辑：程正元

刘海明 · 发表于 2024-2-24 20:10:52

【案例】中国首部！文生视频AI系列动画片《千秋诗颂》启播，中央广播电视总台人工智能工作室揭牌

2月23日，中国首部文生视频AI系列动画片《千秋诗颂》启播暨中央广播电视总台人工智能工作室揭牌仪式举行。中宣部副部长、中央广播电视总台台长慎海雄出席，并与中国工程院院士、清华大学信息科学技术学院院长、中国人工智能学会理事长戴琼海为总台人工智能工作室揭牌，和嘉宾共同为节目启播。

中央广播电视总台综合频道牵头策划的系列动画片《千秋诗颂》，聚焦国家统编语文教材200多首诗词，依托中央广播电视总台“央视听媒体大模型”，运用AI人工智能技术将国家统编语文教材中的诗词转化制作为唯美的国风动画。节目首批推出《咏鹅》等六集诗词动画，沉浸式再现诗词中的家国情怀和人间真情，让更多的人尤其是青少年，感受中华文脉的勃勃生机和独有魅力，在内心根植深厚的文化自信。

中央广播电视总台编务会议成员姜文波在致辞中表示，总台成立六年来，坚持向科技创新要生产力，持续深化“思想+艺术+技术”融合传播，4K/8K频道、“百城千屏”和央视频、央视新闻等新媒体平台快速发展。总台媒体科技水平在全球媒体竞争中的优势地位不断巩固，成功走出一条高质量发展之路。创新关乎命运，科技引领未来。生成式人工智能给媒体发展带来严峻挑战的同时，更是千载难逢的重大发展机遇。中央广播电视总台将按照习近平总书记重要指示精神，紧紧抓住科技创新这一关键变量，用科技赋能中华优秀传统文化创造性转化、创新性发展，生产出更多的令人耳目一新、观之折服的精品力作，让总台在全球媒体竞争中始终保持领先地位。

活动上，中央广播电视总台牵头发起成立“央视听媒体大模型”研发共同体，通过开放平台与国内一流的科研机构、高校和企业在科研攻关、需求应用、安全发展、产业生态等方面加强合作，联动产业链上下游，运用生成式人工智能技术为视听媒体科研创新提供支持，打造新质生产力，助力总台高质量发展。

为加快AIGC核心技术研究和创新应用开发，中央广播电视总台人工智能工作室正式揭牌。工作室将整合总台广播电视和新媒体媒资平台资源，按照节目制作需求对“央视听媒体大模型”进行训练，使之快速形成具备针对特定业务的能力，打造视听节目创新创作的大平台。

《千秋诗颂》是首部以我国自主AIGC技术支撑制作的系列动画片，基于总台提供的丰富视听数据进行模型训练，综合运用可控图像生成、人物动态生成、文生视频等最新技术成果，支持了从美术设计到动效生成，再到后期成片的各个环节。在生成式人工智能技术的加持下，《千秋诗颂》高度再现了中国古诗词中的人物造型、场景和道具，呈现了一部将中华古典诗词的博大精深与现代视听艺术相结合的动画作品。节目将于2月26日在总台央视综合频道（CCTV-1）首播，央视频、央视网同步上线。

央视一套

中央广播电视总台、教育部、科技部相关部门负责人，清华大学、北京大学、上海交通大学、人民教育出版社、上海人工智能实验室等有关部门负责同志，以及华为、科大讯飞、智谱AI等企业代表参加活动。

来源：全媒体采访与写作

链接：https://mp.weixin.qq.com/s/px-C9t9UIBCG3LIrNHM0qw

编辑：程正元

刘海明 · 发表于 2024-2-26 23:14:17

Sora“内测”提前开放！好莱坞导演急撤掉8亿美元摄影棚
报人刘亚东 2024-02-26 19:07 内蒙古

来源：新智元
作者：新智元

新智元报道
【新智元导读】刚刚，Sora第二波视频放出了！稳定的一致性和模拟现实的逼真度，简直让人惊掉下巴。在好莱坞，已经有导演撤掉自己的8亿美元工作室扩建计划了。
就在昨天，Sora又有全新「神作」炸出了！
两位Sora作者，Bill Peebles、Tim Brooks纷纷甩出全新图片。（顺便还秀了一把基友情？）
「一只小熊猫和一只巨嘴鸟是最好的朋友，在蓝色时刻漫步在圣托里尼岛」，Peebles称这个场景简直就和两人走到[color=var(--weui-LINK)][url=]OpenAI[/url]办公室的画面一模一样。

a red panda and a toucan are best friends taking a stroll through santorini during the blue hour

这个视频的连贯性简直令人惊呼：在每一帧中，小熊猫和巨嘴鸟的形象始终保持着一致性。
当然仔细看还是有不少破绽。比如小熊猫的腿有时会交织在一起，画面看起来更像卡通图像，而不像逼真的现实世界。
但总的来说，这种视频质量已经足以让我们对AI视频的未来放飞想象。
有网友立刻做出了配音版，贴切的配音一出，视频更有那个味儿了！

难怪好莱坞大导Tyler Perry直言，自己在看完Sora制作的视频后，直接搁置了自己影师工作室8亿美元的扩建计划！
更多「神作」来袭
这次两位作者放出的第二批视频，效果更加逼真、更加炸裂。

网友们接连不断发出惊叹：Sora是怎么做到一次比一次迭代得更好的？
这个视频是「一名潜水员发现了一艘隐藏的未来沉船，里面有控制论海洋生物和先进的外星技术」。

a scuba diver discovers a hidden futuristic shipwreck, with cybernetic marine life and advanced alien technology

潜水员、海底景观、沉船外壳、内部的外星技术都生成得十分逼真。
当然，这个场景也不是100%完美。立刻有人发现破绽——
比如，潜水员没有摆动脚蹼就能游动起来，也没有吐出气泡。

一位好莱坞电影制片人吐槽说：人的动作看起来没有灵魂，有些像僵尸。

但对于不那么挑剔的观众，这个20秒视频的质量已经够了。

有人满意地说：看起来像《深海迷航》的高分辨率版本
在以往，这个场景无疑要耗费巨资。而现在，好莱坞大片中烧金的高难度场景，都可以用Sora视频替代了，AI淘汰影视行业真不是说说而已！
这条闪着珠光的银色鳞片、有着冰蓝的眼睛和象牙龙角、吐出白气的小白龙，也让网友们惊呼，太太太震撼了！

Close-up of a majestic white dragon with pearlescent, silver-edged scales, icy blue eyes, elegant ivory horns, and misty breath. Focus on detailed facial features and textured scales, set against a softly blurred background

它的拟人化做得很好，眼睛水汪汪的，传达了非常动人的情感，仿佛能听懂人话一样。
《[color=var(--weui-LINK)][url=]权力的游戏[/url]》中的巨龙，是这样的。跟它比起来，小白龙的差距并不太大。
有的网友表示，自己对这条小白龙爱不释手，直接给它配了个音——

现实场景，是给Sora最难的考题。
下面这个「一个男人在夏威夷热带水域上空定点跳伞，宠物金刚鹦鹉在旁边飞翔」的视频，Sora再次交出了让人印象深刻的答卷。

a man BASE jumping over tropical hawaii waters. His pet macaw flies alongside him

场景如此逼真，直接有人发问：「是真的视频还是AI做的？」

配上音后是这样的，就问会有多少人发现——这并不是真实的场景？

如果非要找茬，就是金刚鹦鹉的照明不太对，看起来像是单独做出来的动画，并不像自然条件下的光照。

定点跳伞的动作生成得不够准确，降落伞太小。

下面是一只玻璃乌龟，裂缝用金繕工艺修复，在日落时分走在黑色的沙滩上。

画面的一致性很完美，沙子的物理学特性也完全还原出来了。
不过美中不足的是：乌龟似乎只有三条腿？😂

也有人发现「华点」：把沙丘做出崎岖不平的样子，是为了让海龟爬过沙丘后不会留下痕迹吗？

相比之下，Midjourney生成的玻璃乌龟是这样的，别有一番风味。

精美的纸艺世界中的一艘船，海面还有海洋动物跃出。

in a beautifully rendered papercraft world, a steamboat travels across a vast ocean with wispy clouds in the sky. vast grassy hills lie in the distant background, and some sealife is visible near the papercraft ocean's surface

黑暗的霓虹灯雨林里，闪耀着奇幻的动植物。

a dark neon rainforest aglow with fantastical fauna and animals

不过对于这个视频，也有人挑刺说：「这是我见过的Sora最差的demo，它不知为什么就生成了矢量动画的风格。」
一只戴着眼镜的猫，出现在20世纪60年代谍战电影中。

cat in glasses in a 1960s spy movie

黄昏时分，一只巨大的半透明水母优雅地飘浮在荒芜的城市中，还是用35毫米胶片拍摄的超现实场景。

A surreal scene unfolds as a giant, translucent jellyfish floats gracefully through a deserted cityscape at dusk. The scene is shot on 35mm film

这是一个精心制作的立体模型：江户时代，木结构建筑前，一个孤独的武士慢慢穿过小镇。

A meticulously crafted diorama depicting a serene scene from Edo-period Japan. Traditional wooden architecture. A lone samurai, clad in intricate armor, walks slowly through the town

一只戴着护目镜的小胖哈巴狗，坐在一辆旧摩托车旁边的凳子上。
仔细看可以发现，狗肚子一呼一吸的样子，显得非常真实。

a small chubby Pug dog in goggles is sitting on a stool next to an old motorcycle

一只棕色边牧戴着太阳镜，滑着滑板。

a brown and white border collie stands on a skateboard, wearing sunglasses

可怕的事来了，有人在底下留言称，棕色边牧是自己的狗，这个视频是自己拍的。
而我们，竟有那么一刻恍惚了：他说的究竟是真是假？

总之，网友们迫不及待等待公测了。
还有人给Sora出了神考题——「一部手机正在直播进入黑洞的过程」。

网友猜测：虚幻引擎被用来生成部分数据集？
随着这些视频被放出，网友们心中的疑问也越来越强烈——
Sora模型究竟是用什么数据训练的？

不少网友也觉得，怎么Sora生成的画面，看起来有些似曾相识？仿佛就是直接用虚幻引擎做出来的一样。

随后，越来越多人公认：Sora训练的数据集，应该就是用UE产生的。

其实，在Sora刚诞生时大佬就纷纷预测——Sora是由游戏引擎提供支持的。
Pytorch联合创始人Soumith Chintala就这样认为。
数据科学家和机器学习工程师Ralph Brooks也给出了自己的分析：

如果要创建大量不同角度的高清视频，就需要进行模拟。其中，有很多线索让我相信，UE5在一定程度上就是用来创建训练数据的。

比如这段广为人知的樱花漫步视频中，人物移动的方式跟UE5中非常相似。现实中的人走路是不会用恒定速度的。

英伟达高级科学家同样表示，「如果Sora接受过大量UE5合成数据的训练，我不会感到惊讶的！」

当然，它可能没有明确调用UE5，但非常有可能将UE5生成的文本、视频对作为合成数据，添加到训练集中。

早有预言帝猜中，Sora的推理管道是用的CLIP底座、文本转3D对象，和游戏引擎模拟。

果然，「人工训练数据耗尽」不会阻止LLM的发展，合成数据才是AI的未来！

「精简版」体验，就藏在技术报告里！
网友们看到这些一代比一代强的demo，已经心痒难耐了。
好消息是：虽然Sora还没有正式开放功能，但在技术报告里，已经可以小体验一把了！

报告地址：https://openai.com/research/vide ... as-world-simulators
通过选择不同的关键词，比如人物、衣着、天气环境、地理位置等选项，就可以体验Sora生成的不同视频。
这样我们就可以看到——a穿着b样子的衣服，在c地点的d天气下，惬意地散步。

好莱坞大佬直言很害怕，影视行业真完蛋了？
这也难怪，好莱坞知名导演、制片人、演员Tyler Perry因为Sora，决定搁置自己亚特兰大工作室耗资8亿美元的扩建计划。

本来，Perry导演在过去四年里，一直计划斥资8亿美元扩建自己的工作室，为占地330英亩的土地增加12个摄影棚。
然而，在2月16日看过Sora做出的视频后，他决定撤销自己的8亿美元计划，因为他拍摄的大片中，可能并不需要找取景地，或者搭建实景了。
「以前，我们只是被告知AI可以做这些事，但是真的看到它做出来的场景，还是太令人震惊了！」

Perry导演表示，因为Sora给自己带来的冲击太过强烈，8亿美元扩建计划已被无限期推迟。
现在，拍电影时再也不需要亲自前往拍摄地点了。
不论是想要科罗拉多的雪地场景、月球上的场景，还是山中客厅中拍摄两个人的场景，都再也不要搭建真实布景，只要在办公室的电脑上，就能完成一切！
而这也就意味着，巨大的变化将波及行业的每一个角落，影响到演员、灯光、运输、音效和剪辑等所有从业者的饭碗。
现在，Perry导演已经在两部电影中的现场拍摄和后期制作中使用了AI，避免了耗费数小时给演员画老年妆。
Sora的出现彻底改变了游戏规则。
在以往，HBO的试播可能需要耗资1500万、2000万乃至3500万美元，而现在，这个成本低到不可想象。公司显然会选择成本更低的方案。
在不远的将来，很多工作岗位都会消失。
影视行业该建立怎样的安全防护措施，保住大家的饭碗？

参考资料：
https://www.hollywoodreporter.co ... i-alarm-1235833276/
https://twitter.com/JMT3/status/1761443473218240558
https://twitter.com/_tim_brooks/status/1761236971186438178
https://twitter.com/model_mechanic/status/1761198301482021084

来源：新智元（公众号）
链接：https://mp.weixin.qq.com/s/JLQSUSAWqQaxl418shwQNw
编辑：李梦瑶

刘海明 · 发表于 2024-2-28 21:18:35

“全球AIGC版权侵权首判”留下的三个问题

生成式人工智能长期以来面临版权争议，一方面，此类人工智能的训练数据为文字、图片、视频等在传统上受版权保护的作品内容；另一方面，AICG的文学艺术表现力愈发接近人类创作的水准。人工智能大模型的出现加剧了此类争议：在预训练阶段，大模型以无监督的方式广泛获取各类型的版权内容，高质量的内容还能在监督微调阶段激发模型能力，更强大的模型则能够在简单的指令下生成更为“逼真”的内容。不论是文本、图像甚至视频，大模型生成内容的能力都发展到了惊艳甚至让人惊讶的程度，也让历经技术变革的版权制度再次面临诸多挑战。

作为回应，北京互联网法院在2023年11月率先做出裁判，认定用户使用提示词通过扩散模型生成的图片受版权保护，也是我国首例由司法判定人工智能“文生图”受版权保护的案例。而在2024年2月8日，广州互联网法院率先回应AIGC版权侵权问题，实现了“全球首判”。

近期大洋彼岸纽约时报版权人等也以侵犯版权为由起诉OpenAI和微软，繁杂的证据、多样的诉求、巨额的赔偿要求引发了全球热议。相比之下，广互案案情比较简单。此案原告为奥特曼系列作品的版权独占授权人（版权人为日本圆谷制作株式会社），被告通过PI接口调用大模型服务，用户通过输入提示词“生成奥特曼”即显示和奥特曼形象一致的图片，也可生成包含奥特曼局部特征或具有特殊风格（如插画风）的图片。

法院认定被告侵权，AIGC生成和奥特曼类似的图片构成违法“复制”，基于奥特曼元素的AIGC再创作构成违法“改编”。被告被判令要求停止生成侵权图片，即用户正常使用与奥特曼相关的提示词，不能生成与案涉奥特曼作品实质性相似的图片。因被告未实际进行模型训练，法院没有支持删除训练数据的诉求。在计算损害赔偿方面，判决认定被告存在过错，原因是被告未按照《生成式人工智能服务管理办法》要求建立投诉举报机制，未对潜在风险进行提示，缺乏对生成内容的显著标识，判令被告赔偿原告损失合计10000元。

判决虽然认定调用API接口生成实质性相似的图片侵犯了原作品版权人的复制权和改编权，但受限于被告并非模型训练者，而仅仅提供图片生成服务这一事实，判决留下了三个未解决的问题。

一、能否从合理使用角度回应AIGC技术带来的版权侵权挑战法院从最终生成图片的结果“近似”推导出AIGC对原作品进行了“复制”，但扩散模型对原始图像的“还原”或“再现”与版权法长期以来禁止的直接“拷贝”式的复制差异明显。此外“改编”在传统版权法含义里指的是利用原作品进行的“再创作”，有先后的顺序之分，但在AIGC技术中并没有此类差别。对此法院并未回应AIGC技术带来的核心差异，以及此类技术是否构成合理使用（包括转换性使用）。目前大模型生成能力愈发强大，一方面在各类场景中用户期待模型能够生成更为逼真的图片，而另一方面AIGC侵犯版权的风险依然普遍存在，对于各方期待的通过合理使用制度进行平衡，本案并没讨论。

二、在生成内容侵犯版权的情况下是否应当删除训练数据判决不支持删除训练数据的原因是被告为AIGC服务提供者而不是大模型开发者，不涉及模型训练。但是判决并没有直接否定删除训练数据的可能性，在判决中也强调提示词阻断不能完全消除侵权图片的生成。值得指出的是，采用此前数字内容平台版权保护常用的“侵权通知-删除”规则并不适用与大模型输出内容的管理。大模型训练数据规模庞大、来源多样，判断所有数据的版权合规性难度很大，而且大模型版本往往经过多次迭代，模型的使用基本脱离了原始训练数据，删除原始数据的手段并不能解决输出端的版权侵权问题。

三、AIGC服务提供者的版权注意义务为什么和人工智能合规责任相关判决认定被告的“过错”时，援引的并非版权法的规定，而是认定被告没有按照《生成式人工智能服务管理暂行办法》建立投诉举报机制，未对潜在风险进行提示，缺乏对生成内容的显著标识，从而构成版权法意义上的“过错”。然而《暂行办法》核心在于要求提供者承担内容管理责任，保护用户的合法权益，其出发点并不是把提供者作为“平台”，要求其按照避风港规则处理版权人的保护请求。而从《深度合成服务管理规定》开始建立的人工智能生成内容水印和标识制度，也并未在本意上用于识别、追踪和保护版权作品。判决将版权注意义务和人工智能合规责任混同，其内在原因和适用边界还待进一步探讨。

总体来看，大模型研发投入大、迭代快、竞争强，在多模态发展的关键阶段亟需稳定、可预期的制度环境，扩大模型数据供给，降低模型数据合规压力。本判例适用范围有限，也未能解决各方关注的大模型版权侵权中的核心问题。如何平衡用户对AIGC更准更真的实际需求和版权保护的要求，应当采取哪些更为合理的手段控制侵权内容生成，以及怎么界分AIGC服务提供者版权责任和其他合规义务，还期待进一步的探讨和澄清。

来源：阿里研究院（公众号）
链接：https://mp.weixin.qq.com/s/CJkKEi7U2GfTNnF8MI6MaQ
编辑：李梦瑶

刘海明 · 发表于 2024-2-28 22:02:44

多家电视台成立人工智能工作室，都有哪些打算

近日，中央广播电视总台、上海广播电视台、成都市广播电视台纷纷举行人工智能工作室揭牌仪式，标志在人工智能领域的探索和实践驶入“快车道”。

据了解，中央广播电视总台人工智能工作室将整合总台广播电视和新媒体媒资平台资源，按照节目制作需求对“央视听媒体大模型”进行训练，使之快速形成具备针对特定业务的能力，打造视听节目创新创作的大平台。

上海广播电视台挂牌成立“生成式人工智能媒体融合创新工作室”。工作室将重点布局文化传媒领域人工智能重大应用场景建设，加快推进人工智能大视听垂类模型的研发应用，推动基于AIGC的沉浸式、交互式视音频内容生成的示范应用，开展面向传媒文化类的AIGC内容生成范式探索。工作室确立了财经媒体专属AI大模型、新闻资讯类大模型应用、智能语音和大语言模型应用、智能手语数字人、生成式智能与多媒体通信、人工智能应用下的传媒伦理研究等六大重点攻坚方向，著力推动传媒领域语料数据库的共建共享，推动数据处理工具的开发与维护，编制大模型传媒语料数据地方标准，发布传媒领域高质量语料数据集，加强人工智能媒体融合领域的理论研究和人才培养，助力上海打造人工智能世界级产业集群。

成都市广播电视台“AIGC创新应用工作室”举行了首期培训会。工作室将采取“项目驱动、团队协作、创新引领”的工作机制，计划于2024年系统推出涵盖主题创新报道、AI动画、AI城市宣传片、AI短剧等系列广电AI内容。还将积极开展多种形式的人工智能社会实验，以数字文化全力助推新型智慧城市建设。

来源：传媒见闻（公众号）

链接：https://mp.weixin.qq.com/s/RSG2maFYrHM_dCHF_2s0IQ

编辑：李梦瑶

刘海明 · 发表于 2024-2-29 22:44:22

影响几何？会挤占市场但也能辅助生产——Sora引发的“出版四问”系列报道之一

　　编者按

　　输入简短的文字便能生产“大片”级别的视频。美国开放人工智能研究中心（OpenAI）近日发布的文生视频模型Sora震惊全球。

　　前有ChatGPT，后有Sora，突飞猛进的AI热潮席卷各行各业，出版业也被裹挟向前。AI对出版业影响几何？能否替代现有职业？带来哪些问题和风险？我们该如何应对？即日起，《中国新闻出版广电报》推出Sora引发的“出版四问”系列报道，试图求解。

　　“全网疯传，全球热议，想不知道都难。”近日，文生视频模型Sora生成的60秒高清流畅视频震撼发布，效果炸裂。在回答《中国新闻出版广电报》记者提出的“你是怎样知道Sora的”这一问题时，华侨大学副校长、北京师范大学数字出版研究院执行院长万安伦这样调侃。

　　多位出版人表示，Sora对出版业的影响没有ChatGPT大，它直接冲击的是影视、动画、广告行业。辩证来看，Sora在对出版市场造成一定冲击的同时，也将会引发出版业生产方式的变革，其中融合出版受影响最大。

　　或挤压出版市场空间

　　“打败你的，往往不是你的对手，而是来自行业外的跨界者。”循着这样的思路，多位出版人居安思危，提出Sora将对出版业造成一定冲击的观点。

　　人民交通出版社总编辑陈志敏对人工智能发展一直保持高度关注，他有这样的忧虑：Sora等人工智能生成的内容可能会降低市场对传统出版物的需求，并可能会对传统出版物的质量和价值产生挑战。

　　上海教育出版社副社长刘芳也提出，从早期的BBS（网络论坛）到微博、微信公众号，再到目前的以短视频为代表的“类出版”，知识生产和发布方式越来越方便和快捷，读者的注意力和时间留给纸质阅读的会越来越少。她不无忧虑地说：“如果Sora之类的人工智能广泛应用，优质短视频等‘类出版’的生产方式将带来革命性的提升，内容发布周期短、审核相对宽松的优势将更为显著，出版业靠书号等准入门槛而带来的行业‘护城河’可能越来越脆弱。”

　　不仅是传统出版人，数字出版人亦有这样的担心。数传集团常务副总裁温亚莉直言：“Sora等人工智能技术带来海量、免费、优质的内容，将直接挤占图书的生存空间。”

　　北京童立方文化品牌有限公司董事长杨文轩认为，Sora这种多模态的人工智能不仅会挤占纸质图书市场，就连数字图书也会受到巨大挑战，“数字图书也是以文本形式存在，只是没有印在书上”。他由此提出“范式变革”的概念，“我们几千年来用文本的形式进行知识和信息传播的方式将改变，出版业的产品形态会发生变化，我们的产品不只是书。”

　　将改变内容生产方式

　　传统的出版业主要依赖于文字和图像来传达信息，而Sora则可以通过生成高质量的视频内容来提供更加生动、直观的阅读体验，这将使得出版业在内容创作方式上发生变革。中国出版集团公司党组成员、中国出版传媒股份有限公司副总经理于殿利就认为，Sora将进一步推动内容创作的多元化和多形态展现，为出版行业提供更多的内容创作手段，同时也会进一步带动市场对于视频内容的需求。

　　“Sora生成视频的便捷、逼真、传播快、成本低等优势，必将运用于出版业中的信息采集、产品制作和传播推广等各个生产环节，因此它对传统出版业产生的影响是立体的、全产业链的。”中国编辑学会原副会长郭德征也表示。

　　内容创作方式的变革将带来出版形式的多样化。陈志敏认为，Sora能够生成包含多个角色、复杂场景和特定运动的视频，这将为出版业带来更多的内容形式选择。他举例说：“教育类出版物可以利用Sora生成更加生动的教学视频、仿真实验，科普类出版物可以通过视频来展示复杂的科学原理等。”

　　同时，多位出版人提到Sora降本增效的作用。中国工信出版传媒集团副总经理张立科认为，技术成熟期，出版业可以利用Sora生成视频内容并将其应用在新形态图书、数字教材、富媒体电子书以及视频课程等方向，减少拍摄和后期制作的成本，从而降本增效。不过他认为，现阶段还不行，初期成本应该非常高。

　　温亚莉也认为，传统的出版业需要作者和出版人投入大量的人力、物力和时间来创作、出版图书等出版物，而Sora则可以通过人工智能技术，快速地将文字描述转化为视频内容，这将使得内容创作变得更加高效和便捷，也将大大提高出版效率，降低出版成本。

　　融合产品受影响最大

　　“Sora的推出，可能会极大地影响数字出版的各个方面，正像2022年11月推出的ChatGPT对图书出版的影响一样。”中央广播电视大学音像出版社原社长徐锦培这样判断。

　　同为电子音像出版工作者，山东电子音像出版社社长刁戈也观察到这个改变，“3D模型、高质量视频对于出版行业的加持作用已被广泛重视，但不菲的成本影响了应用的广泛性和产品的精细度。Sora将有可能大幅降低VR、元宇宙产品的制作成本，大大提升融合出版产品的质量和数量。”

　　新华文轩四川数字出版传媒副总经理刘天骄也认为，Sora对推动融合出版的发展将有促进作用，为AR、VR及视频与文字内容的融合提供了新的技术模式，有望为出版物的新场景提供可行的新手段。

　　出版营销专家三石则从相反方向进行提醒：“我认为Sora让我们重新洗牌的首先是图书AR领域，当下不少图书AR产品的内容创作质量低、读者使用的体验感低，但是价格高，有的还用‘元宇宙阅读’做‘噱头’，这类图书AR产品会被迅速淘汰。”另外，三石认为，Sora对低端且同质化的图文内容及视频类融媒体出版是个极大的冲击。当然，他也从图书营销方面积极提出，Sora会成为营销传播利器，会促进出版营销能力的提升。“从出版业的角度来看，Sora较低水平的插画师和视频创作者更强大。”

责任编辑: 张泽月

来源：中国新闻出版广电报
链接：http://www.zgjx.cn/2024-02/29/c_1310765834.htm
编辑：李梦瑶

刘海明 · 发表于 2024-3-1 21:43:38

【案例】

中国初创公司元语智能首发ChatYuan，向ChatGPT“宣战’

编辑：李梦瑶

刘海明 · 发表于 2024-3-1 21:46:42

Sora 发布两周后，关于 Sora 的一些冷思考

Pika 是前菜，Sora 才是主菜。

作者丨王悦

编辑丨陈彩娴

两周前的今天，北京时间 2 月 16 日，OpenAI、谷歌、Meta、Stability 都在这一时间节点前后发布文生视频模型成果，但只有 OpenAI 的 Sora 在这场角逐中破圈而出，成功抢占全球的注意力。可以说，Sora 打响了文生视频大模型行业 2024 年的第一炮。

面对 Sora 着实优异的视频生成效果，短时间内 AIGC行业内掀起一轮又一轮讨论，一方面，没人想到 OpenAI 的动作如此之快，令人激动兴奋的同时也来不及招架，另一方面，也都在为其 “60秒超长长度”、“单视频多角度镜头”和“世界模型”的等炸裂的效果震惊，并声称会迎来行业洗牌。

在对于 Sora 的各种争论、预判热火朝天、此起彼伏的时候，AI 科技评论反观从最初的 Disco Diffusion 再到 Stable Diffusion 出现的过程，并和行业内的投资人、技术专家、学术大咖、AIGC创业者等数十位行业人士做出了关于 Sora 的冷思考。

从长期的角度来看，不可否认 Sora 是文生视频大模型的里程碑事件，标志着视频生成能力上升到新高度。但一些业内人士也指出，“大家要清醒”，Sora 的冲击也没有想象中那么大，不会对影视、广告、内容创作等领域产生立竿见影的颠覆性影响，也不一定会断了 AIGC 创业者的后路。

Sora 发布两周之际，此时更需要的不是热捧，而是降温。Sora 的影响，不急于在当下就说完道尽，更需要在接下来 1—3 年的时间中且行且看。

1

Sora 技术不无探索空间

Pika 火爆之时，香港大学计算机教授徐东老师称其是文生视频行业的曙光——让世界看到了文生视频的惊艳效果，但同时也意识到，Pika 只是先跑出来的那个，它离大规模的用户付费还有一段距离。

而 Sora 的出现，徐东教授则评价其是一个“极大的 breakthrough（突破）”，它不是一个简单的从 ChatGPT-3.0 到 ChatGPT-4.5 的迭代，而是对之前视觉模型的一次降维打击。

60 秒的视频长度，让其他文生视频产品望尘莫及 Sora 。但其实，跳出生成长度的考量要素，生成速度也是考量文生视频大模型的关键指标。

一个 60 秒的、效果惊艳的 AI 视频，其背后的生成时间是十分钟还是一个小时，对使用者来说是截然不同的体验。如果生成时长在 60 秒以内，就又会是另一番惊人的效果。

面对未来视频生成低时延的要求，背后算力的支持情况是最根本的基础。预计通过什么方式能够高效调用算力去满足庞大的需求量，这些是 Sora 等文生视频模型可以探索的空间之一。

解决生成时长的一系列问题，除了算力之外，石榴科技创始人 Frank 认为背后技术的解决方案也是关键影响因素之一。因为 Sora 底层是一个扩散模型，如果模型本身有一些限制导致处理的速度达不到，那生成的时间确实快不了，即使算力再强也用不上。

除了生成视频的 60 秒时长外，世界模型也是 Sora 带给人们打开的新视野。从世界模型的技术起源来说，Sora 目前的做法和杨立昆最开始提出的是不一样的。Yann LeCun更强调在空间中去做规则表达的理解，即能不能直接在这个模型中找到被清晰定义的某个对象的表达。

Sora 显然和这种做法是不同的，他们走了“大力出奇迹”的路子。用基于 Transformer 的 Diffusion 去压缩，这仍然是一个数据驱动生成式的基本方法。

在这一过程中能否真正地去反推归纳出中间学习到的物理规律，动漫生成「捏Ta」产品创始人胡修涵表示这仍然需要被打一个问号。如果相信 OpenAI 的哲学就是“Scaling is everything”，之后可能会随着规模的扩大，压缩效能越来越强，模型就被迫学会和总结到了所有的物理规律，但是基于现在的模型规模和效能，还不能直接得出 Sora 是世界模型的结论。

Frank 持有同样的观点，并补充道不仅要从物理的意义上来看，也需要从非物理的角度去思考。作为一个世界模型，更需要考虑到社会中的「人情规律」。就像当一个小宝宝手里的东西被抢走后，Sora 是否能成功地预测出来宝宝会哭——所以世界模型除了符合物理规律的演进以外，也需要更进一步地满足日常生活当中的场景和判断。

而这种社会意义上的信息，大部分都不是通过文字和语音来表达的，背后仍然要探索文生视频模型怎样才能理解、生成到位。为了实现这一效果，Frank 认为则需要建立表面文字和其背后潜台词之间的对应连接关系。

基于 OpenAI 冰山一角之下的海量数据和一定连接关系的建立，GPT-4 已经展现出它对于人类潜台词、双关语句等很多复杂内容的理解率是非常高的，表现得很聪明。

Sora 也同样值得期待，看它是否能有更多的联想，提示一句话，就能理解背后的 10 句话，然后用 10 句话来去完成一个更好的作品。

但现阶段的视觉模型 Sora 又不同于之前的大语言模型。在 OpenAI 成立的早期，大部分的研究成果都是开源的，甚至数据库也是放出来开源的。但是现在已经不再是开源的， Sora 的技术报告只对外讲了很宏观的框架，剩下的都需要同赛道公司自己去探索。

徐东教授认为 OpenAI 的闭源，使得追赶探索 OpenAI 成果的工作变得很难。但从社会宏观的侧面出发，国内是有必要追赶 Sora 的。

一方面，诸如游戏或其他涉及商业机密的行业跑在 OpenAI 的底层技术上并不是很合适。另一方面，文生视频技术的攻防问题也是更重要的侧面。因为 Sora 这套技术会很容易地生成大量的虚假视频，之后可能会被别有用心者用来散播一些虚假视频或价值观不正确的视频以引导舆论。面对这样的情况，如果都不知道对手是怎么进攻的，那也很难防守。

从应用的方面来讲，国内对于文生视频的需求是很旺盛的，不能都翻墙去用 OpenAI 的产品。

追赶 Sora 这是一件长期的事，也需要更多的社会资源倾斜进来扶持人才，人才是这场新的 AI 竞争的核心。

目前，港大的罗平教授带领学生们正一点点摸索文生视频，在几乎没有卡的情况下，研究出来跟 Sora 最像的技术路线。

在 Sora 冲击下的 AI 竞争格局中，做产品应用是一个更安全的方式，国内同样也需要深耕追赶技术的公司。因为无论做任何产品，如果技术底座不坚实，又没人开源，好产品是很难问世的。况且，在 Sora 的基础上做应用，如果 Sora 卖得很贵的话，那么产品的意义也不会很大。

2

内容生态不会被轻易撼动

Sora 强悍的内容生成能力，最先冲击到的就是和视频相关的内容产业。

Sora 的出现的确会让一些大厂紧张，比如以字节剪映为代表的智能剪辑工具。某大厂内部人士透露，Sora 对视频的冲击确实挺大的，内部还没有太想清楚这个事具体要怎么玩。

徐东教授认为，剪映作为一种剪辑工具是成熟的产品，且技术特点没那么强，在有擅长工程化、产品化人才的情况下，Sora 也可能做出来。而文生视频的技术则是重磅功能，剪映如果没有办法很好地提高质量服务，很可能在 Sora 积累到足够的用户量之后被降维打击。

但如果剪映自己做得好，智能生成能力会成为核心创作流程中核心的步骤。如果剪映不这么做，那么剪映的意义长期来看肯定是会被消磨掉很大一部分。

在 Sora 和抖音等内容生成平台的关系上，胡修涵认为 Sora 不会是去直接取代抖音生态位，因为单纯的 AIGC 并不能取代分发价值。而 Sora 不应该是一个素材提供框架，更加是个模板生产器，如果 Sora 的智能得到很好的运用，它会变成一个更强的模板格式，而不会构成中间的每段素材。

但完全由 AI 生成的虚假视频内容，是会对平台的内容产生影响。前快手全景视频业务负责人、英俊文化联合创始人马英武表示，相比较于流量处于二线位置的内容平台，Sora 更多地会冲击一线位置的内容平台，甚至对二线位置的内容平台来讲，是一个个锦上添花的一个事情，因为以前还会考虑，内容生产端端供给不足，现在 AI 内容能够让生产从数量和质量上丰富起来。

对于像抖音、快手这样流量较高的平台，Sora 带来的 AI 内容充斥进去之后，对平台首先的考验就是能否把流量精准分配到最好的内容上，这对技术和算力都是一个挑战。

如何平衡真实内容和 AI 内容的关系是需要面临的问题。平衡不好的话就会面临原本优质创作者的流失问题，因为他们没有得到足够播放量的正反馈就会选择「出走」，或者创作者也会降低他们内容生产的质量，比如，原本一条视频有 100 万播放量，创作者会按照 100 万播放量的要求做好内容，但 AI 内容分走蛋糕后，播放量只有1万了。创作者就会抱着「随便做做」的心态应付内容，降低标准，不断形成恶性循环。

根据抖音快手的用户协议，目前都会有一条就是禁止使用 AIGC 相关的工具去批量生产视频内容，或者也会要求对AI内容进行显著标记以示提醒。平台也会防止 Sora 这类工具生产的 AI 内容去破坏原有的内容逻辑。

除此之外，Sora 对以 PGC 为主的长视频生产和以 UGC 为主的短视频生产的冲击也是不一样的。

虽然 Sora 还没有完全出来，行业内都在预测其价格应该很贵。对于 UGC 而言，制作 1 分钟以内的短视频价格都是很高的。甚至马英武调侃道，根据对创作者的了解，国内内容创作者的付费意识较低，除非 Sora 特别便宜到用一次一块钱，否则就很难以被广泛接受，因为创作者制作一条视频有时甚至是零收入。

对于 PGC 的长视频而言，如何能保证主体的一致性、稳定性、持续性，都尚未可知。而影视行业又有很强的头部效应，这也是长视频的逻辑，只有长视频的效果做到最头部的位置，才能在院线里拿到最好的排片。如果做了一个内容不是很抗打的二三线的长视频，那么虽然也能进院线，但是营收也不会太好。

所以长视频是要向着冲击最顶部的方向去，做二三线的视频意义不大，而AI视频是否能做到一线这对 Sora 来说是很大的考验。

Sora 更多的还是对视频生产链路产生变革。Frank 向 AI 科技评论透露，当下文生视频工具的角色更像是在原本的工作流程中，能够用 AI 的部分都用 AI 来做。但它也只是一个生产工具，需要有人来去创业的。策划、编导、脚本语言、拍摄这样一个工作流中，Sora 只会对后两者产生一定的替代作用，但不会替代前两者。

Sora 也可以运用在时下火爆的短剧制作中。Sora 具备生成一分钟视频的能力，已经足够做一集内容了，这样就可以纯原创，可以实现纯足不出户拍短剧，成本又极大降低。

但即便是 Sora 能出来，并且效果极好，也不是谁都能拍短剧。Sora 更多的只是工具，降本增效，无法取代能力和创造力。就像咪蒙无论有没有 Sora，他都会火。也如同现在的 ChatGPT 已经很完善，但鲜少有人通过用 ChatGPT 写出 10 万加的超级爆款。

过去会有一些编剧或其他创造能力很强的人，他们的内容足够好，只不过受制于生产力，他们没办法那么高产，这样Sora可以极大程度缓解他们的痛点。但是对于普通人而言，拍出流量和关注度高的短视频，门槛是极高的。

综上，Sora 出现之后，创意点、创造力、创新性的重要性不会变，对内容的思考和理解也是不会变的。Sora 其实无法去撼动那些本来就是靠优质内容为生的部分。

在短期的 1-3 年内，Sora 带来的不变会大于改变。就像在影视娱乐、短视频的行业中，原本的工作流和行业知识依然非常重要。

3

创业者不无机会

「Pika、Runway 这样的文生视频初创公司该怎么办？」这是 Sora 出来后，行业内人士不约而同会发出的疑问。

的确，基于一个已有的、很明显是过时的技术框架直接扩张用户数量的公司，现在确实处于危险的位置。

因为在这个过程中，不仅围绕着上一代、不成熟的技术框架做了很多工程适配、产品验证、画蛇添足的设计，同时产出的结果要迁移到新的过程中，还会一定程度上牺牲老用户的利益，也会让整体的迁移过程像在飞行的飞机上换引擎一样痛苦。

但于 Pika 而言，它和 OpenAI 一样都是微软系公司，两者其实是一个阵营。有行业内人士判断，Pika 在一定程度上更像是一个排头兵或者是试验田，当然 Pika 之中有很好的技术，用他们先来呈现，以获得反馈。而之后 OpenAI 的 Sora 才是更重磅的，是要经受更多考验的产品。

至于 OpenAI 和其他生存下来的 AIGC 公司的关系，现在一超多强的局势初步呈现，还很难看到终局。Frank 表示，可以确定的一点是，使用者靠近 OpenAI，创业者远离 OpenAI 。

和 OpenAI 的业务主体技术保持一定安全距离，和他能够辐射到的市场需求保持一定空间，这个空间需得是它作为一个超级应用的大公司还暂时触及不了的，而在这些领域是可以形成业务纵深，知道自己的生存缝隙，比如 AI 教育、AI 电商。

出现这些机会的背后，定然是市场和技术的结合，也是国外公司必然触达不了的角落，国内的互联网产品比国外做得更精细、更强、更适配、更好用，更能满足我们中国人自己的需求。这样相比之下，国外产品的竞争力会降低。

如果是把 OpenAI 或者其它大模型作为一个超级底座的话，在此基础上更进一步的细化对具体的技术和业务理解会更重要。去做某一类人群、或者说特定垂类上的内容需求，都是有价值的。

胡修涵举例说，面向电商的营销场景的内容生成，都是值得单独做的事情，但是在大块的垂类场景的之上，它也不会是一个切得过于细碎的区块。比如，不能为一个剪映模板能做出来的视频，专门去训一个模型创业，这就违背了通用人工智能的基本逻辑。

本质上来讲，现在 AIGC 产品的母模型都是大语言模型，也可以理解成，大模型在更大程度上是一个概率抽样器，所以它会基于给定的条件，输出一个平均的结果。一旦在一个确定的领域上深耕，需要模型输出的往往是小概率、反共识、反常规的一些结果，这一部分就需要做单独的适配才能更符合这部分用户的习惯，这也是 AIGC 创业者的机会所在。

当下，对于人才密度不够的创业团队而言，重做技术的风险很大，马英武认为此时的机会反而在于做用户运营。在 Sora 上搭建一套新的工具栏，「做皮不做瓤」，基于这样的模式去做工具运营，生产的内容也可以留存到自己的平台，如果这时候能有一个消费平台，就可以做出从生产到消费的自闭环。

在这个过程中，技术虽然是属于 Sora ，但用户、内容、渠道都属于创业者，未来这种中小型平台诞生的可能性非常大。

Sora 冲击之下，无论是做技术还是做产品，都需要有一些原生的、开拓性的思考、积累、预判、坚持，如果单纯地亦步亦趋则前路渺茫。

来源：AI科技评论（公众号）
链接：https://mp.weixin.qq.com/s/Zqs8hvTLPOZrE6K9s1Bisw
编辑：李梦瑶

刘海明 · 发表于 2024-3-1 23:34:43

人工智能传播：病毒还是解药

去年讨论ChatGPT时，笔者曾经推测，如果没有意外的话，一年后，或者更短时间，将会有新的技术热点替代它，就像元宇宙替代区块链、ChatGPT替代元宇宙一样。新技术一如耀眼明星光芒四射，而被替代的技术则黯然退场，被资本、政策和研究者弃之如敝屐。Sora的登场，一时惊艳了四座，人工智能生成从文字、图片跨越到了视频，好像输入一本小说，就能产出一部影视剧，这运算能力和智能化程度，确实让人叹为观止。

不过，回到技术与人类的关系来看，Sora作为人工智能传播的新地标究竟是病毒还是解药，似乎难以确认，通常的表述会是打开了一个新的“潘多拉的盒子”。好奇心是人类进步永不枯竭的源泉，激励着创新不断涌现。但另外一面，好奇害死猫，如果技术创新是病毒，则不如抑制一下好奇心；唯有技术创新致力于成为医治人类社会顽疾的解药，这样的技术创新才值得我们为之欢呼。当然，技术创新未必都会自觉如此。例如，互联网诞生于冷战时期的军事对抗，到今天却成为世界对话与交流的网络，甚至成为当代社会生活的基础设施。这也是技术发明者所始料不及的。

引发笔者将新技术类比为新病毒还缘于一种技术观察的现实。新病毒的出现往往是断裂式的，例如2003年的非典和刚过去的新冠肺炎大流行。新型病毒突如其来的入侵，让既有医疗技术束手无策，没有特效药，也没有针对性的疫苗，只能被迫另起炉灶，针对新病毒启动定向的研发，以遏制病毒的肆虐。让笔者将新技术定性为一种新病毒的假想，缘于社会对新技术的态度和对待新病毒的态度如出一辙：永远关注最新的，而对被更迭的技术先驱似乎存在[color=var(--weui-LINK)][url=]健忘症[/url]。假若新技术具有新病毒的特性，这“病毒”就成了人类自己投放给自己的“[color=var(--weui-LINK)][url=]毒丸[/url]”，而不是大自然演化强加给人类的各种病毒。如果这样的逻辑真能够成立，人类可真是病入膏肓了，只能不断通过导入病毒激起活力，颇有“垂死梦中惊坐起，笑问客从何处来”的荒诞。

按照最为质朴的逻辑，新技术的诞生，应该是医治人类社会顽疾的解药。就新传播技术的演化来看，自然是致力于促进人与人之间、人与社会之间更有效的交流沟通，以促进多元观念之间形成建设性关系，推动更高程度的社会共识达成。共识何以重要？因为只有共识程度越高的社会问题解决方案才会越有效。如果一个社会缺乏足够程度的共识，将会面临分崩离析的风险，日益陷入到连绵不绝的摩擦与冲突之中。此外，深度媒介化社会的不断发育也从另外一个层面证实了媒介沟通对于社会发展的重要性正被日益凸显。互联网刚刚登场时刻，人们之所以为之喝彩、为之欢呼，其实不外乎它给人们提供了更多交流沟通的希望。

如果我们视技术为社会演化的独立参与要素，技术则需要遵循“解药”的创新伦理。具体到新传播技术而言，技术创新需要回到解决人与社会沟通交流的问题主线上来，才能确保我们对技术创新的关注不是断裂式的、病毒式的，而是有着明晰而有力的逻辑主线。以此来评价过去30多年互联网技术的发展，我们会发现在新技术不断更迭的表象下，人类沟通交流的状况似乎并没有得到有效改善，信息茧房、群体极化与后真相时代的诸多标签成为我们体察时代问题的共识。这样的结论显得有些尴尬，在无数次为新技术的英明神武而欢呼后，我们却似乎只收获了一地鸡毛。很显然，对新技术过于乐观的判断是武断的，还需要在基于“病毒”框架开展观察而获得的切片式的结论之外追问“解药”的逻辑。当我们把诸多“切片”叠加在一起，或许能看得另外的一种结果。如果我们继续以“病毒”逻辑进行断裂的、孤立的研究，“东边日头西边雨”的热闹过后，其实还是很难为解决社会交流问题找到“解药”。

来源：新闻大学（公众号）
链接：https://mp.weixin.qq.com/s/aMjtW4iYFvvsnQRLGFtC7g
编辑：李梦瑶

刘海明 · 发表于 2024-3-2 21:27:48

马斯克起诉OpenAI 欢迎AI来到真实世界

周末，全球科技界又爆猛料：OpenA被告上法庭了，起诉者还是前联合创始人马斯克。

当地时间2月29日晚间，特斯拉CEO埃隆·马斯克（Elon Musk）向旧金山高等法院提起诉讼.

马斯克在诉讼中表示，奥特曼和OpenAI违背了这家AI研究公司成立时达成的一项协议，即开发技术以造福人类而不是利润。马斯克声称OpenAI最近与科技巨头微软的关系损害了该公司最初致力于公共、开源的通用人工智能（AGI）的目标。

法院文件显示，马斯克对OpenAI提出了包括违约、违反信托义务和不公平商业行为在内的指控，并要求该公司恢复开源。

马斯克还要求法院下达禁令，禁止OpenAI、其总裁格雷戈里·布罗克曼和奥特曼（此案的共同被告）以及微软从该公司的人工通用智能技术中获利。

马斯克指出，OpenAI与微软的合作关系，尤其是对最新GPT-4模型的闭源处理，显然与其公开、共享的承诺相悖。

他强调，这种闭源策略不仅阻碍了科研进步，更是将原本应服务于公共福祉的技术变成了商业巨头追求利润的工具。马斯克认为，OpenAI此举明显违背了双方初始协议，从而构成了违约行为。

①

马斯克起诉OpenAI，要求其全面开源，对于大洋彼岸的我们而言，是支持还是反对？

从国内企业的角度来看，如果OpenAI全面开源，就可以低成本、快捷地“弯道超车“，当下轰轰烈烈的”百模（大模型）大战“，可以省下多少投入呀。

但有一说一，马斯克在诉讼中诉求禁止OpenAI、布罗克曼、奥特曼及微软从AGI技术中获利的行为，有些自相矛盾。

毕竟，特斯拉自身也在不断推进自动驾驶等前沿AI技术的研发和应用，这其中同样蕴含着巨大的商业价值。

或许，马斯克发起这次诉讼，还有一个原因是他不喜欢微软和比尔盖茨。

微软是一家坚持闭源模式的企业。微软在20世纪90年代至21世纪初，凭借Windows操作系统和Office办公软件等闭源产品在全球范围内占据主导地位，它对开源软件持强烈反对态度，特别是Linux被视为对其商业模式的威胁。

比尔·盖茨在1998年的备忘录中将开源视为对知识产权的威胁，更是引发了一场关于软件开发模式的大讨论。

除了闭源与开源主义之争，马斯克和比尔盖茨还有不少私人恩怨。

②

此前，马斯克对比尔·盖茨在自动驾驶技术方面的看法有所不满。马斯克积极推动特斯拉在自动驾驶领域的研发，而据报道，比尔·盖茨在相关评论中表达了对比特斯拉Autopilot等现有自动驾驶系统的保守态度，认为这些系统距离真正的全自动驾驶还有较大差距。马斯克因此在社交媒体上发表意见，甚至嘲讽比尔·盖茨在这方面不够前卫或者“土”。

在2022年，马斯克计划收购社交媒体平台推特的过程中，比尔·盖茨对此持反对态度，去年12月，盖茨批评马斯克：凭直觉做决策致推特混乱，加剧数字两极分化。，

马斯克和比尔·盖茨在电动车行业的投资和信念也有所不同。2022年，当时盖茨做空了特斯拉股票，押注特斯拉股价会下跌。这一举动让马斯克感到非常愤怒。

③

当然，此次诉讼的背后，肯定不是一诉解恩仇那么直白。坦率说，马斯克是一个公关大师，尤其是当他意识到[color=var(--weui-LINK)][url=]生成式[/url][color=var(--weui-LINK)][url=]AI[/url]所带来的技术和市场价值后，很快宣布 xAI 公司正式成立，虽然口号仍是高大上的““了解宇宙的真实本质”，但打造一家能够与微软、谷歌抗衡的第三大人工智能(AI)公司，才是他的真实想法。

因此，马斯克利用此次诉讼，试图拖住OpenAI及背后的微软，也就顺理成章了。

以上都是我的个人猜测，马斯克此次起诉，或许就是要站在AI如何更好服务人类的大局，高举开源的正义之旗，坚决打击奥特曼、比尔盖茨等一小撮保守主义者自私自利的闭源行为。

④

回到此次诉讼的开源与闭源、公益与营利之争，看似矛盾的道德命题，实则是科技进步过程中必须审慎权衡的现实议题。

开源与闭源，这两个概念出现在软件领域。。在20世纪50年代和60年代，软件主要是作为硬件的一部分附带提供的，很少单独销售，那时并没有明确的开源或闭源概念。

开源软件作为一种明确的开发模式和哲学，则相对较晚出现。开源运动的起源可以追溯到1970年代和80年代，当时出现了Unix操作系统及其衍生品。

但“开源”这一词汇直到1998年才被正式提出，当年，开源倡议者布鲁斯·佩伦斯（Bruce Perens）和埃里克·雷蒙德（Eric S. Raymond）等人为推广自由软件运动，提出了“开源”这一更容易被商业世界接受的概念，以替代“自由软件”一词，同年成立了开源促进会（Open Source Initiative, OSI），制定了开源定义并开始认证开源许可协议。

科技界的“开源模式“倡导分享、透明、合作和开放创新的理念。开源软件意味着源代码可供公众查看、使用、复制、修改和分发，无需支付版权费用。开源软件强调的是知识共享、社区驱动、集体智慧的积累和升华，以及对技术民主化的追求。

“开源主义“使得任何人都可以参与到开源项目中，这意味着更多的头脑、更多的创新想法得以汇集，大大加快了软件的创新和发展速度。

同时，开源软件便于学习和教学，有助于培养新一代开发者，也有利于新手快速熟悉实际项目开发流程。

此外，开源促进了技术标准的制定和应用，有利于不同系统间的协同工作

然而，“开源模式“并非完美。开源软件的商业模式较为复杂，难以单纯依靠售卖软件获取收入，可能导致开发者难以得到充足的经济回报。

尽管开源理论上可以吸引大量贡献者，但缺乏有效的管理和质量控制可能导致代码质量和用户体验参差不齐。常用安卓手机的用户，对此深有体会。

⑤

相比之下，闭源模式属于“古典知识产权模式“，强调的是知识产权保护、独家所有权和商业模式的稳定性。开发商通过拥有源代码的独家使用权，来保护投资、确保收益和维持竞争优势。

对于开发者而言，闭源软件可通过销售授权许可获得直接收益，激励开发者和企业投入更多资源进行研发和维护。还能保护核心技术不受竞争对手抄袭，维护企业的竞争优势和市场地位。

当然，支持闭源模式的开发方往往还称，通过严格的内部质量管理，闭源软件在产品质量、一致性和服务支持上有更高的标准。苹果ios系统就是典型。

但开源主义者对闭源模式的质疑，就如马斯克所说，闭源可能导致技术垄断，不利于市场竞争和新技术的普及应用。

由此，开源和闭源，被演绎成了技术垄断与反垄断。

⑥

其实，无论是中国还是美国，AI领域的开源与闭源模式众多，除了谷歌和苹果外，两派阵营都不乏大量知名企业。

比如，Facebook的AI研究团队开发的开源机器学习库PyTorch，以其动态计算图和易于使用的API著称，被广泛应用于深度学习研究和生产环境。

亚马逊AWS赞助的开源深度学习框架[color=var(--weui-LINK)][url=]MXNet[/url]，以其高效和灵活性获得了广泛的关注和支持。

在闭源模式中，除了被马斯克起诉“开源不彻底“的OpenAI外，DeepMind的Alpha系列AI系统（如击败围棋世界冠军的AlphaGo、星际争霸II AI AlphaStar以及蛋白质结构预测的AlphaFold）虽然在科学界引起了轰动，但其核心技术与算法细节并未公开

在国内，华为曾表示其盘古大模型不会开源，以保护商业利益和技术优势，这类大型预训练模型主要用于内部研发和商业化应用。

商汤等专注于计算机视觉和深度学习应用的AI公司，其核心算法和模型往往是闭源的，以保护知识产权和维持技术领先地位。

⑦

说回马斯克，在特斯拉电动汽车技术方面。2014年，特斯拉决定开放其电动车相关的专利技术，鼓励其他汽车制造商使用特斯拉的专利，以加速全球电动汽车产业的发展。

马斯克认为，通过这种方式可以促进整个行业的进步，并加快向可持续能源的转型。

然而，在其他场合或项目中，马斯克的企业并没有始终坚持开源策略。马斯克旗下的SpaceX 和 Neuralink 公司，其技术和研究成果往往并未对外完全开放源代码或详细设计。

SpaceX 在航天器和火箭方面的技术和设计是高度保密的，属于典型的闭源商业秘密，而 Neuralink 在脑机接口技术方面也没有采取开源策略。

可见，马斯克的众多创新项目中，并非所有技术和成果都坚持开源。为啥马斯克言必称开源，甚至为此OpenAI和奥特曼，自家企业却没有做到百分百的知行合一呢？

首先，相较于传统软件开发，这些新兴产业的投资规模与技术研发难度不是一个量级，过早的开源或许如同揠苗助长。

以OpenAI为例，其在GPT-3模型的研发上耗费巨资，据估计仅训练费用就高达数千万美元，且不包括前期的研发投入和后期的服务器运维成本。

印度新闻媒体平台Analytics India Magazine2023年的一份报告称， OpenAI可能在2024年底破产。报告称，OpenAI仅运行其人工智能服务ChatGPT每天就要花费约70万美元。

报告称，自从其开始开发ChatGPT以来，其亏损额在5月份翻了一番，达到了5.4亿美元。微软对OpenAI投资了100亿美元，这可能是目前支撑该公司运行的原因。

这就是OpenAI选择闭源模式的原因。在尚未回收成本、确立商业模式之前便匆忙开源，很可能造成巨额投资瞬间贬值，挫伤投资者信心，遏制进一步的创新投入。

⑧

此外，马斯克还忽略了一个不宜道明的因素。

人工智能不仅仅是科技，其战略价值不容小觑。它关乎国家安全、社会秩序乃至全球科技竞争格局。过早开源可能将关键技术拱手让人。就如同高精尖武器的研发一般，人工智能领域的核心技术也存在着一定的保密必要性。

OpenAI彻底开源，美国政府还未必开心呢。

同样，在太空科技领域，马斯克的星链计划也体现了这一点。

该项目总投资预计超过百亿美元，涉及卫星制造、发射、地面站建设以及运营管理等环节，每个环节都是高科技密集型且充满挑战。

倘若在技术成熟前就将核心技术开源，可能会加速竞争对手的追赶速度，甚至造成自身在商业竞争中的劣势。

去年，就曾有美国议员提议拜登政府要采取行动，限制美国企业参与合作研发在中国广泛使用的RISC-V开源技术。

可见，对于人工智能和星链等新兴科技产业，开源与否并非简单的二元选择，而是关乎产业发展策略、创新动力维护以及国家安全等多重考量。

⑼

针对马斯克的此次起诉，我其实很想问ChatGPT：你怎么看马斯克给你上的“这一课“？

这其实也是一个挺有意思的话题：随着生成式AI越来越聪明，各国都在讨论：AI何时会取代人类？

尽管现代生成式人工智能系统如GPT系列不断刷新我们对其智慧的认知边界，在模拟人类思维的深度与广度上仍存在着明显的局限性。尤其当涉及到“赚钱”这一人类经济活动的核心概念，或是复杂的政治运作机制时，AI尚无法像人一样完全理解和参与其中。

这就揭示了一个至关重要的现实——即便机器智能日益精进，对于人类社会那些错综复杂、充满动态适应性的要素，AI的理解与运用依然面临着难以逾越的鸿沟。

“赚钱”，这一看似简单的词汇背后蕴藏着深邃的社会经济学原理、市场策略以及个人价值观的交融。它涉及创新、竞争、合作、风险评估等诸多因素，而这每一个环节都需要对人性有深刻洞察及灵活应对的能力。

生成式AI虽然可以模拟预测市场走势，甚至编写投资策略，但在面对市场经济中的非线性关系、黑天鹅事件及社会心理等因素时，其理解与决策能力却远不及经验丰富的人类。

在政治领域，权力运作、外交博弈、政策制定与执行等均要求具备深厚的文化底蕴、历史观照、伦理考量和人际互动技巧。政治不仅仅是逻辑推演与数据分析，更是情感动员、价值塑造和战略预判的交织。

当下最尖端的AI虽能辅助政策分析、舆情监控，但在真正理解和实践政治智慧方面，仍无法替代人类的独特判断与创造性解决问题的能力。

AI能编程，能绘画，能创作文字、音乐和视频，但这远远不够，AI还要学会懂人性，知世故。这方面，它需要学习的还有很多。这次诉讼，就是让AI来到真实的人类世界，感受代码无法解释的种种奥妙。

来源：评论员毕舸（公众号）
链接：https://mp.weixin.qq.com/s/f1oXlLgUeVlTQgR_lsXGIQ
编辑：李梦瑶

帐号		自动登录	找回密码
密码			实名注册

人工智能与新闻业案例集锦

【案例】OpenAI 首席执行官萨姆·奥尔特曼 (Sam Altman) 终于承认人工智能行业正在...