' `1 [$ R: J6 C# g新智元报道
编辑:润 好困【新智元导读】谷歌DeepMind、UC伯克利和MIT的研究人员认为,如果用大语言模型的思路来做大视频模型,能解决很多语言模型不擅长的问题,可能能更进一步接近世界模型。
1 a- _$ S% P6 Q0 ~4 O没人怀疑,OpenAI开年推出的史诗巨作Sora,将改变视频相关领域的内容生态。
但Google DeepMind、UC伯克利和MIT的研究人员更进一步,在他们眼里,「大视频模型」也许能够像世界模型一样,真正的做到理解我们身处的这个世界。
在作者看来,视频生成将彻底改变物理世界的决策,就像语言模型如何改变数字世界一样。
研究人员认为,与文本类似,视频可以作为一个统一的接口,吸收互联网知识并表征不同的任务。
例如,经典的计算机视觉任务可以被视为下一代帧生成任务(next-frame generation task)。
模型可以通过生成操作视频(例如「如何制作寿司」)来回答人们的问题,这可能比文本响应更直观。视觉和算法推理也可以作为下一帧/视频生成任务。
视频也可以统一不同实体(embodiment)的观察空间(observation space),因此可以使用单个视频生成模型为不同机器人生成视觉执行计划:
/ ^: c3 _0 U0 C