宋东桓：Sora可能会颠覆好莱坞，但优秀更取决于想象力 | T前线

开发运维 2024-03-22 爱可生开源社区手机阅读

嘉宾 | 宋东桓、薛彦泽

主持&编辑 | 李美涵

出品 | 51CTO技术栈（微信号：blog51cto）

栏目介绍：“T前线”是51CTO内容中心专为技术人物开设的深度访谈栏目之一，通过邀请技术界内的业务负责人、资深架构师、资深技术专家等对当下的技术热点、技术实践和技术趋势进行深度的解读和洞察，推动前沿科技的传播与发展。

Sora技术的问世，给国内外科技圈投下了重磅炸弹。自春节以来，Sora的讨论热潮不断升温，从硅谷大佬对其能否成为世界模型的争论，到OpenAI CTO在采访中对训练数据的含糊其辞，再到众多技术团队宣布要复刻并开源Sora，都使其不断地站在热议的“风口浪尖”。

深入到内容产业，Sora是否如一些创作者和电影工作者所担忧的那样，会让内容行业变天？或者这只是一种杞人忧天的幻觉？

近期，51CTO有幸邀请到了Story storm AI内容社区的发起人，有着丰富编剧和导演经验的宋东桓老师。宋老师不仅对内容行业有深厚的积累，还深入实践了利用AI工具进行内容创作的前沿技术。在与51CTO内容中心主编薛彦泽的对话中，宋老师详细介绍了Sora的技术革新，并深入探讨了以Sora为代表的视频生成模型对未来内容行业的影响。

1、“Sora指出了视频生成的一条明路”

T前线：Sora真正厉害在哪里？

宋东桓：要理解Sora的厉害之处，我们首先得审视以往的视频生成技术。早期的方法，从diffusion到各种转绘流程，其实都是在走一条错误的路。这些方法基本上是逐帧处理，本质上还是在“画”视频，而非真正地“生成”视频。

去年8月份，Runway开始尝试生成连续视频，虽然取得了一些进步，但仍然存在四秒的限制。这是因为当时的方法是在生成一张图片的基础上，通过重复和调整来减少闪烁感，但这种方法本质上还是处理图片而非视频。

Diffusion transformer则不同，它将视频视为时空连续的实体，尝试预测下一帧内容，就像语言模型处理文本一样。我们现在比较的是生成图像的能力、模型的调优，以及潜在层的处理，这些都是在不断进步的方面。

但Sora的真正厉害之处在于，它是历史上第一次使用视频数据集进行训练，并输出视频的技术。因此，它天生具备视频的连贯性。例如，如果给Sora看过一万次小猫推苹果的视频，它就能模仿出苹果落下的加速度和运动轨迹。这是因为Sora看过的视频数量远超我们的想象。

Sora的另一个厉害之处在于它为整个行业指了一条明路。如果没有像OpenAI这样的巨头，能找到一条正确的路，很多公司还会在错误的方法上耗费一两年甚至更久。Sora的出现，让整个行业看到了一条明确的前进道路，这是非常有意义的。

薛彦泽：关于Sora的厉害之处，我的第一印象是它能够生成影视级的视频效果。

具体来说，Sora在处理背景与主题人物的一致性方面做得很好，比如在东京街头散步的视频，环境的细节如红灯、雨滴的倒影都非常真实。另外，Sora在理解物理世界方面也表现出色，尽管我认为机器实际上无法真正理解我们的物理世界，但Sora生成视频能够保持物体的连贯性，比如小猫的视频，动作和镜头的延伸都非常流畅。

但Sora最厉害的不止于视频生成，它实际上在这个过程中试图寻找一种理解物理世界的新路径，OpenAI提出的这个观点是前所未有的，也是它最厉害的地方。

T前线：如何看待Sora的翻车视频？

宋东桓：我发现Sora在处理视频中的遮挡问题时偶尔会出现问题，尤其是在画面中有明确遮挡物的情况下。比如考古学家在沙漠中发现了一把塑料椅子的视频，椅子直接悬浮了起来。但是，像两只海盗船在咖啡杯里相遇这样的视频，由于船身大部分时间都在杯子上方，Sora处理得相对更好。

前段时间有人测试了电车向前延伸的视频，结果显示出三种不同的结果。这让我联想到文本生成中的合理性问题，一旦涉及到遮挡，合理性可能会受到影响。我认为Sora的“翻车”现象和文本生成中的幻觉类似，都是低概率事件。

薛彦泽：谈到Sora的翻车视频，我认为将其视为“梦境生成器”是恰当的。梦境中自然会有一些荒诞的元素，对于机器来说，这并不是问题。就像图像中会有噪声，视频中也可能出现不符合人类逻辑的场景。关键在于我们如何看待和处理这些异常。

2.“十年之内，见证好莱坞们的坍塌”

T前线：文生视频领域，sora是否真的能颠覆Tik Tok/好莱坞？

宋东桓：对于Sora是否能颠覆TikTok和好莱坞，我认为这是两个不同的问题。TikTok代表的是UGC（用户生成内容）生态，而好莱坞则是PGC（专业生成内容）的代表。Sora对这两种生态的影响会有所不同，尽管它的接受程度可能相同，但表现出来的影响会有差异。

在影视创作方面，Sora的能力类似于文本生成。虽然它可能还无法创作出长篇巨制，但已经能够处理短篇内容，如笑话、小诗，甚至歌词。同样，Sora在生成15秒以内的视频方面可能已经相当成熟，但对于长视频，尤其是一分钟以上的视频，可能还无法完全统一上下文，除非通过技术手段如视频转视频来辅助。

我怀疑，如果要求Sora生成长视频，它可能无法记忆上下文，并进一步出现内容上的断裂和幻觉。这种情况下，短视频内容，如广告PVC，可能会首先受到冲击。例如，以前需要高昂成本拍摄的红酒广告，现在可能通过Sora以极低的成本实现，这对传统影视制作是一个巨大的挑战。

至于好莱坞，如果一个小型团队能够利用Sora创作出与大制作电影相媲美的作品，那么传统的高成本制片流程将面临巨大的压力。Sora在制作大场面的特效镜头方面非常有潜力。它放大了内容杠杆，使得低成本制作能够与高投资作品竞争。这可能导致传统影视公司面临重组，甚至崩溃。

在TikTok层面，内容的海量增长需要出口，而短视频平台就是这个出口。短视频平台及配套的剪辑软件，如抖音的剪映正在积极配备AI功能，几乎是一种“all in AI”的状态来构建新的创作者生态，这也会相应改变专业视频制作工具的市场地位（例如达芬奇等剪辑工具）。

总的来说，Sora的出现可能会颠覆内容行业的创作流程和分发方式。

薛彦泽：我认为Sora是否能颠覆TikTok和好莱坞，这个问题可以从两个角度来看。

首先，颠覆的定义是什么？如果改变制作流程算颠覆，那么Sora无疑能做到。然而，更重要的是，用户是否会喜欢完全由AI生成的内容？

“AI教母”李飞飞教授说，AI生成的作品无法取代宫崎骏的动画，但利用AI可以创作出触动人心的内容。我认为Sora更像是一种工具，它扩展了创作者的可能性，就像3D技术让陈凯歌能够实现之前无法实现的创意一样。

总的来说，Sora在制作模式上具有颠覆性，但在艺术创作的核心价值和目的上，它并没有颠覆，而是提供了更多可能性。

3.“复刻Sora，最难解决的是信心”

T前线：复刻Sora，可行吗？难在哪里？

宋东桓：我们社区对Sora的复刻问题进行过深入的讨论。起初，大家都对Sora的出现感到震惊，担心未来的内容创作。

但经过魔搭社区算法工程师周文猛老师的深入分析和观点的分享，我们对复刻Sora的可能性有了更多信心。

周老师详细拆解了Sora的技术报告，同时指出Sora更多地是在工程上的创新。Sora报告中虽然对具体的搭建方法描述不够详细，但其引用的文献中包含了大量有用的信息。这些引用的文献详细讲解了Sora可能采用的训练方法和时空连续性处理等关键技术点。

巧合的是，Sora的论文很快就被官方下架了，虽然里面的内容已经广泛传播了出来。我认为复刻Sora是个需要信心倾注的事情，比较像在漆黑的隧道里蜿蜒前行。但随着开源社区的参与和资源的倾斜，复刻Sora只是时间问题。

以GPT-4为例，自发布以来，国内对其的追赶非常明显，如果GPT-4能在一年内被追赶到八成，那么Sora的复刻也大有可能——OpenAI对Sora的研发投入应该还小于GPT-4。未来一两年，我们应该能看到更多开源方案的出现，让Sora不再独领风骚。

薛彦泽：我其实对复刻Sora持相对悲观的态度，但听了宋老师的看法后，我又有了不少信心。Sora的架构并不新鲜，它的模型基础，如Transformer和Diffusion模型，已经是公开的信息。

然而，复刻Sora的工程量依然很大，难点在于训练过程，比如数据预处理、模型的微调阶段，以及如何切分视频数据（patch）的尺寸等。此外，训练模型的成本高，周期长，需要的资本也是挑战之一。

算力也是一个关键因素。尽管国内在AI算力储备上正在追赶，但仍落后于美国。视频处理的数据量级远超文本，对算力的需求巨大。如果算力问题得到解决，数据门槛将是下一个挑战。此外，需要专业的人才进行模型的权重调整，那如何吸引顶尖人才回国工作也是我们需要面对的问题。

总的来说，复刻Sora的最大难题在于算力、数据和人才。

4.所有人都是创作者，所有人都是消费者

T前线：未来会是一个AI视频泛滥的世界吗？

宋东桓：会。

T前线：那您支持一个这样的世界吗？

宋东桓：我认为无论支不支持，未来AI视频的泛滥是不可避免的，尤其考虑到AI视频与传统视频在成本上的巨大差异。AI视频的生成将变得极其方便，就像现在AI生成的图像一样，我们很难区分真假，也难以阻止其泛滥。

不过，AI视频的泛滥有可能转变为一个环保问题。AI视频的普及虽然能带来巨大的商业价值，让每个人都有能力成为内容的创作者。但这种能力的背后是对能源的巨大需求。例如，GPT-4的耗电量相当于1.5万个家庭的日常用电量，而Sora的耗电量可能更高。

尽管如此，限制人们生成AI视频就像限制言论自由一样。人们有权使用技术来表达自己的想法，因此立法限制可能会遇到重大阻力。

从道德和伦理角度来看，我对AI视频泛滥的未来持悲观态度，我不支持这样的世界。但人类的表达欲是无穷无尽的，而这种渴望可能会带来深远的影响。

薛彦泽：我认为未来AI视频的泛滥是必然的，就像互联网带来了信息的泛滥一样。

生活在AI视频泛滥的时代，也不一定是坏事，关键在于我们如何利用这些工具，同时能否找到约束AI工具使用的平衡点。

就像奥特曼在最新采访中谈到伊利亚时说，他挺佩服伊利亚的，因为他在研究一项技术的时候，会想到未来十年的技术发展，去考虑这项技术是不是符合造福人类的使命。虽然目前AI视频技术还没有达到侵害人类的地步，但我们仍需保持警惕，确保技术的发展方向与我们的价值观相符。

5.Sora将无处不在

T前线：Sora可能会推动哪些技术的更新和迭代？

宋东桓：我觉得是3D技术。

目前，我们可以通过视频来还原3D结构，尤其是当视频内容自洽且空间关系准确时。例如，如果我们有一段现实世界中茶杯的视频，可以使用神经网络（nerve）技术来还原茶杯的3D空间特征。Sora能够生成空间上合理的视频，这为从视频中生成高质量的3D数据提供了可能。

目前，3D数据的存量远低于视频、文本和图片数据。现有的3D模型数量有限，而且质量参差不齐，这限制了3D技术的商业应用。但随着Sora等技术的发展，我们可能会找到一条新的路径：通过生成视频来创建3D内容。在不考虑经济与否的情况下，这起码是一种能够不断产生优质3D数据的新方法，从而推动3D技术的进步。

薛彦泽：我认为Sora的影响将是全方位的。因为它的定位不仅仅是一个视频生成工具，而是一个能模拟物理的世界模型。

如果将其目标提升到这个层次来看，它的影响将无处不在。如果Sora真的做到了理解世界，那么AI芯片只需要集成这个模型就可以完成很多工作。机器人只需要配备这样的芯片和相应的传感器，就能被看作是有意识地理解世界、响应世界了，这是非常大的科技飞跃。

具体到行业层面，除了刚才聊到的电影，其实还有游戏，Sora将会推动3D渲染技术的创新，以及推动RTC、编解码技术的改进。此外，面向GPU编程可能会发展出新的工具，以适应生成式AI的需求。

Sora的广泛应用还可能颠覆底层通信技术，如果未来世界依赖于大量GPU和类似Sora的模型，那将是一个全新的景象。

6.拥抱AI，从业者要吃“第一口馒头”

T前线：在Sora开放前，从业者需要做怎样的准备？

宋东桓：虽然Sora是一个全新的工具，但工具的掌握都是触类旁通的，例如对视频编辑软件或拍摄技巧的学习，对掌握Sora会有很大帮助。核心在于，无论是使用什么技术，审美和表达方式始终是最重要的。

对于想要成为优秀创作者的人来说，广泛阅读和积累审美经验是基础。AI可以提供辅助，但最终做出选择的还是人。技术不是优秀作品的出圈限制，想象力才是。

具体来说，电影人可以在剧本创作时就考虑如何利用Sora来实现镜头效果。即使现在还不能直接使用Sora，也可以通过与有资源的公司合作，将类似Sora的工具应用到实际拍摄中。

T前线：最先拥抱AI工具的人，会吃到相应的内容红利吗？

宋东桓：当前的信息传播环境，已经不再依赖于中心化的传递方式了。信息可以通过多种渠道迅速传播，从外网到社交媒体平台，再到微信群和朋友圈，信息的流通速度非常快。

并不是说你是第一个接触AI工具的人就能吃到红利，而是要看你如何使用这些工具。我认为从业者应该有学习意识，主动去搜索最新的资讯，自己要吃一口馒头才行。

薛彦泽：宋老师这个比喻很形象，现在的信息差真的是件很吓人的事情。

在Sora开放前，我认为从业者需要做的准备包括心态的调整、积极学习前沿信息，以及主动采取行动。

从业者要有自己的想法和魄力，不要只是学习而不实践，至少要有敢于有尝试的勇气。Sora是个非常前沿的工具，如果能和自己的个人价值得到很好的结合，有可能就会脱颖而出。这种科技革新是时代赋予的不可多得的机会。