Sora出世
OpenAI在前天发布了一款新的AI产品,用户只需输入文本,即可生成一段极其逼真且富有想像力的视频,从而将战事正酣的AI竞赛引向好莱坞。
OpenAI 将其新系统称为“Sora”,源自日语中的“天空”一词。
OpenAI旗下的ChatGPT可以在不上法学院的情况下通过律师考试,而Sora则希望在不上电影学院的情况下拍摄电影。OpenAI称,Sora能够根据文本指令生成一段60秒的视频,同时保持视觉质量。
它对语言有深刻的理解,能够准确领会提示,生成令人信服的角色。Sora可生成具有多个角色、特定类型运动、精确主题和背景细节的复杂场景。还可以在单个生成视频中创建多个镜头,准确保留角色和视觉风格。
OpenAI还分享了几个样本视频,证明了通过文本生成视频的可能性。有网友称,再有三年好莱坞就消失了。
分析人士称,这是一个新的研究方向,也是2024年值得关注的一个趋势。
Nvidia 的高级研究科学家 Jim Fan 将 Sora 描述为一个数据驱动的物理引擎,他推测它是根据来自虚幻引擎 5 的大量合成数据进行训练的。地平线推理和语义基础,全部通过一些去噪和梯度数学实现,”
该技术背后的骨干,包括研究人员蒂姆·布鲁克斯(Tim Brooks)和比尔·皮布尔斯(Bill Peebles)等,选择“Sora”这个名字是因为它“唤起了无限创造潜力的想法”。
蒂姆·布鲁克斯(Tim Brooks)
Tim Brooks,DALL-E 3作者之一,GitHub 5.7k️项目InstructPix2Pix作者,2021-2022年在英伟达实习时,就是视频生成研究的项目负责人。
https://www.timothybrooks.com/about/
Tim本科就读于卡内基梅隆大学,主修逻辑与计算,辅修计算机科学,其间在Facebook软件工程部门实习了四个月。
2017年,本科毕业的Tim先到Google工作了近两年,在Pixel手机部门中研究AI相机,之后到了伯克利AI实验室攻读博士。
在伯克利读博期间,Tim的主要研究方向就是图片与视频生成,他还在英伟达实习并主导了一项关于视频生成的研究。
回到校园后,Tim与导师Alexei Efros教授和同组博士后Aleksander Holynski(现在谷歌)一起研制了AI图片编辑工具InstructPix2Pix,并入选CVPR 2023 Highlight。
去年一月,Tim顺利毕业并取得了博士学位,转而加入OpenAI,并相继参与了DALL-E 3和Sora的工作。
值得一提的是,Tim不仅在专业领域拥有高超的技术水平,还是个多才多艺的人。
据Tim自己介绍,他还喜欢摄影和音乐,高中时他拍摄的照片获得过National Geographic颁发的奖项,本人到过百老汇演出,还获得过B-box国际奖项……
比尔·皮布尔斯(Bill Peebles)
而与Tim师出同门、晚毕业4个月的William Peebles,也是Sora的另一名负责人。
(Peebles在𝕏上用昵称Bill,在Linkedin上及论文署名时用大名William,下文一律用Bill指代。)
Bill本科就读于MIT,主修计算机科学,参加了GAN和text2video的研究,还在英伟达深度学习与自动驾驶团队实习,研究计算机视觉。
毕业后正式开始读博之前,他还参加了Adobe的暑期实习,研究的依然是GAN,该项目和(时任)卡内基梅隆大学华人学者朱俊彦(也是Efros教授学生,现在在MIT)组有合作,并成为CVPR 2022最佳论文候选。
William (Bill) Peebles,和谢赛宁合作,搞出了Sora的技术基础之一DiT(扩散Transformer)。论文还曾入围CVPR 2022最佳论文候选。
此外,还有一些应界本科生在此团队中,可谓年轻的研发团队。
业界评价
关于Sora 的研发主管之一 Tim Brooks 的简历。除了 AI 工作之外,他还给国家地理拍过摄影,在百老汇演出过,得过阿卡佩拉 beatboxing 的奖项。
这和很多印象中的研发人员相对单一的工作大相径庭。
微博网友们纷纷评价:
朋友圈的朋友这样评价:
对此,大家怎么看?欢迎文底评论~
编辑:大雄综合:量子位