OpenAI 今天凌晨发布了其首个视频生成模型 Sora。
https://openai.com/sora
Sora 可根据文本描述生成长达 60 秒的视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。
目前,Sora已对网络安全的红队成员开放,以评估其可能存在的风险或潜在伤害。同时,OpenAI 也邀请了视觉艺术家、设计师和电影制作人使用 Sora,收集他们的反馈,以使模型更好地服务于创意行业。
OpenAI 在技术报告介绍道,他们将 Sora 视频生成模型视作世界模拟器。具体来说就是通过跨越不同持续时间、宽高比和分辨率的视频和图像,从而生成最高可达一分钟的高清视频。
https://openai.com/research/video-generation-models-as-world-simulators
Sora 使用了一种特殊的深度学习模型(即 Transformer)来处理视频和图像数据。这种处理方式首先将视频和图像编码成潜在代码,然后将这些代码分解成包含时间和空间信息的小块(即时空补丁),最后利用 Transformer 模型在这些补丁上进行操作。
这样的处理方法能够有效地捕捉和生成视频和图像数据中的复杂时空动态,为生成高质量的视频和图像提供了一种强大的方法。