Stability AI 宣布 Stable Video Diffusion 基于现有 Stable Diffusion 文字到图像 AI 模型可以使用图片生成视频,模型处于研究预览阶段,使用者需同意特定使用条款。
Stable Video Diffusion 有两种模型,SVD 和SVD-XT。SVD 能将静态图像转为 14 帧576 × 1024 的视频。
SVD-XT 使用相同架构,但帧数提高到 24 帧,两者均能以每秒 3~30 帧速度生成视频。根据白皮书,SVD 和 SVD-XT 最初以数百万视频数据库训练,然后用数十万至百万小型视频数据微调。
但视频数据来源不清楚,可能造成 Stability AI 及用户使用权的法律和道德挑战。
尽管如此,Stable Video Diffusion 技术仍有限制,如无法产生静态或慢动作影片,不能用文字控制,无法清晰渲染文字,也不能正确产生人脸和人物。
Stable Video Diffusion 推出也引发担忧,尤其可能滥用的风险。模型似乎没有内建内容过滤器,可能拿去制作不当内容。
Stability AI 表示,模型有很高扩展性,并可适用产生物体 360 度图等。计划推出一系列基于 SVD 和 SVD-XT 的新模型,最终目标似乎是商业化,潜在应用领域有广告、教育、娱乐等。