人工智能及其模型正在快速发展。从生成图像、视频和音频到从单个图像制作音频和视频剪辑,都有了巨大的改进。微软研究院宣布推出了VASA-1,这是一种可以让图像唱歌或说话的人工智能模型。它将图像制作成带有音频和适合音频的面部表情的视频剪辑。
Microsoft VASA-1 AI可以使单个图像唱歌或说话
VASA是微软的一种新的人工智能模型,可以从一张图像中生成超现实的会说话的人脸。您只需要输入一个图像和一个音频片段就可以获得逼真的视频片段。VASA模型不仅可以对音频进行唇同步,还可以产生面部细微差别和自然的头部瞬间,以适应音频并产生逼真的效果。
微软刚刚放弃了VASA-1。
这种人工智能可以使单个图像从音频参考中富有表现力地唱歌和说话。类似于阿里巴巴的EMO
10个疯狂的例子:
1.蒙娜丽莎说唱狗仔队pic.twitter.com/LSGF3mMVnD
--Min Choi(@minchoi)2024年4月18日
VASA模型可以提供高质量的视频输出,并且显著优于其他能够生成视频的模型。它还可以以高达40 FPS的速度在线生成512×512的视频,延迟可以忽略不计。这个模型可以非常有助于创建模仿人类对话行为的逼真化身。
使用VASA,用户可以通过输入眼睛凝视、头部距离和其他情绪偏移的条件来控制视频生成。该模型可以处理《蒙娜丽莎》等艺术照片、歌唱音频和非英语演讲,以生成超现实的视频。
微软在其研究论文中补充说,这项研究的重点是为虚拟人工智能化身生成视觉情感技能,用于积极的用例。任何以其模式生成的旨在误导或欺骗的内容都违反了他们的政策。微软已经承认,和其他模型一样,这也可以用来模仿人类。他们相信,它现在能够实现的目标与真实的视频之间存在差距。
There are no plans from Microsoft to release the online demo, API, additional implementation details, or any other related offerings to the public until they are confident that the tools will be used responsibly and following proper regulations.