来自阿里巴巴的团队发布了音频驱动的肖像视频生成框架 EMO(Emote Portrait Alive),相关论文同步发表于 arXiv。
https://arxiv.org/pdf/2402.17485.pdf
输入一张参考图像和声音音频,该框架能够生成具有丰富面部表情和头部姿势的声音肖像视频。
EMO的工作过程分为两个主要阶段:首先,利用参考网络(ReferenceNet)从参考图像和动作帧中提取特征;然后,利用预训练的音频编码器处理声音并嵌入,再结合多帧噪声和面部区域掩码来生成视频。该框架还融合了两种注意机制和时间模块,以确保视频中角色身份的一致性和动作的自然流畅。
这个过程相当于,AI先看一下照片,然后打开声音,再随着声音一张一张地画出视频中每一帧变化的图像。
EMO的技术报告中称:实验结果表明,EMO不仅能够产生令人信服的说话视频,还能生成各种风格的歌唱视频,显著优于现有的先进方法,如DreamTalk、Wav2Lip和SadTalker,无论是在表现力还是真实感方面。
目前,研究团队认为该模型的潜在应用方向将集中在:提高数字媒体和虚拟内容生成技术水平,特别是在需要高度真实感和表现力的场景中。
然而在另一些人看来,EMO模型却很可能成为别有用心的人手中的犯罪工具。