VLOGGER是什么
VLOGGER AI是谷歌的研究团队开发的一个多模态扩散模型,专门用于从单一输入图像和音频样本生成逼真的、连贯的人像动态视频。该模型的主要功能在于使用人工智能模型,将一张静态图片转换成一个动态的视频角色,同时保持照片中人物的逼真外观。此外,VLOGGER还能够根据音频来控制人物动作,不仅仅是面部动作和嘴唇同步,还包括头部运动、目光、眨眼以及上身和手部手势,从而将音频驱动的视频合成推向了一个新的高度。
VLOGGER的官网入口
官方项目主页:https://enriccorona.github.io/vlogger/ arXiv研究论文:https://arxiv.org/abs/2403.08764v1VLOGGER的功能特性
图像和音频驱动的视频生成: VLOGGER能够根据单张人物图像和相应的音频输入生成说话人类的视频。用户只需提供一张图片和一段音频,VLOGGER将生成一个视频中的人物,其面部表情、嘴唇动作和身体语言与音频同步。多样性和真实性: VLOGGER生成的视频具有高度的多样性,能够展示原始主体的不同动作和表情,同时保持背景的一致性和视频的真实性。 视频编辑: VLOGGER可以用于编辑现有视频,例如改变视频中人物的表情,使其与原始视频的未改变像素保持一致。生成移动和说话的人物: VLOGGER可以从单张输入图像和驱动音频生成说话面部的视频,即使没有视频中人物的原始视频资料。视频翻译: VLOGGER能够将一种语言的视频转换为另一种语言的视频,通过编辑唇部和面部区域以匹配新的音频,实现跨语言的视频内容适配。VLOGGER的工作原理
VLOGGER的工作原理主要基于一个两阶段的流程,结合了音频驱动的运动生成和时间连贯的视频生成。