一张照片+音频=超逼真数字人视频!VASA-1模型拉开「实时交互」大幕(数字人像摄影)

AIGC动态欢迎阅读

原标题:一张照片+音频=超逼真数字人视频!VASA-1模型

拉开「实时交互」大幕

关键字:面部,头部

,视频,模型,音频

文章来源:新智元

内容字数:12149字

内容摘要:

新智元报道编辑:LRS

【新智元导读】仅需一张照片加一段音频,即可生成具有精确唇音同步、逼真面部行为和自然头部运动的超逼真说话面部视频,并且生成速度快,512×512分辨率下,生成速率可达40帧,启动延迟可忽略不计。在人物说话的过程中,每一个细微的动作和表情都可以表达情感,都能向观众传达出无声的信息,也是影响生成结果真实性的关键因素。

如果能够根据特定面容来自动生成一段生动逼真的形象,将彻底改变人类与人工智能系统的交互形式,例如改善有障碍患者的交流方式、增强人工智能辅导教育的趣味性、医疗保健场景下的治疗支持和社会互动等。

最近,微软亚洲研究院的研究人员抛出了一个重磅炸弹VASA-1框架,利用视觉情感技巧(VAS,visual affective skills),只需要输入一张肖像照片+一段语音音频,即可生成具有精确唇音同步、逼真面部行为和自然头部运动的超逼真说话面部视频。论文链接:https://arxiv.org/pdf/2404.10667.pdf

项目主页:https://www.microsoft.com/en-us/research/project/vasa-1/

下面为一

原文链接:一张照片+音频=超逼真数字人视频!VASA-1模型拉开「实时交互」大幕

联系作者

文章来源:新智元

作者微信:AI_era

作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

0
分享到:
没有账号? 忘记密码?