微软炸裂级单图生数字人,Sora同款思路,“比AI刘强东还真”

AIGC动态欢迎阅读

原标题:微软炸裂级单图生数字人,Sora同款思路,“比AI刘强东还真”

关键字:视频,头部,面部,表情,动作

文章来源:量子位

内容字数:4320字

内容摘要:

梦晨 发自 凹非寺量子位 | 公众号 QbitAIAI伪造真人视频,门槛再次降低。

微软发布一张图生成数字人技术VASA-1,网友看过直呼“炸裂级效果”,比“AI刘强东还真”。

话不多说,直接上一分钟演示视频:

做到以假乱真效果,不用针对特定人物训练,只要上传一张人脸图片、一段音频,哪怕不是真人也行。

比如可以让蒙娜丽莎唱Rap,模仿安妮海瑟薇即兴吐槽狗仔队名场面。

或者让素描人像念华强台词。

在项目主页还有更多1分钟视频,以及更更多15秒视频可看。

不同性别、年龄、种族的数字人,用着不同的口音在说话。

根据团队在论文中的描述,VASA-1拥有如下特点:

唇形与语音的精准同步

这是最基本的,VASA-1在定量评估中也做到了顶尖水平。

丰富而自然的面部表情

不光做到让照片“开口说话”,眉毛、眼神、微表情等也跟着协调运动,避免显得呆板。

人性化的头部动作

说话时适当的点头、摇头、歪头等动作,能让人物看起来更加鲜活、更有说服力。

总得来说,仔细看的话眼睛还有一些破绽,但已经被网友评为“迄今为止最佳演示”。

然而更恐怖的是,整个系统推理速度还是实时级的。

生成512×512分辨率的视频,使用一

原文链接:微软炸裂级单图生数字人,Sora同款思路,“比AI刘强东还真”

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?