当前位置：首页 AI百科正文

微软炸裂级单图生数字人，Sora同款思路，“比AI刘强东还真”

2025-04-21 17:19:15 AI百科 1

AIGC动态欢迎阅读

原标题：微软炸裂级单图生数字人，Sora同款思路，“比AI刘强东还真”

关键字：视频,头部,面部,表情,动作

文章来源：量子位

内容字数：4320字

内容摘要：

梦晨发自凹非寺量子位 | 公众号 QbitAIAI伪造真人视频，门槛再次降低。

微软发布一张图生成数字人技术VASA-1，网友看过直呼“炸裂级效果”，比“AI刘强东还真”。

话不多说，直接上一分钟演示视频：

做到以假乱真效果，不用针对特定人物训练，只要上传一张人脸图片、一段音频，哪怕不是真人也行。

比如可以让蒙娜丽莎唱Rap，模仿安妮海瑟薇即兴吐槽狗仔队名场面。

或者让素描人像念华强台词。

在项目主页还有更多1分钟视频，以及更更多15秒视频可看。

不同性别、年龄、种族的数字人，用着不同的口音在说话。

根据团队在论文中的描述，VASA-1拥有如下特点：

唇形与语音的精准同步

这是最基本的，VASA-1在定量评估中也做到了顶尖水平。

丰富而自然的面部表情

不光做到让照片“开口说话”，眉毛、眼神、微表情等也跟着协调运动，避免显得呆板。

人性化的头部动作

说话时适当的点头、摇头、歪头等动作，能让人物看起来更加鲜活、更有说服力。

总得来说，仔细看的话眼睛还有一些破绽，但已经被网友评为“迄今为止最佳演示”。

然而更恐怖的是，整个系统推理速度还是实时级的。

生成512×512分辨率的视频，使用一

原文链接：微软炸裂级单图生数字人，Sora同款思路，“比AI刘强东还真”

联系作者

文章来源：量子位

作者微信：QbitAI

作者简介：追踪人工智能新趋势，关注科技行业新突破

0

分享到：