霉霉开口唱碧昂丝的歌,又是AI!口型不出戏,五官姿态也自然,复旦百度等出品|GitHub揽星1k+(霉霉有首歌里头哦哦哦哦哦)

AIGC动态欢迎阅读

原标题:霉霉开口唱碧昂丝的歌,又是AI!口型不出戏,五官姿态也自然,复旦百度等出品|GitHub揽星1k+

关键字:特征,音频,编码器,模型,视觉

文章来源:量子位

内容字数:0字

内容摘要:

西风 发自 凹非寺量子位 | 公众号 QbitAI一张人像、一段音频参考,就能让霉霉在你面前唱碧昂丝的《Halo》。

一种名为Hallo的研究火了,GitHub已揽星1k+。

话不多说,来看更多效果:

不论是说话还是唱歌,都能和各种风格的人像相匹配。从口型到眉毛眼睛动作,各种五官细节都很自然。

单独拎出不同动作强度的比较,动作幅度大也能驾驭:

单独调整嘴唇运动幅度,表现是这样婶儿的:

有不少网友看过效果后,直呼这是目前最好的开源口型同步视频生成:

这项工作由来自复旦大学、百度、苏黎世联邦理工学院和南京大学的研究人员共同完成。

团队提出了分层的音频驱动视觉合成模块,将人脸划分为嘴唇、表情和姿态三个区域,分别学习它们与音频的对齐关系,再通过自适应加权将这三个注意力模块的输出融合在一起,由此可以更精细地建模音视频同步。

Hallo长啥样?如前文所述,Hallo通过使用参考图像、音频序列以及可选的视觉合成权重,结合基于分层音频驱动视觉合成方法的扩散模型来实现。

整体架构是这样婶儿的:

参考图像经过一个ReferenceNet编码全局视觉特征;人脸编码器提取身份相关的特征;音频编码器将输入语音转

原文链接:霉霉开口唱碧昂丝的歌,又是AI!口型不出戏,五官姿态也自然,复旦百度等出品|GitHub揽星1k+

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?