以下是让照片跟着语音说话的两种方法:
方法一:使用 SadTalker
开源程序 SadTalker 可实现让照片说话唱歌并达到基本唇形同步。 GitHub 地址:https://github.com/OpenTalker/SadTalker 可独立使用或作为插件放入 stablediffusion 视频教程:https://www.bilibili.com/video/BV1Dc411W7V6/?vd_source=35e62d366d8173e12669705f7aedd122 对于编程、python、conda 不熟悉的,建议使用整合包: 史上最炸裂版 AI 工具箱来啦,SD-AI 绘画、VITS 文本转语音,wav2lip、sadTalker 唇型同步,视频修复,支持 A 卡! 夸克网盘分享链接:https://pan.quark.cn/s/1d5ca9f57f5c 视频地址:https://www.bilibili.com/video/BV1ga4y1u7Ep/?spm_id_from=333.337.search-card.all.click&vd_source=35e62d366d8173e12669705f7aedd122 具体步骤: 点我启动,在启动界面中,选择音频、图像口型同步的下载图标。 下载完毕后启动应用,会弹出独立窗口。 选择 sadtalker 同步器,分别导入图片和声音。 图片预处理方式中,crop 只截取图片的头部,full 就是保留整张照片,下面的勾选项已有文字解释,可自行尝试几次。 点击 generate。由于涉及到视频的推理和转换,输出时间要远远大于 ai 绘图和 sovits 的声音推理,需做好等待准备。例如导入 13 秒的音频,预计需要 3 – 5 分钟(3060 12g 显卡)。 最终生成的视频长度与音频一致,如果想制作长视频,最好剪成小段,分别推理,然后合并。完成后,可打开输出目录或下载视频文件查看效果。方法二:使用 D-ID
点击网址,点击右上角的 Create vedio。 选择人物形象,可以点击 ADD 添加照片,或者使用 D-ID 给出的人物形象。 配音时,可以选择提供文字选择音色,或者直接上传一段音频。 最后,点击 Generate vedio 就可以生成一段视频。 打开自己生成的视频,可以下载或者直接分享给朋友。