用了火爆全网的语音AI,我几乎分不出谁是真人了。(ai语音技术什么时候出来的)

咳咳,在开始讲之前,先跟大家宣布个事情:

这种自然的语气,似乎还能听到一些兴奋的呼吸声,是不是已经有一些对手快要上钩了。

但大伙可别真以为世超要暴露真声,其实这段音频,是我利用人工智能技术生成的,从打开网址到生成完整的音频,总共只用了不到两分钟。

可能已经有朋友猜到世超用的是啥 AI 工具,就是最近刚火出圈的那位,ChatTTS

刚刚开源不久,这个项目在GitHub上获得了一万多个星标,而且还在持续迅速增长,就在我写稿的时候,我亲眼目睹它突破了2万的大关…

用了火爆全网的语音AI,我几乎分不出谁是真人了。_图1

网上的热度也非常高,光是 b 站,随便一搜 ChatTTS ,就能弹出很多视频来,不是在教大家怎么安装,就是在赞美它的逼真程度。

用了火爆全网的语音AI,我几乎分不出谁是真人了。_图2

甚至连热度都传到国外了。

用了火爆全网的语音AI,我几乎分不出谁是真人了。_图3

其实像 ChatTTS 这类文本转语音( Text to Speech )的工具,市面上有很多,各家做 AI 应用的企业,基本上都提供了文本转语音的功能。

但和它们不一样的是, ChatTTS 主打的是,最自然地还原人声。

用了火爆全网的语音AI,我几乎分不出谁是真人了。_图4

它网页版上的参数调节按钮,有一大半都是为了让生成的音频,更加逼真地模拟人类的语音。

就比如,精调文本按钮打开之后,最后生成的音频里,会自动加一些口语化的连词,例如“嗯”、“啊”、“呃”等,或者换气、笑声等,还有信噪比,就是为了还原说话时的背景音。

用了火爆全网的语音AI,我几乎分不出谁是真人了。_图5

世超随便输了一段话给ChatTTS,没有改变它的默认设置,生成的效果如下:

乍一听,还以为是办公室哪位同事遛火锅回来的吐槽。看下输出的文本,它是在最后一句的中间和结尾,自动加了两个气口。

用了火爆全网的语音AI,我几乎分不出谁是真人了。_图6

不过要多听几遍,还是能在里面找到一些人工智能的味道。

如果嫌生成的效果一般,我们也可以自己手动设置,在输入文本里加 [ uv _ break ] 或者 [ laugh ] ,就能直接控制气口和笑声。

还是上面那句话,世超直接在结尾加上个 [ 笑 ] ,整句话都会更自然一点,结尾那个笑声,还能感受到一点无奈的味道。

光靠这一句话,咱还看不太出 ChatTTS 的实力,接下来上点难度,扔两段绕口令给它。

用了火爆全网的语音AI,我几乎分不出谁是真人了。_图7

要是给我们没有练过的人来,指不定得口吃几次,没想到 ChatTTS ,模仿这个挺有一手。

讲到后面,他是连续不断地说完的,与我们快要忘词的语调相比,不能说非常相似,至少也有七八分相似。

甚至为了让最后那句 “ 你看我说的还行吧 ” 更自然点,它还自己手动加了个词儿( 那个 )。

世界上超级经典的电影《肖申克的救赎》中有一句非常著名的台词:“希望是一件好事,也许是最好的事情。而且,好事从来不会消逝。”

至于效果嘛,世超觉得,没有说中文就不够自然。。。

当然,作为在我们这里土生土长的人工智能,说中文比说英文自然也情有可原。

不过让世超意外的是,虽然英语水平一般,但在学习英语字母ABC的过程中,中英夹杂的学习方式让他展现出了一些天赋。而且他在使用ChatTTS(聊天文本转语音)工具方面也有一定的天赋。

世超随便在台词里加了一些网上很火的英文梗,它直接把里面的精髓给模仿出来了。

用了火爆全网的语音AI,我几乎分不出谁是真人了。_图8

不仅能准确切换中英文,口气啥的也都像模像样,而且该补充的连词也都补充了。硬要挑刺的话,就是最后那句有点卡壳,但平时咱说话,谁没有说话不流利的时候。

试到这儿,世超已经稍稍被 ChatTTS 给折服了。。。然鹅,就在咱准备再深度探索探索时,它一连给咱来了好几次意外失败

就比如我想试试不精调文本,看看 ChatTTS 会生成怎样的音频,结果倒好,它直接罢工,输入的一大段话,它只读第一个字。

用了火爆全网的语音AI,我几乎分不出谁是真人了。_图9

我试了好几次,但都得到了同样的结果…

(由于输出问题,iOS系统可能无法播放此音频。)

而且如果整段文字里有阿拉伯数字,ChatTTS也无法识别,需要我们手动切换成中文数字。

更令人惊讶的是,只要文章长度增加,它就开始敷衍塞责,只挑选其中的一小部分进行朗读,甚至有时候还会导致它们的GPU崩溃。

用了火爆全网的语音AI,我几乎分不出谁是真人了。_图10

像是世超想让 ChatTTS 帮助差友们朗读这篇文章的开头,但它已经无法继续运行了。。。

用了火爆全网的语音AI,我几乎分不出谁是真人了。_图11

这都还不算什么,ChatTTS有一个最大的缺点,就是我们无法事先知道选择了哪种音色,只能在“音频种子”中输入数字进行盲选,或者抽卡来决定。

合着就是碰运气呗,也就是靠运气来决定。

不过关于这些 “ BUG ” ,研究团队也有它们的说辞。一句话概括就是,为了防止 ChatTTS 被有心之人利用,他们没有公开最优秀的模型。

据他们的说法,目前开源的和网站上用的,都是用40,000个小时数据训练出来的模型,还没经过监督微调( SFT )。

并且为了防止人工智能诈骗,他们还在这些训练数据里,加了少量的高频噪声,数据用的也都是音频质量不太高的MP3格式。

用了火爆全网的语音AI,我几乎分不出谁是真人了。_图12

团队手里呢,其实还有个更大杯、性能更好的模型,用100,000小时数据

ChatTTS 真实的实力,应该是官方视频里展示的那样。像咱们上面展示的那几个例子,它都能做得更好,比如中英文夹杂的句子,视频的示例比咱试的要更流畅,而且整个人声的清晰度,也比世超在线生成的要强。

按照设想,它之后还能接入语言大模型,能直接和人工智能进行实时对话。

甚至光是凭几分钟的音频,它能直接把乔布斯、泰勒 · 斯威夫特的声音给克隆出来。

甚至仅仅通过几分钟的音频,它就能够直接复制出乔布斯和泰勒 · 斯威夫特的声音。

用了火爆全网的语音AI,我几乎分不出谁是真人了。_图13

之后再进一步发展,结合 ChatGPT 和对话式的 AI 技术,让它协助进行直播带货,预计观众几乎无法察觉到人工智能的介入。

当然有好处是一方面,但世超想说的是,说到底这人工智能还是在模仿人类的语言表达方式。要是被有心之人利用,可能会带来无法用好处来抵消的后果。

就像去年一样,发生了多起涉及AI诈骗的案件,其中有些人被骗走了数百万。而现在,AI音频技术越来越逼真,这意味着诈骗的难度越来越低。

用了火爆全网的语音AI,我几乎分不出谁是真人了。_图14

还有版权风险,也可以说是这类音频人工智能的一个障碍。最近一段时间,寡姐还因为声音版权的问题,公开与OpenAI发生了争执,最终导致OpenAI下架了相关音色。

甚至在今年早些时候,美国田纳西州还通过了一项法律,禁止使用人工智能模仿人的声音。

总之,在音频人工智能领域,还有很多问题需要解决。

但说句心里话,我真的很希望这个模仿人说话的人工智能能够尽快实现,如果能够在公众号上使用就更好了。

毕竟这 “ 听一听 ” 功能里的机械音,听起来确实让人感到不舒服。。。

0
分享到:
没有账号? 忘记密码?