开源的，新一代的 tts 框架有哪些？（开源 tts 中文）

以下是一些开源的新一代 TTS 框架：

GPT-SoVITS：这是一个声音克隆和文本到语音转换的开源 Python RAG 框架。只需 1 分钟语音即可训练一个自己的 TTS 模型，5 秒数据就能模仿，1 分钟的声音数据就能训练出高质量的 TTS 模型，完美克隆声音。它完美适配中文，具有零样本 TTS、少量样本训练、易于使用的界面、跨语言支持、适用于不同操作系统、提供预训练模型等特点。 ChatTTS：针对对话式任务进行了优化，实现自然流畅的语音合成，同时支持多说话人。能够预测和控制细粒度的韵律特征，包括笑声、停顿和插入词等。在韵律方面超越了大部分开源 TTS 模型，并提供预训练模型，但存在模型稳定性不足的问题。目前发布的模型版本中，情感控制仅限于笑声以及一些声音中断，作者计划在未来的版本中开源更多情感控制的功能。如今陆续出现了在线网站和本地增强整合包。 B 站 up“大农化不哭”大佬的开源项目 gpt-sovits 也被用于节目《马上封喉》的 TTS 中，只需 1 分钟的干声素材就可以实现惊艳的效果，甚至实现了 zero-shot（零样本），但单字和中英文混杂的词句效果还有待提高。

猜你喜欢