语音对话模型-（语音对话生成器在线使用）

以下是关于语音对话模型的相关信息：

ChatTTS 是专门为对话场景设计的文本到语音 TTS 模型，支持中英文。可利用 Whisper + DeepSeek + ChatTTS 构建语音对话机器人。相关链接：https://xiaohu.ai/p/8702 、https://mp.weixin.qq.com/s/7bCUAk-Q1LDmX70iy5Tt8w 、https://mp.weixin.qq.com/s/8ltuF1XnauOxGRVT3xZwGQ 、https://mp.weixin.qq.com/s/JAhm5KTxZ5k-SiqHTxFz-g ，还有源码分析：https://mp.weixin.qq.com/s/ol2TTDLBnhHZ3bykk4DaAg 。ChatTTS 的 TTS 模型全称是 Text To Speech（文本转语音模型），经过超过 10 万小时的训练，公开版本在 HuggingFace 上提供了一个 4 万小时预训练的模型，作者还留着一个 10 万小时训练数据的版本。 SpeechGPT-Gen 是具有跨模态对话能力的大语言模型，能处理和生成语音数据，实现文本与语音的无缝对话，包含 8 亿参数，有效处理语义和知觉信息。相关链接：https://arxiv.org/abs/2401.13527 、https://github.com/0nutation/SpeechGPT 、https://x.com/xiaohuggg/status/1750694801517969900?s=20 。 OpenAI 推出新一代嵌入模型，包括 text-embedding-3-small 和 text-embedding-3-large，新模型性能普遍优于上一代，特别是在多语言检索方面。GPT-4 Turbo 预览版模型更新，提高了代码生成等任务的完成度。相关链接：https://x.com/xiaohuggg/status/1750688990104330481?s=20

猜你喜欢