FunAudioLLM是什么
FunAudioLLM是阿里巴巴通义实验室推出的开源语音大模型项目,包含SenseVoice和CosyVoice两个模型。SenseVoice擅长多语言语音识别和情感辨识,支持超过50种语言,特别在中文和粤语上表现优异。CosyVoice则专注于自然语音生成,能够控制音色和情感,支持中英日粤韩五种语言。FunAudioLLM适用于多语言翻译、情绪语音对话等场景。相关模型和代码已在Modelscope和Huggingface平台开源。

FunAudioLLM的主要功能
SenseVoice模型: 专注于多语言的高精度语音识别。 支持超过50种语言,特别是在中文和粤语上识别效果优于现有模型。 具备情感识别功能,能够辨识多种人机交互事件。 提供轻量级和大型两个版本,适应不同应用场景。CosyVoice模型: 专注于自然语音生成,支持多语言、音色和情感控制。 能够根据少量原始音频快速生成模拟音色,包括韵律和情感细节。 支持跨语种语音生成和细粒度的情感控制。
FunAudioLLM的项目地址
项目官网:https://fun-audio-llm.github.io/ CosyVoice 在线体验:https://www.modelscope.cn/studios/iic/CosyVoice-300M SenseVoice 在线体验:https://www.modelscope.cn/studios/iic/SenseVoice GitHub仓库:https://github.com/FunAudioLLM arXiv技术论文:https://arxiv.org/abs/2407.04051FunAudioLLM的应用场景
