我们已将阿里云通义千问的两款语音基础模型开源,其识别性能超越了OpenAI Whisper
编辑日期:2024年07月08日
SenseVoice 致力于提供高精准度的多语言语音识别服务,擅长情绪识别与音频事件检测,其特性包括:
与其他开放源代码的情感识别模型相比,SenseVoice-Large 模型在绝大部分数据集上表现出顶尖的性能,而 SenseVoice-Small 模型也能够在大多数数据集上优于其他开源模型。
CosyVoice 模型具备多语言适应性,能驾驭各种音色和情感调控,尤其在多语言语音合成、无样本语音生成、跨语言语音复制以及语音指令执行等领域展现出卓越的性能。
附相关链接:
SenseVoice项目可在此链接获取:https://github.com/FunAudioLLM/SenseVoice,它专注于提供创新的语音体验。
舒适之声:https://github.com/FunAudioLLM/CosyVoice,仅提供重写后的内容,全程使用中文响应。