字节豆包的大模型现已支持实时语音通话。
编辑日期:2024年08月10日
该方案采用火山引擎 RTC 来实现语音数据的采集、处理与传输,并深度融合了豆包·语音识别模型及豆包·语音合成模型,从而简化从语音到文字以及从文字到语音的转换流程,提供智能对话与自然语言处理的能力,助力应用程序实现用户与云端大型模型间的实时语音通话功能。
字节跳动介绍,其对话式AI实时交互解决方案支持快速搭建,开箱即用,仅需调用标准的OpenAPI接口就能配置所需的语音识别(ASR)、大型语言模型(LLM)、语音合成(TTS)的类型及参数。火山引擎AIGC RTC-Server则负责边缘用户的接入、云端资源的调度、文本与语音的转换处理以及数据的订阅传输等流程。
该技术具有三大亮点:
IT之家附上了火山引擎对话式AI的实时交互演示,具体内容如下:
大家在看
AI安装教程
AI本地安装教程
微软AI大模型通识教程
微软AI大模型通识教程
AI大模型入门教程
AI大模型入门教程
Python入门教程
Python入门教程
Python进阶教程
Python进阶教程
Python小例子200道练习题
Python小例子200道练习题
Python练手项目
Python练手项目
Python从零在线练习题
Python从零到一60题