豆包版《Her》全新升级!支持随时打断,交流更自然,且仍是开箱即用型。
编辑日期:2024年08月22日
豆包大模型的应用在国内顶级数字人聊天产品中取得了新的进展。
8月21日,在AI创新巡展活动中,火山引擎宣布了一系列针对豆包大模型的产品升级。
活动现场透露,相较于三个月前首次发布时,最新的豆包大语言模型的整体能力提升了20.3%。具体来说,在六个关键能力评估方面,角色扮演能力提高了38.3%,这意味着模型现在具有更强的上下文感知能力,能够实现更加连贯和逼真的对话场景。同时,语言理解能力提升了33.3%,涵盖信息分类与抽取、总结摘要、阅读理解和问答等多个方面。此外,模型还在处理长文本任务、数学计算、专业领域知识以及编程能力等方面有所进步。
值得一提的是,本次活动还推出了豆包大模型的一系列语音功能升级。豆包大模型团队的研究成果(相关论文见文末链接)已经成功应用于语音识别和语音合成模型。在此基础上,火山引擎结合RTC技术(实时音视频通信),推出了一套全新的对话式AI实时交互解决方案。
这套方案不仅使用户能够通过语音与AI进行交流,而且还允许用户在对话过程中随时打断或插入发言,而不会影响对话的整体质量。升级后的AI声音更加生动、富有情感,从而使得对话更加自然流畅,显著提升了大模型的交互体验。
在活动现场,火山引擎还与多点DMALL共同发起了零售大模型生态联盟,旨在利用豆包大模型为零售行业提供AI解决方案。首批加入该联盟的成员包括物美集团、抖音电商、抖音生活服务、百胜、麦当劳、中国飞鹤、海底捞、居然之家、南7-11、重庆百货、百果园、波司登、天虹、三得利、绝味、名创优品、NielsenIQ和电通等企业。
搭载火山方舟大模型服务平台,我们利用火山引擎实时通信 (RTC) 技术高效地采集、处理并传输语音数据,并且深度融合豆包·语音识别模型和豆包·语音合成模型,极大简化了从语音到文本及从文本到语音的转换过程。火山引擎的对话式人工智能实时交互解决方案提供了卓越的智能对话和自然语言处理能力,帮助企业快速实现用户与云端大型模型间的实时语音通话功能。
对话式AI实时交互服务方案架构
该方案易于部署,仅需调用标准的 OpenAPI 接口即可配置所需的语音识别 (ASR)、大型语言模型 (LLM)、语音合成 (TTS) 类型及其参数。火山引擎 AIGC RTC-Server 负责边缘用户接入、云端资源调度、文本与语音转换处理以及数据订阅传输等任务。这极大地简化了开发流程,使企业能够专注于大型模型的核心能力训练与调试,从而加速 AI 实时语音场景的创新。
为了让与 AI 的交流如同与朋友交谈般自然,包括支持随时打断或插话等功能,关键是解决用户与 AI 同时说话时产生的音频“双讲”问题。
火山引擎 RTC 基于成熟的音频 3A 处理技术,通过结合传统的回声消除算法和深度学习算法,不仅有效地消除了回声,还避免了对用户语音进行过度处理,确保云端的语音识别 (ASR) 能够准确捕捉和识别用户的语音信息。
此外,通过优化算法以提升处理速度,火山引擎 RTC 避免了因算法复杂度增加而导致的额外延迟。
依托 WebRTC 传输网络 (WTN),火山引擎 RTC 选取了全球范围内大量的优质节点,实现了全球用户的智能接入和音视频数据的超低延迟传输。即便在网络条件恶劣的情况下,如高达 80% 的数据包丢失率,也能确保音频传输的稳定性和高质量。
同时,火山引擎的实时通信 (RTC) 技术结合了云端的语音识别流式处理,大大降低了链路延迟,使得端到端的响应延迟可降至仅1秒。此外,火山引擎的实时信令系统 (RTS) 能够提供稳定可靠、低延迟且支持高并发的信令收发能力,特别适用于文字信令的有效传输。无论 AI 服务部署在何处,用户都能享受到无论语音交流还是文字对话时的超低延迟和流畅的 AI 交互体验。
本方案中的客户端还提供了音频帧级别的语音活动检测 (VAD),能够精确判断音频信号中的说话时刻与静默时刻,这有助于整个语音系统更高效地处理语音输入,更准确地识别和理解用户的命令或话语,并减少误识别的情况。同时,该功能还能避免处理无意义的背景声音,节约计算资源,提升系统整体效率。
当前,人工智能领域的创新与突破正以前所未有的速度涌现,几乎每周都会有新进展。随着 AIGC 交互形态与规模的快速发展,例如从纯文字到语音再到视频等多种模式,以及从一对一到多人与多个代理之间的互动,火山引擎的对话式 AI 实时交互服务不仅支持实时语音,还在积极探索多模态视频对话和多人群聊等新场景,助力开发者迅速迭代和创新,持续推出新的应用场景和功能。
对于希望快速部署 AI 实时语音功能的企业而言,火山引擎提供的一站式解决方案使得企业能专注于核心功能的开发与创新,无需过多关注底层技术细节。此外,火山引擎还提供了多样化的接入方案以适应不同企业的具体需求。以下是两种额外的接入方案示例:
通过这些方案,企业可以根据自身的技术架构和业务场景选择最适合的接入方式,实现实时高质量的 AI 语音场景。火山引擎的 AI 实时语音能力已经在一些国内顶级的 AI 虚拟人物聊天产品中成功应用,为大量用户带来了全新的互动体验。
有关 Seed-TTS 和 Seed-ASR 技术的详细信息:
论文《Seed-TTS: 一个高质量多功能语音生成模型家族》链接:https://arxiv.org/pdf/2406.02430
演示示例:https://bytedancespeech.github.io/seedtts_tech_report/
论文《Seed-ASR: 利用大型语言模型进行多样语音及情境识别》链接:https://team.doubao.com/zh/publication/seed-asr-understanding-diverse-speech-and-contexts-with-llm-based-speech-recognition?view_from=research
演示示例:https://bytedancespeech.github.io/seedasr_tech_report/
——结束——
AI插件成为新的竞争焦点
提供AI编程助手和Cloud IDE两种使用形式
揭示了“文科强理科弱”的原因
为用户供应奥运会新闻早晚摘要、赛事重播、以及AI解说等内容。以豆包主力模型pro-32k为例,其价格比业界标准低99%,而TPM限制则高出同类规格模型的2.7至8倍。
目前已有超过50个业务项目正在运用豆包大型模型。