大模型时代的ASR确实不同凡响!现场评估豆包的“听力”水平,轻松掌握方言及儿童口音!
编辑日期:2024年08月22日
2024年火山引擎AI创新巡展上海站近日成功举办,活动中不仅展示了豆包大模型在综合评分、语音识别等方面的显著提升,还推出了对话式AI实时交互解决方案。豆包大模型团队的研发成果——Seed-ASR,为语音识别提供了强有力的支持。
Seed-ASR是一款先进的ASR(自动语音识别)技术,能够精确地转录各种语音信号,包括不同语言、方言和口音。即使面对人名或生僻词汇,Seed-ASR也能通过上下文信息如文本语音等,实现更为准确的转录效果。目前,该技术已被整合到豆包APP及火山引擎的相关服务模块中。
本文特别介绍了Seed-ASR的技术亮点:高精度识别、大容量模型、多语言支持、上下文感知以及分阶段训练方法。项目团队还分享了项目启动的初衷、研发过程中的心得与总结,并展望了大模型Scaling Laws对ASR技术的推动作用及其深远影响。
8月21日,在2024年火山引擎AI创新巡展上海站上,豆包大模型的最新进展得到了展示。根据公开及内部评估数据,相较于5月15日发布的版本,最新版豆包大模型的综合能力提升了20.3%,其中包括角色扮演能力提高了38.3%,语言理解能力提升了33.3%,数学能力提升了13.5%。据QuestMobile报告,基于豆包大模型开发的豆包APP月活跃用户数已达到2752万,在同类应用中排名第一,是排名第二的应用的2.43倍。
语音识别能力成为本次发布活动的重点之一。其中,语音识别与语音合成模型均实现了重要升级,同时对话式AI实时交互功能也已全新推出。
具体而言,豆包·语音合成模型提升了流式语音合成的能力,能够实现实时响应与精确断句,支持“边想边说”的功能。而豆包·语音识别模型则通过增强的上下文感知能力,推导出更加准确的识别结果,并且支持一个模型同时识别普通话以及粤语、上海话、四川话、西安话、闽南语等多种中国方言。
借助语音合成与语音识别等技术成果,火山引擎集成了云端实时音视频技术,实现了AI语音交互功能,其表现如同人类对话般可以进行打断与插话,并且端到端的延迟可降低至1秒之内。即便在网络条件不佳的情况下,即便数据包丢失率达到80%,仍能确保语音的清晰流畅。此次发布中,语音合成技术基于Seed-TTS实现;而语音识别技术则依赖于豆包大模型团队的另一项成果——Seed-ASR。
Seed-ASR基于大型语言模型构建,能将各式各样的语音转换为文本信息,从而使机器能够理解用户的语音输入,并智能地识别多种信息。
(2)专业术语的上下文推理
模型可以根据用户对字幕的历史编辑记录,关联并自动识别后续语音中的专业术语,例如滑雪中的“立刃”、“雪板”、“搓雪”等词汇。
(3)方言识别
即使是混合五种方言的语音交流,该模型也能准确识别并展示结果。如果预先提供相关的聊天背景信息作为提示,识别准确性将进一步提高。
目前,Seed-ASR已应用于豆包APP中,被广泛用于英语口语练习、虚拟聊天伴侣、复制亲朋好友的声音等多种应用场景。针对更多的企业客户,Seed-ASR依托火山引擎,在语音交互、内容审查、会议采访转录以及音视频字幕等领域也得到了实际应用。
目前,技术报告《Seed-ASR: 通过LLM-based语音识别理解多样化的语音与语境》已公开发布。在多种语言、方言以及不同口音的综合评估集合中,相较于其他端到端模型,Seed-ASR展现出了显著的优势。与之前发布的大型ASR模型相比,Seed-ASR在中文和英文公开测试集上的单词错误率(中文按单字计算)降低了10%-40%,显示出了其独特的优势。
一些用户试用后反馈,该模型的实际表现超出了他们的预期,甚至能识别小孩子的话语。
欲了解更多技术细节和演示,请访问以下链接:
- 论文标题:Seed-ASR: Understanding Diverse Speech and Contexts with LLM-based Speech Recognition
- 论文链接:https://team.doubao.com/zh/publication/seed-asr-understanding-diverse-speech-and-contexts-with-llm-based-speech-recognition?view_from=research
- Demo展示:https://bytedancespeech.github.io/seedasr_tech_report/
项目Seed-ASR始于2023年初。随着ChatGPT的问世,大规模扩展法则成为了热门话题,各个领域的研究者们逐渐认识到,参数量和数据量的大幅增加使得模型具备了强大的理解和生成能力。
在此之前,语音识别与自然语言处理(NLP)一直紧密结合,因为语音到文本的转换在人类大脑中几乎是本能般的任务,对于机器来说也是如此。基于这样的背景,研究团队希望增强自动语音识别(ASR)模型,使其能够利用大型语言模型(LLM)的丰富知识库来提高识别准确度。这项工作促成了 Seed-ASR 的诞生。
从技术角度来看,Seed-ASR 的核心优势体现在两个方面:
- 引入上下文理解能力:借助大型模型的支持,Seed-ASR 能够更好地理解语音信号中的上下文。具体来说,研究团队构建了多样化和有效的训练数据集,这激发了模型的语音识别能力,使得模型可以结合文本内容来捕捉语音中的关键信息。在实际应用中,团队还设计了解码策略来减轻上下文引入可能导致的问题,如幻觉或错误转写。
这项工作意味着,在与 AI 对话时,模型不仅能够理解专业术语,还能在会议记录中“听懂”新加入的参与者的名字。随着对话的进行,上下文信息逐渐积累,后续的转录准确率也会随之提高。
- All-in-One 设计带来的广泛适用性:传统的 ASR 模型往往针对特定领域,需要特定模型来解决细分问题,并且通常配备专门的方法来融合不同领域的数据。一旦离开特定场景,其性能往往会下降。相比之下,Seed-ASR 采用了 All-in-One 的设计理念,具有强大的泛化能力,适用于各种不同的场景,更加灵活简便。
除了以上两点,Seed-ASR 还具备高准确度的识别能力和多语言支持的特点。其中,中文版本支持 13 种方言,多语言版本支持英语和其他 7 种语言,并且正在扩展支持 40 种语言。
这些强大的功能主要得益于“规模化法则”(Scaling Laws)的理念。随着模型规模的扩大以及更多样化的数据引入,模型的泛化能力和功能显著增强。这一过程类似于 GPT 系列的发展历程。此外,分阶段的训练方法不仅提升了模型的识别准确度,还增强了模型利用上下文进行推理的能力。
在开发Seed-ASR的过程中,我们引入了分阶段训练方法,并在此基础上构建了一个基于音频条件的大型语言模型框架,我们称之为AcLLM。
以下是一系列展示大模型时代下的自动语音识别(ASR)技术卓越表现的现场评估图片:
大模型时代的ASR确实不同凡响!现场评估