车圈最大AI“黑马”吉利：自研语音大模型登顶，性能超越SOTA 10%

编辑日期：2024年09月24日

车端拥有8亿参数的语音模型，复刻声音仅需3秒钟的样本。

在语音合成大模型领域，一夜之间出现了新的王者。

最新的HAM-TTS大模型，在发音准确性、自然度和说话人相似度方面，相较于之前的顶级成果VALL-E，实现了显著提升。

车圈最大AI“黑马”吉利：自研语音大模型

而这一突破背后的科研团队，成为了今年LLM赛道上的一匹“黑马”：

吉利汽车。

没错，这并非一家AI原生公司，也不是传统的科技巨头，而是以汽车闻名但在硬科技领域不断展现实力的吉利。

吉利自主研发的语音大模型HAM-TTS，其全称是：

Hierarchical Acoustic Modeling for Token-Based Zero-Shot Text-to-Speech，即基于token的零样本文字转语音分层声学建模。它是星睿AI大模型体系中的重要组成部分。

顾名思义，这项技术对智能座舱体验至关重要，尤其是在“发音”这一关键交互环节。

语音助手的表现通常通过以下几个指标来评价：

车圈最大AI“黑马”吉利：自研语音大模型

发音准确度：通过Character Error Rate（CER）评估，具体由知名的端到端语音模型平台ESPNet打分。
说话风格的一致性（NMOS）、音调一致性（SMOS）及整体得分（MOS）：由研究团队招募的60人团队进行主观评分。

总体而言，在约4亿参数规模下，HAM-TTS模型相比VALL-E模型，字符错误率降低了约1.5%。

完全体8亿参数的HAM-TTS模型，字符错误率则降低了2.3%。

在风格一致性、音调一致性和整体得分方面，HAM-TTS模型提升了大约10%。

吉利：车圈最大AI“黑马” 自研语音大模型

在智能座舱的各种交互场景中，例如联动虚拟形象、自定义人设、语音导航、新闻播报、绘本朗读、讲故事、直播等，这些功能的背后都离不开星睿语音大模型的强大技术支持。

星睿语音大模型具备出色的辨识能力，能够保持说话人的音色稳定性和连贯性，避免音色突变。无论是专业的新闻播报、轻松的段子讲述，还是温馨的绘本阅读，它都能根据特定场景需求，智能调节语气、语调、停顿和情感等多维度参数，为用户提供更加沉浸式、自然且生动的个性化语音交互体验。

此外，该模型支持跨语种无缝切换，无论用户使用何种语言或方言，都能在保持音色一致的前提下，流畅地进行中文或英文的语音合成。系统可以将方言输入直接转换为普通话输出，甚至转换为其他不同方言的输出。目前，星睿语音大模型已支持四川话、粤语、东北话等多种方言合成，并且还支持日韩及东南亚地区的跨语种语音合成。

更重要的是，星睿语音模型在声音复刻方面取得了重大突破，只需3秒钟的样本输入即可完成复刻，远超行业普遍所需的10秒样本要求。这一技术进步极大地提升了用户体验，并展示了其在学术上的重要价值——通过创新的声音合成技术和数据增强策略，显著改善了TTS（Text-to-Speech）模型的性能和训练成本。

TTS模型广泛应用于各种文字转语音的交互应用中，通常遵循“文本处理—提取声学特征—语音合成”的三步流程。前两个步骤采用标准算法，而在语音合成阶段则应用神经网络。例如，VALL-E作为语音合成模型的开山之作，虽然只用了16块V100 GPU进行训练，但其规模约为4亿参数，已经相当可观。

车圈最大AI“黑马”吉利：自研语音大模型

将输入文本直接与语音 token 拼接作为大模型的输入时，由于缺乏足够的语义信息来引导模型，或者说是文本与语音之间未能有效“对齐”，这会导致传统 TTS（Text-to-Speech）模型出现发音准确率低、说话风格和音色不一致等问题。尽管可以通过引入大量的多样化训练数据来解决这些问题，但这会增加研发周期和成本。

吉利为了解决这个问题，在传统的 TTS 模型结构中引入了一种分层声学建模方法：

车圈最大AI“黑马”吉利：自研语音大模型

具体来说，他们引入了一个 Text-to-LVS predictor（文本到隐空间变量序列预测器），即通过文本预测出包含重要声学信息和语义信息的隐变量，并将其作为补充信息。在推理阶段，这些隐变量信息与文本提示信息一同作为大模型的输入。

这种方法显著改善了合成语音中的发音错误和风格突变问题。此外，在训练过程中，通过替换和复制数据片段，提高了音色的一致性。

在训练阶段，模型中还引入了一个对齐器（Text-HuBERT Aligner），用于生成监督 LVS（Latent Variable Sequence），辅助 Text-to-LVS predictor 的训练。该对齐器将文本（音素）序列与语音的 HuBERT 特征对齐，生成与音素序列长度相同的监督 LVS 序列。

车圈最大AI“黑马”吉利：自研语音大模型

在提取音频特征之后，还引入了 K-means 聚类处理，目的是去除原始音频特征中的说话人个性化信息，使模型更关注语音的共性特征，从而提高模型的泛化能力和合成语音的音色一致性。

在提高语音合成准确性的同时，团队还采用基于 UNet 架构的声音转换预训练模型，生成大量具有不同音色但内容相同的合成语音数据，以此增加训练数据的多样性和数量，从而提升 TTS 模型的性能和泛化能力。

首先，我们从语音数据中提取HuBERT特征和基频（F0），并将这些特征输入至ResNet模型进行处理。接下来，数据经过编码下采样及解码上采样的过程，最终还原为音频信号。在解码器上采样的每个步骤中，加入目标说话人的嵌入（embedding）特征，从而实现变换说话人的音色而不改变其内容的效果。这种方法一举解决了三个问题：一是缓解了实际数据不足的情况；二是避免了版权和隐私的风险；三是有效地应对了数据稀疏问题（例如罕见的发音、特定口音或语调）。

通过使用不同比例的实际（Real）与合成（Synthetic）数据来训练HAM-TTS模型，实验结果表明，结合实际和合成数据进行训练能够显著提高模型性能。

此前，智能座舱中的corner case（边缘情况）往往被各大厂商忽视，而吉利正通过算法能力提出解决方案，从而提升了智能汽车的“最后一公里”体验。

这一部分的研发工作不仅耗时耗力，而且对技术水平要求极高：

不仅要理解最先进的模型的优势所在，还需要明确其不足之处，并针对这些不足提出改进措施。

对于大多数汽车制造商来说，AI大模型的书可能仅翻开“前言”就感到头疼，而吉利不仅深入研究，还做了“批注”。

车圈最大AI“黑马”吉利：自研语音大模型