清华联手海天瑞声，Dolphin语音识别大模型问世

北京 – 清华大学电子工程系语音与音频技术实验室近日联合海天瑞声，正式发布面向东方语言的语音识别大模型“Dolphin”。这款模型不仅支持高达40种东方语种的语音识别，更令人瞩目的是，它在中文语种方面涵盖了22种方言（含普通话），能够精准识别不同地区的语言特点，为东方语言的语音识别领域带来了突破性进展。

数据驱动，性能卓越

Dolphin模型的训练数据总时长达到了惊人的21.2万小时，其中高质量专有数据13.8万小时，开源数据7.4万小时。海量数据的支撑使得Dolphin在性能上表现出色。根据官方数据，Dolphin的词错率（WER）显著低于Whisper同等尺寸模型，例如base版本平均WER降低63.1%，small版本降低68.2%。这一数据充分证明了Dolphin在语音识别精度上的巨大优势。

技术创新，架构领先

Dolphin采用了CTC-Attention架构，该架构结合了CTC（Connectionist Temporal Classification）的序列建模能力和注意力机制的上下文捕捉能力。在编码器方面，Dolphin采用了E-Branchformer，该编码器采用并行分支结构，能更有效地捕捉输入语音信号的局部和全局依赖关系。解码器则采用了Transformer架构，通过自注意力机制，有效地捕捉文本中的长距离依赖关系，确保最终输出的文本质量和连贯性。此外，模型还引入了4倍下采样层，在加速计算的同时，保留关键的语音信息，确保模型的识别效果不受影响。

Dolphin还创新性地引入了两级语种标签系统。第一个标签指定语种（如表示中文），第二个标签指定地区（如表示中国）。这一设计使得模型能够精准捕捉同一种语言内不同方言和口音之间的差异，以及同一地区内不同语言之间的相似性，从而提高模型在特定语言和地区环境下的识别效果，增强其泛化能力。

开源赋能，应用广泛

Dolphin的base与small版本模型与推理代码全面开源，为开发者提供了极大的便利。开发者可以根据自身需求对模型进行二次开发和优化，例如针对特定应用场景进行模型微调、扩展模型的功能等，满足个性化需求，推动语音识别技术在更多领域的应用和创新。

Dolphin的应用场景十分广泛，包括：

会议记录： 自动将会议中的语音内容转换为文字记录，提高工作效率。
语音输入法： 在智能设备上，用户可以通过语音输入文字，减少手动输入的麻烦，提升输入速度和便捷性。
智能语音助手： 支持多种语言和方言，能更好地理解用户的语音指令，提供更准确的反馈，减少因方言或口音导致的误解。
智能家居： 用户可以通过语音控制智能家居设备，如灯光、空调等，提升家居的智能化和便捷性。
新闻媒体： 快速将新闻采访、播客等语音内容转换为文字，方便编辑和发布。
语言学习： 支持多种语言和方言的识别，可以帮助学生练习发音和语言表达。

行业展望

Dolphin的发布，不仅是清华大学和海天瑞声在语音识别领域的一次重要突破，也为整个东方语言的语音识别发展注入了新的活力。其开源特性和强大的性能，将吸引更多的开发者参与到模型的优化和应用中，推动语音识别技术在更多领域的创新和应用。

项目地址：

Github仓库：https://github.com/DataoceanAI/Dolphin
HuggingFace模型库：https://huggingface.co/DataoceanAI/Dolphin
arXiv技术论文：https://arxiv.org/pdf/2503.20212

结论

Dolphin的问世，标志着东方语言语音识别技术迈上了一个新的台阶。其强大的性能、开源的特性以及广泛的应用前景，预示着它将在未来的语音识别领域扮演重要的角色。随着技术的不断发展和完善，我们有理由相信，Dolphin将为人们的生活和工作带来更多的便利和效率。

参考文献

DataoceanAI. (2024). Dolphin: A Large-Scale Speech Recognition Model for Eastern Languages. https://github.com/DataoceanAI/Dolphin
DataoceanAI. (2024). Dolphin. https://huggingface.co/DataoceanAI/Dolphin
DataoceanAI. (2024). Dolphin: A Large-Scale Speech Recognition Model for Eastern Languages. https://arxiv.org/pdf/2503.20212

>>> Read more <<<