小红书开源语音识别模型：FireRedASR

北京 – 在人工智能领域，语音识别技术（ASR）一直是研究和应用的热点。近日，小红书开源了其工业级自动语音识别模型家族——FireRedASR，引起了业界的广泛关注。该模型在普通话 ASR 基准测试中达到了新的最佳水平（SOTA），尤其在歌词识别方面表现出色，为语音交互应用带来了新的可能性。

FireRedASR是什么？

FireRedASR 是小红书开源的自动语音识别模型家族，支持普通话、中文方言和英语。该模型家族包含两个主要版本：

FireRedASR-LLM： 采用 Encoder-Adapter-LLM 框架，基于大型语言模型（LLM）的能力，实现 SOTA 性能，支持无缝端到端语音交互。在普通话基准测试中平均字符错误率（CER）为 3.05%，相比之前的 SOTA 模型（3.33%）降低了 8.4%。
FireRedASR-AED： 采用基于注意力的编码器-解码器（AED）架构，平衡高性能和计算效率，可作为基于 LLM 的语音模型中的有效语音表示模块。在普通话基准测试中平均 CER 为 3.18%，优于拥有超过 12B 参数的 Seed-ASR。

FireRedASR的主要功能

FireRedASR 的主要功能包括：

高精度语音识别： FireRedASR-LLM 专注于极致的语音识别精度，而 FireRedASR-AED 则平衡了高准确率与推理效率。
高效推理： FireRedASR-AED 基于经典的 Attention-based Encoder-Decoder 架构，参数量为 1.1B，在保证准确率的同时，提高了推理效率。
多场景适配： FireRedASR 在多种日常场景下表现出色，包括短视频、直播、语音输入和智能助手等。与业内领先的 ASR 服务提供商和 Paraformer-Large 相比，FireRedASR-LLM 的 CER 相对降低 23.7%~40.0%。
歌词识别能力： 在歌词识别场景中，FireRedASR-LLM 的 CER 实现了 50.2%～66.7% 的相对降低，展现了极强的适配能力。
多语言支持： FireRedASR 支持普通话，在中文方言和英语语音识别方面表现出色，进一步拓宽了其应用范围。
开源与社区支持： FireRedASR 的模型和推理代码均已开源，推动语音识别技术的社区驱动改进和学术研究。

FireRedASR的技术原理

FireRedASR-LLM： 采用 Encoder-Adapter-LLM 框架，包含三个核心组件：Conformer 基础编码器、轻量级适配器和预训练文本 LLM（基于 Qwen2-7B-Instruct 初始化）。在训练过程中，编码器和适配器是可训练的， LLM 的大部分参数保持固定，仅通过 Low-Rank Adaptation（LoRA）进行微调。
FireRedASR-AED： 基于经典的注意力机制编码器-解码器（AED）架构，由 Conformer 编码器和 Transformer 解码器组成。输入特征为 80 维的 log Mel 滤波器组，经过全局均值和方差归一化处理。训练数据包含约 7 万小时的高质量普通话音频数据，以及约 1.1 万小时的英语音频数据。

FireRedASR的应用场景

FireRedASR 的应用场景广泛，包括：

智能语音助手： 用于开发智能家居控制、智能客服等，提供流畅的交互体验。
视频和直播： 实时生成字幕，帮助观众更好地理解内容。
歌词识别： 广泛应用于音乐平台和卡拉OK等场景。
语音输入： 用于语音打字、语音笔记等，提升用户的输入效率。

开源地址

Github仓库：https://github.com/FireRedTeam/FireRedASR
HuggingFace模型库：https://huggingface.co/FireRedTeam/FireRedASR-AED-L
arXiv技术论文：https://arxiv.org/pdf/2501.14350

结语

小红书开源 FireRedASR，不仅为语音识别技术的发展注入了新的活力，也为开发者和研究人员提供了强大的工具。凭借其高精度、高效率和多场景适配能力，FireRedASR 有望在智能语音助手、视频直播、歌词识别等领域发挥重要作用，推动语音交互技术的进步。未来，我们期待 FireRedASR 在社区的共同努力下，不断完善和发展，为人们的生活带来更多便利。

>>> Read more <<<