北京 – 在人工智能领域,语音识别技术(ASR)一直是研究和应用的热点。近日,小红书开源了其工业级自动语音识别模型家族——FireRedASR,引起了业界的广泛关注。该模型在普通话 ASR 基准测试中达到了新的最佳水平(SOTA),尤其在歌词识别方面表现出色,为语音交互应用带来了新的可能性。
FireRedASR是什么?
FireRedASR 是小红书开源的自动语音识别模型家族,支持普通话、中文方言和英语。该模型家族包含两个主要版本:
- FireRedASR-LLM: 采用 Encoder-Adapter-LLM 框架,基于大型语言模型(LLM)的能力,实现 SOTA 性能,支持无缝端到端语音交互。在普通话基准测试中平均字符错误率(CER)为 3.05%,相比之前的 SOTA 模型(3.33%)降低了 8.4%。
- FireRedASR-AED: 采用基于注意力的编码器-解码器(AED)架构,平衡高性能和计算效率,可作为基于 LLM 的语音模型中的有效语音表示模块。在普通话基准测试中平均 CER 为 3.18%,优于拥有超过 12B 参数的 Seed-ASR。
FireRedASR的主要功能
FireRedASR 的主要功能包括:
- 高精度语音识别: FireRedASR-LLM 专注于极致的语音识别精度,而 FireRedASR-AED 则平衡了高准确率与推理效率。
- 高效推理: FireRedASR-AED 基于经典的 Attention-based Encoder-Decoder 架构,参数量为 1.1B,在保证准确率的同时,提高了推理效率。
- 多场景适配: FireRedASR 在多种日常场景下表现出色,包括短视频、直播、语音输入和智能助手等。与业内领先的 ASR 服务提供商和 Paraformer-Large 相比,FireRedASR-LLM 的 CER 相对降低 23.7%~40.0%。
- 歌词识别能力: 在歌词识别场景中,FireRedASR-LLM 的 CER 实现了 50.2%~66.7% 的相对降低,展现了极强的适配能力。
- 多语言支持: FireRedASR 支持普通话,在中文方言和英语语音识别方面表现出色,进一步拓宽了其应用范围。
- 开源与社区支持: FireRedASR 的模型和推理代码均已开源,推动语音识别技术的社区驱动改进和学术研究。
FireRedASR的技术原理
- FireRedASR-LLM: 采用 Encoder-Adapter-LLM 框架,包含三个核心组件:Conformer 基础编码器、轻量级适配器和预训练文本 LLM(基于 Qwen2-7B-Instruct 初始化)。在训练过程中,编码器和适配器是可训练的, LLM 的大部分参数保持固定,仅通过 Low-Rank Adaptation(LoRA)进行微调。
- FireRedASR-AED: 基于经典的注意力机制编码器-解码器(AED)架构,由 Conformer 编码器和 Transformer 解码器组成。输入特征为 80 维的 log Mel 滤波器组,经过全局均值和方差归一化处理。训练数据包含约 7 万小时的高质量普通话音频数据,以及约 1.1 万小时的英语音频数据。
FireRedASR的应用场景
FireRedASR 的应用场景广泛,包括:
- 智能语音助手: 用于开发智能家居控制、智能客服等,提供流畅的交互体验。
- 视频和直播: 实时生成字幕,帮助观众更好地理解内容。
- 歌词识别: 广泛应用于音乐平台和卡拉OK等场景。
- 语音输入: 用于语音打字、语音笔记等,提升用户的输入效率。
开源地址
- Github仓库:https://github.com/FireRedTeam/FireRedASR
- HuggingFace模型库:https://huggingface.co/FireRedTeam/FireRedASR-AED-L
- arXiv技术论文:https://arxiv.org/pdf/2501.14350
结语
小红书开源 FireRedASR,不仅为语音识别技术的发展注入了新的活力,也为开发者和研究人员提供了强大的工具。凭借其高精度、高效率和多场景适配能力,FireRedASR 有望在智能语音助手、视频直播、歌词识别等领域发挥重要作用,推动语音交互技术的进步。未来,我们期待 FireRedASR 在社区的共同努力下,不断完善和发展,为人们的生活带来更多便利。
Views: 8
