北京 – 在人工智能领域,自动语音识别(ASR)技术正日益成为人机交互的关键。近日,社交平台小红书宣布开源其自主研发的工业级自动语音识别模型家族FireRedASR,引发业界广泛关注。该模型在普通话ASR基准测试中达到新的最佳水平(SOTA),尤其在歌词识别方面展现出卓越性能,为语音识别技术的发展注入了新的活力。
FireRedASR是什么?
FireRedASR是小红书推出的开源ASR模型家族,旨在支持普通话、中文方言和英语的语音识别。该模型家族包含两个主要版本:FireRedASR-LLM和FireRedASR-AED。
- FireRedASR-LLM: 采用Encoder-Adapter-LLM框架,充分利用大型语言模型(LLM)的能力,实现SOTA性能,并支持无缝端到端语音交互。在普通话基准测试中,其平均字符错误率(CER)为3.05%,相较之前的SOTA模型(3.33%)降低了8.4%。
- FireRedASR-AED: 采用基于注意力的编码器-解码器(AED)架构,在高性能和计算效率之间取得平衡,可作为基于LLM的语音模型中的有效语音表示模块。在普通话基准测试中,其平均CER为3.18%,优于拥有超过12B参数的Seed-ASR。
技术亮点与应用场景
FireRedASR的成功并非偶然,其背后蕴含着精湛的技术和对应用场景的深刻理解。
- 高精度语音识别: FireRedASR-LLM专注于极致的语音识别精度,通过Encoder-Adapter-LLM框架,将语音特征有效地映射到LLM的语义空间,从而实现更高的识别准确率。
- 高效推理: FireRedASR-AED基于经典的Attention-based Encoder-Decoder架构,参数量仅为1.1B,在保证较高准确率的同时,实现了高效的推理速度,使其更适用于资源受限的场景。
- 多场景适配: FireRedASR在短视频、直播、语音输入和智能助手等多种日常场景下表现出色。与业内领先的ASR服务提供商和Paraformer-Large相比,FireRedASR-LLM的CER相对降低23.7%~40.0%,显示出强大的竞争力。
- 歌词识别能力: FireRedASR-LLM在歌词识别场景中表现尤为突出,CER实现了50.2%~66.7%的相对降低,这对于音乐平台和卡拉OK等应用场景具有重要意义。
- 多语言支持: FireRedASR不仅支持普通话,还在中文方言和英语语音识别方面表现出色,进一步拓宽了其应用范围。
技术原理
FireRedASR-LLM和FireRedASR-AED在技术实现上各有侧重:
- FireRedASR-LLM: 采用Encoder-Adapter-LLM框架,包含Conformer基础编码器、轻量级适配器和预训练文本LLM(基于Qwen2-7B-Instruct初始化)。在训练过程中,编码器和适配器可训练,LLM的大部分参数保持固定,仅通过Low-Rank Adaptation(LoRA)进行微调。
- FireRedASR-AED: 基于经典的注意力机制编码器-解码器(AED)架构,由Conformer编码器和Transformer解码器组成。输入特征为80维的log Mel滤波器组,经过全局均值和方差归一化处理。训练数据包含约7万小时的高质量普通话音频数据以及约1.1万小时的英语音频数据。
开源与社区贡献
小红书选择开源FireRedASR的模型和推理代码,体现了其积极推动语音识别技术发展的决心。开源不仅能够促进社区驱动的改进和学术研究,还能加速技术的普及和应用。
应用前景展望
FireRedASR的应用前景广阔,可以应用于以下领域:
- 智能语音助手: 提供高精度的语音识别能力,提升智能家居控制、智能客服等应用的交互体验。
- 视频和直播: 实时生成字幕,帮助观众更好地理解内容。
- 歌词识别: 为音乐平台和卡拉OK等场景提供更准确的歌词识别服务。
- 语音输入: 提高语音打字、语音笔记等应用的输入效率。
结语
小红书开源FireRedASR,不仅是其在人工智能领域的一次重要突破,也为整个语音识别技术领域带来了新的机遇。随着开源社区的不断发展和完善,FireRedASR有望在更多场景中发挥重要作用,推动人机交互技术的进步。
参考文献:
- FireRedASR Github仓库:https://github.com/FireRedTeam/FireRedASR
- FireRedASR HuggingFace模型库:https://huggingface.co/FireRedTeam/FireRedASR-AED-L
- FireRedASR arXiv技术论文:https://arxiv.org/pdf/2501.14350
(完)
Views: 3