北京 – 在人工智能领域,自动语音识别(ASR)技术一直是研究的热点。近日,社交电商平台小红书宣布开源其自主研发的工业级自动语音识别模型家族FireRedASR,引发业界广泛关注。该模型在普通话ASR基准测试中达到新的最佳水平(SOTA),尤其在歌词识别方面表现出色,展现了强大的技术实力和应用潜力。
FireRedASR是什么?
FireRedASR是小红书开源的自动语音识别(ASR)模型家族,旨在为语音交互提供高精度、高效率的解决方案。该模型家族包含两个主要版本:
- FireRedASR-LLM: 采用Encoder-Adapter-LLM框架,充分利用大型语言模型(LLM)的能力,实现SOTA性能,支持无缝端到端语音交互。在普通话基准测试中,平均字符错误率(CER)仅为3.05%,相比之前的SOTA模型(3.33%)降低了8.4%。
- FireRedASR-AED: 采用基于注意力的编码器-解码器(AED)架构,在高性能和计算效率之间取得平衡,可作为基于LLM的语音模型中的有效语音表示模块。在普通话基准测试中,平均CER为3.18%,优于拥有超过12B参数的Seed-ASR。
技术亮点与应用场景
FireRedASR的优势不仅在于其高精度,还在于其多场景适配能力。该模型在短视频、直播、语音输入和智能助手等多种日常场景下表现出色。与业内领先的ASR服务提供商和Paraformer-Large相比,FireRedASR-LLM的CER相对降低23.7%~40.0%。
尤其值得一提的是,FireRedASR在歌词识别场景中展现了惊人的能力。FireRedASR-LLM的CER实现了50.2%~66.7%的相对降低,这意味着它能够更准确地识别歌曲中的歌词,为音乐平台和卡拉OK等场景提供更好的用户体验。
此外,FireRedASR还支持普通话,并在中文方言和英语语音识别方面表现出色,进一步拓宽了其应用范围。
技术原理剖析
FireRedASR-LLM的核心在于其Encoder-Adapter-LLM框架,该框架包含三个核心组件:
- Conformer基础编码器: 负责提取语音特征,生成连续的语音表示。
- 轻量级适配器: 将编码器的输出转换为与LLM语义空间匹配的表示。
- 预训练文本LLM: 基于Qwen2-7B-Instruct初始化,用于生成最终的文本输出。
FireRedASR-AED则基于经典的注意力机制编码器-解码器(AED)架构,由Conformer编码器和Transformer解码器组成,输入特征为80维的log Mel滤波器组,经过全局均值和方差归一化处理。
开源与社区支持
FireRedASR的模型和推理代码均已开源,这无疑将推动语音识别技术的社区驱动改进和学术研究。开发者可以在Github仓库(https://github.com/FireRedTeam/FireRedASR)和HuggingFace模型库(https://huggingface.co/FireRedTeam/FireRedASR-AED-L)获取相关资源。
未来展望
小红书开源FireRedASR,不仅展示了其在人工智能领域的研发实力,也为语音识别技术的发展注入了新的活力。随着开源社区的不断壮大和技术的持续演进,FireRedASR有望在更多领域得到应用,为人们的生活带来更多便利。
参考文献
- FireRedASR Github仓库: https://github.com/FireRedTeam/FireRedASR
- FireRedASR HuggingFace模型库: https://huggingface.co/FireRedTeam/FireRedASR-AED-L
- FireRedASR arXiv技术论文: https://arxiv.org/pdf/2501.14350
(完)
Views: 0