川普在美国宾州巴特勒的一次演讲中遇刺_20240714川普在美国宾州巴特勒的一次演讲中遇刺_20240714

北京 – 在人工智能领域,语音识别技术(ASR)一直是研究和应用的热点。近日,小红书开源了其工业级自动语音识别模型家族——FireRedASR,引起了业界的广泛关注。该模型在普通话 ASR 基准测试中达到了新的最佳水平(SOTA),尤其在歌词识别方面表现出色,为语音交互应用带来了新的可能性。

FireRedASR是什么?

FireRedASR 是小红书开源的自动语音识别模型家族,支持普通话、中文方言和英语。该模型家族包含两个主要版本:

  • FireRedASR-LLM: 采用 Encoder-Adapter-LLM 框架,基于大型语言模型(LLM)的能力,实现 SOTA 性能,支持无缝端到端语音交互。在普通话基准测试中平均字符错误率(CER)为 3.05%,相比之前的 SOTA 模型(3.33%)降低了 8.4%。
  • FireRedASR-AED: 采用基于注意力的编码器-解码器(AED)架构,平衡高性能和计算效率,可作为基于 LLM 的语音模型中的有效语音表示模块。在普通话基准测试中平均 CER 为 3.18%,优于拥有超过 12B 参数的 Seed-ASR。

FireRedASR的主要功能

FireRedASR 的主要功能包括:

  • 高精度语音识别: FireRedASR-LLM 专注于极致的语音识别精度,而 FireRedASR-AED 则平衡了高准确率与推理效率。
  • 高效推理: FireRedASR-AED 基于经典的 Attention-based Encoder-Decoder 架构,参数量为 1.1B,在保证准确率的同时,提高了推理效率。
  • 多场景适配: FireRedASR 在多种日常场景下表现出色,包括短视频、直播、语音输入和智能助手等。与业内领先的 ASR 服务提供商和 Paraformer-Large 相比,FireRedASR-LLM 的 CER 相对降低 23.7%~40.0%。
  • 歌词识别能力: 在歌词识别场景中,FireRedASR-LLM 的 CER 实现了 50.2%~66.7% 的相对降低,展现了极强的适配能力。
  • 多语言支持: FireRedASR 支持普通话,在中文方言和英语语音识别方面表现出色,进一步拓宽了其应用范围。
  • 开源与社区支持: FireRedASR 的模型和推理代码均已开源,推动语音识别技术的社区驱动改进和学术研究。

FireRedASR的技术原理

  • FireRedASR-LLM: 采用 Encoder-Adapter-LLM 框架,包含三个核心组件:Conformer 基础编码器、轻量级适配器和预训练文本 LLM(基于 Qwen2-7B-Instruct 初始化)。在训练过程中,编码器和适配器是可训练的, LLM 的大部分参数保持固定,仅通过 Low-Rank Adaptation(LoRA)进行微调。
  • FireRedASR-AED: 基于经典的注意力机制编码器-解码器(AED)架构,由 Conformer 编码器和 Transformer 解码器组成。输入特征为 80 维的 log Mel 滤波器组,经过全局均值和方差归一化处理。训练数据包含约 7 万小时的高质量普通话音频数据,以及约 1.1 万小时的英语音频数据。

FireRedASR的应用场景

FireRedASR 的应用场景广泛,包括:

  • 智能语音助手: 用于开发智能家居控制、智能客服等,提供流畅的交互体验。
  • 视频和直播: 实时生成字幕,帮助观众更好地理解内容。
  • 歌词识别: 广泛应用于音乐平台和卡拉OK等场景。
  • 语音输入: 用于语音打字、语音笔记等,提升用户的输入效率。

开源地址

结语

小红书开源 FireRedASR,不仅为语音识别技术的发展注入了新的活力,也为开发者和研究人员提供了强大的工具。凭借其高精度、高效率和多场景适配能力,FireRedASR 有望在智能语音助手、视频直播、歌词识别等领域发挥重要作用,推动语音交互技术的进步。未来,我们期待 FireRedASR 在社区的共同努力下,不断完善和发展,为人们的生活带来更多便利。


>>> Read more <<<

Views: 8

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注