Stability AI联手Arm，发布文本到音频模型

摘要： Stability AI与Arm公司近日联合发布了Stable Audio Open Small，一款轻量级的文本到音频生成模型。该模型基于Stable Audio Open，通过大幅减少参数量，实现了在移动设备上的快速音频生成，为移动音乐创作、游戏音效、视频配乐等应用场景带来了新的可能性。

正文：

人工智能正以前所未有的速度渗透到各个领域，音频生成技术便是其中一个备受瞩目的分支。近日，Stability AI与Arm公司强强联手，推出了一款名为Stable Audio Open Small的文本到音频生成模型，再次引发了业界对AI音频创作的关注。

Stable Audio Open Small是基于Stability AI的Stable Audio Open模型打造的。为了适应移动设备等资源受限的环境，研发团队对模型进行了大幅瘦身，将参数量从11亿减少到3.41亿。这一举措不仅显著提升了音频生成速度，更使得模型能够在智能手机等边缘设备上流畅运行，无需依赖复杂的硬件支持。

该模型的核心功能在于文本到音频的转换。用户只需输入一段文本描述，例如“鼓点循环”、“雨夜氛围”等，模型便能根据文本提示生成相应的音频内容。Stable Audio Open Small支持生成短音频样本、音效、乐器片段和环境纹理等多种类型的音频，为创意音频制作和实时音频应用提供了强大的工具。

技术原理：深度学习与边缘计算的结合

Stable Audio Open Small的技术核心在于深度学习和边缘计算的结合。

深度学习： 模型基于先进的神经网络技术，如Transformer架构，对文本和音频进行编码和解码。通过大量的音频数据训练，模型能够理解文本描述与音频特征之间的关系，从而生成符合要求的音频内容。
参数优化： 为了降低模型的复杂度和计算需求，研发团队采用了模型压缩技术，如量化和剪枝，对模型参数进行优化。
边缘计算优化： Stable Audio Open Small集成了Arm的KleidiAI库，专门针对Arm CPU进行了优化，使其能够在移动设备和边缘设备上高效运行。通过优化算法和硬件加速，显著减少了音频生成的时间和计算成本。

应用场景：创意无限，潜力巨大

Stable Audio Open Small的应用场景十分广泛，涵盖了娱乐、教育、创作等多个领域：