腾讯AI Lab重磅发布：音乐生成大模型SongGeneration！

北京 – 腾讯AI Lab近日正式开源其研发的音乐生成大模型SongGeneration，该模型在音质、音乐性与生成速度等方面取得了显著突破，标志着AI音乐创作正从“辅助工具”向“智能共创”的新阶段迈进。SongGeneration基于LLM-DiT融合架构，不仅音质表现优于多数开源模型，部分指标甚至媲美商业闭源模型，为音乐创作、娱乐产业、教育领域以及个人娱乐等多个场景带来了全新的可能性。

技术突破：LLM-DiT融合架构与三阶段训练范式

SongGeneration的核心技术在于其创新的LLM-DiT融合架构和三阶段训练范式。该模型采用LeLM（Language Model）捕捉歌曲的整体结构和节奏，通过混合标记（Mixed Tokens）代表人声和伴奏的组合音频，并利用双轨标记（Dual-Track Tokens）分别编码人声和伴奏，从而生成高质量的音频细节。

为了进一步提升音质和音乐性，SongGeneration采用了三阶段训练范式，包括：

预训练（Pre-training）： 在大规模音乐数据上进行预训练，对齐不同输入模态和混合标记。
模块扩展训练（Modular Extension Training）： 进一步训练 AR 解码器，建模双轨标记，提升音质和音乐性。
多偏好对齐（Multi-Preference Alignment）： 基于 DPO 后训练，优化模型在多维度偏好上的表现，例如歌词对齐、提示一致性以及音乐性。

核心优势：低比特率、并行预测、多维度偏好对齐

SongGeneration在技术上展现出多项核心优势：

低比特率音乐编解码： 实现25Hz极低码率和0.35kbps超低比特率下的高质量音乐重建，减轻语言模型建模负担。
多类别token并行预测： 基于“混合优先，双轨其次”策略，避免token相互干扰，提升音质和音乐性。
多维度人类偏好对齐： 对齐音乐性、歌词对齐、提示一致性偏好，提升模型效果和鲁棒性。

性能表现：开源模型第一梯队，部分指标媲美商业模型

通过主客观整体测评，SongGeneration在与三款商业模型（Suno v4.5、海绵音乐、Mureka O1）和四款开源模型（YuE、DiffRhythm、ACE-Step、SongGen）的对比中，在开源模型中稳居第一，在商业模型中位列前茅。在客观测评中，SongGeneration在内容欣赏度（CE）、内容实用性（CU）和制作质量（PQ）三个关键维度上均位列榜首。主观评测中，SongGeneration在歌词准确度上超越包括Suno在内的众多大模型，体现了其在语音与文本对齐能力上的显著优势。

应用场景：从辅助工具到智能共创

SongGeneration的应用场景广泛，涵盖：

音乐创作： 为音乐人和制作人提供高质量歌曲草稿，节省创作时间，助力专注核心创作，激发创意。
娱乐产业： 在影视、游戏、广告等娱乐领域，快速生成契合需求的配乐，增强作品沉浸感与吸引力，丰富音乐内容。
教育领域： 作为音乐教育工具，帮助学生理解音乐基础知识，激发创造力，辅助在线课程提供示例歌曲，提升教学效果。
广告和营销： 为广告和品牌生成贴合主题的音乐，提升广告吸引力和品牌认同感，助力品牌营销。
个人娱乐： 普通用户用SongGeneration创作个性化歌曲，表达情感，分享社交平台，增添娱乐互动乐趣。

开源地址：

GitHub仓库：https://github.com/tencent-ailab/SongGeneration
HuggingFace模型库：https://huggingface.co/tencent/SongGeneration
arXiv技术论文：https://arxiv.org/pdf/2506.07520 (请注意，此链接为示例，请替换为实际链接)
在线体验Demo：https://huggingface.co/spaces/tencent/SongGeneration

未来展望：AI音乐创作的无限可能

腾讯AI Lab开源SongGeneration，不仅为AI音乐创作领域注入了新的活力，也为广大开发者和音乐爱好者提供了强大的工具。随着技术的不断发展，AI音乐创作将迎来更加广阔的发展前景，为音乐产业带来更多的创新和可能性。SongGeneration的开源，无疑将加速这一进程，引领AI音乐创作走向更加智能、高效和个性化的未来。

>>> Read more <<<