北京 – 腾讯AI Lab近日正式开源其研发的音乐生成大模型SongGeneration,该模型在音质、音乐性与生成速度等方面取得了显著突破,标志着AI音乐创作正从“辅助工具”向“智能共创”的新阶段迈进。SongGeneration基于LLM-DiT融合架构,不仅音质表现优于多数开源模型,部分指标甚至媲美商业闭源模型,为音乐创作、娱乐产业、教育领域以及个人娱乐等多个场景带来了全新的可能性。
技术突破:LLM-DiT融合架构与三阶段训练范式
SongGeneration的核心技术在于其创新的LLM-DiT融合架构和三阶段训练范式。该模型采用LeLM(Language Model)捕捉歌曲的整体结构和节奏,通过混合标记(Mixed Tokens)代表人声和伴奏的组合音频,并利用双轨标记(Dual-Track Tokens)分别编码人声和伴奏,从而生成高质量的音频细节。
为了进一步提升音质和音乐性,SongGeneration采用了三阶段训练范式,包括:
- 预训练(Pre-training): 在大规模音乐数据上进行预训练,对齐不同输入模态和混合标记。
- 模块扩展训练(Modular Extension Training): 进一步训练 AR 解码器,建模双轨标记,提升音质和音乐性。
- 多偏好对齐(Multi-Preference Alignment): 基于 DPO 后训练,优化模型在多维度偏好上的表现,例如歌词对齐、提示一致性以及音乐性。
核心优势:低比特率、并行预测、多维度偏好对齐
SongGeneration在技术上展现出多项核心优势:
- 低比特率音乐编解码: 实现25Hz极低码率和0.35kbps超低比特率下的高质量音乐重建,减轻语言模型建模负担。
- 多类别token并行预测: 基于“混合优先,双轨其次”策略,避免token相互干扰,提升音质和音乐性。
- 多维度人类偏好对齐: 对齐音乐性、歌词对齐、提示一致性偏好,提升模型效果和鲁棒性。
性能表现:开源模型第一梯队,部分指标媲美商业模型
通过主客观整体测评,SongGeneration在与三款商业模型(Suno v4.5、海绵音乐、Mureka O1)和四款开源模型(YuE、DiffRhythm、ACE-Step、SongGen)的对比中,在开源模型中稳居第一,在商业模型中位列前茅。在客观测评中,SongGeneration在内容欣赏度(CE)、内容实用性(CU)和制作质量(PQ)三个关键维度上均位列榜首。主观评测中,SongGeneration在歌词准确度上超越包括Suno在内的众多大模型,体现了其在语音与文本对齐能力上的显著优势。
应用场景:从辅助工具到智能共创
SongGeneration的应用场景广泛,涵盖:
- 音乐创作: 为音乐人和制作人提供高质量歌曲草稿,节省创作时间,助力专注核心创作,激发创意。
- 娱乐产业: 在影视、游戏、广告等娱乐领域,快速生成契合需求的配乐,增强作品沉浸感与吸引力,丰富音乐内容。
- 教育领域: 作为音乐教育工具,帮助学生理解音乐基础知识,激发创造力,辅助在线课程提供示例歌曲,提升教学效果。
- 广告和营销: 为广告和品牌生成贴合主题的音乐,提升广告吸引力和品牌认同感,助力品牌营销。
- 个人娱乐: 普通用户用SongGeneration创作个性化歌曲,表达情感,分享社交平台,增添娱乐互动乐趣。
开源地址:
- GitHub仓库:https://github.com/tencent-ailab/SongGeneration
- HuggingFace模型库:https://huggingface.co/tencent/SongGeneration
- arXiv技术论文:https://arxiv.org/pdf/2506.07520 (请注意,此链接为示例,请替换为实际链接)
- 在线体验Demo:https://huggingface.co/spaces/tencent/SongGeneration
未来展望:AI音乐创作的无限可能
腾讯AI Lab开源SongGeneration,不仅为AI音乐创作领域注入了新的活力,也为广大开发者和音乐爱好者提供了强大的工具。随着技术的不断发展,AI音乐创作将迎来更加广阔的发展前景,为音乐产业带来更多的创新和可能性。SongGeneration的开源,无疑将加速这一进程,引领AI音乐创作走向更加智能、高效和个性化的未来。
Views: 0
