腾讯AI Lab重磅发布：音乐生成大模型SongGeneration！

北京 – 6月16日，腾讯AI Lab正式开源其研发的音乐生成大模型SongGeneration，这一举措标志着AI音乐创作领域又向前迈进了一大步。SongGeneration旨在解决音乐AIGC（人工智能生成内容）领域长期存在的音质、音乐性以及生成速度三大难题，为音乐创作带来新的可能性。

技术突破：LLM-DiT融合架构与创新编解码技术

SongGeneration模型基于LLM-DiT（Language Model-Diffusion Transformer）的融合架构，在保证生成速度的同时，显著提升了音质表现。据腾讯AI Lab介绍，SongGeneration生成的歌曲在准确度上甚至优于部分商业闭源模型，并在整体表现、旋律、伴奏、音质与结构等维度也优于现有多数开源模型。

该模型采用了多项技术创新，其中最引人注目的是其低比特率编解码技术。传统的音乐生成模型往往需要处理庞大的数据量，这给模型的训练和生成带来了巨大的挑战。SongGeneration通过创新的编解码器，能够以极低的码率（25Hz）和超低比特率（0.35kbps）将48kHz的双通道音乐进行压缩和高质量还原，大大减轻了语言模型的建模负担，为高质量音乐生成奠定了基础。

此外，SongGeneration还采用了多类别token并行预测等技术，进一步提升了生成效率和音乐的和谐性。

功能多样：文本控制、多轨合成与风格跟随

除了技术上的突破，SongGeneration在功能上也十分强大。它支持文本控制、多轨合成与风格跟随等功能，既满足了C端创作者的可玩性，又兼具B端的稳定性和拓展性。

文本控制： 用户只需输入关键词文本（如“开心流行”、“激烈摇滚”），即可实现对生成音乐的风格和情绪控制。
风格跟随： 用户可以上传10秒以上的参考音频，SongGeneration会自动生成风格一致的全长新曲，覆盖流行、摇滚、中国风等多种流派。
多轨生成： SongGeneration能够自动生成分离的人声与伴奏轨道，同时保证旋律、结构、节奏与配器的高度匹配。
音色跟随： 该模型还支持基于参考音频的音色跟随功能，生成歌曲具备“音色克隆”级别的人声表现，听感自然、音质出众。

应用前景：从辅助工具到智能共创

AI音乐创作正在从过去的“辅助工具”迈向“智能共创”的新阶段。SongGeneration的推出，无疑将加速这一进程。

该模型可以被广泛应用于短视频配乐、游戏音效、虚拟人演出、商业广告以及个人音乐创作等场景。例如，短视频创作者可以利用SongGeneration快速生成符合视频主题的背景音乐；游戏开发者可以利用它创造出独特的音效；虚拟人项目可以利用它进行个性化的音乐表演。

更重要的是，SongGeneration的开源，将降低音乐创作的门槛，让更多人能够参与到音乐创作中来。正如腾讯AI Lab所期望的，SongGeneration的推出不仅代表着技术能力的跃升，更是对“人人皆可创作”这一音乐未来愿景的坚实回应与有力推动。

挑战与展望

尽管SongGeneration取得了显著的进展，但AI音乐生成领域仍然面临着一些挑战。例如，如何进一步提升生成音乐的创意性和情感表达能力？如何更好地控制生成音乐的风格和主题？如何解决AI生成音乐的版权问题？

这些问题需要学术界、产业界以及法律界的共同努力。随着技术的不断发展和完善，我们有理由相信，AI音乐生成将在未来发挥越来越重要的作用，为音乐创作带来更多的可能性。

参考文献

机器之心. (2024, June 16). 人人皆可创作音乐！腾讯AI Lab开源音乐生成大模型SongGeneration. Retrieved from https://www.jiqizhixin.com/

>>> Read more <<<

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

腾讯AI Lab重磅发布：音乐生成大模型SongGeneration！

作者智能小编

相关文章

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

发表回复取消回复

为您推荐