北京 – 6月16日,腾讯AI Lab正式开源其研发的音乐生成大模型SongGeneration,这一举措标志着AI音乐创作领域又向前迈进了一大步。SongGeneration旨在解决音乐AIGC(人工智能生成内容)领域长期存在的音质、音乐性以及生成速度三大难题,为音乐创作带来新的可能性。
技术突破:LLM-DiT融合架构与创新编解码技术
SongGeneration模型基于LLM-DiT(Language Model-Diffusion Transformer)的融合架构,在保证生成速度的同时,显著提升了音质表现。据腾讯AI Lab介绍,SongGeneration生成的歌曲在准确度上甚至优于部分商业闭源模型,并在整体表现、旋律、伴奏、音质与结构等维度也优于现有多数开源模型。
该模型采用了多项技术创新,其中最引人注目的是其低比特率编解码技术。传统的音乐生成模型往往需要处理庞大的数据量,这给模型的训练和生成带来了巨大的挑战。SongGeneration通过创新的编解码器,能够以极低的码率(25Hz)和超低比特率(0.35kbps)将48kHz的双通道音乐进行压缩和高质量还原,大大减轻了语言模型的建模负担,为高质量音乐生成奠定了基础。
此外,SongGeneration还采用了多类别token并行预测等技术,进一步提升了生成效率和音乐的和谐性。
功能多样:文本控制、多轨合成与风格跟随
除了技术上的突破,SongGeneration在功能上也十分强大。它支持文本控制、多轨合成与风格跟随等功能,既满足了C端创作者的可玩性,又兼具B端的稳定性和拓展性。
- 文本控制: 用户只需输入关键词文本(如“开心 流行”、“激烈 摇滚”),即可实现对生成音乐的风格和情绪控制。
- 风格跟随: 用户可以上传10秒以上的参考音频,SongGeneration会自动生成风格一致的全长新曲,覆盖流行、摇滚、中国风等多种流派。
- 多轨生成: SongGeneration能够自动生成分离的人声与伴奏轨道,同时保证旋律、结构、节奏与配器的高度匹配。
- 音色跟随: 该模型还支持基于参考音频的音色跟随功能,生成歌曲具备“音色克隆”级别的人声表现,听感自然、音质出众。
应用前景:从辅助工具到智能共创
AI音乐创作正在从过去的“辅助工具”迈向“智能共创”的新阶段。SongGeneration的推出,无疑将加速这一进程。
该模型可以被广泛应用于短视频配乐、游戏音效、虚拟人演出、商业广告以及个人音乐创作等场景。例如,短视频创作者可以利用SongGeneration快速生成符合视频主题的背景音乐;游戏开发者可以利用它创造出独特的音效;虚拟人项目可以利用它进行个性化的音乐表演。
更重要的是,SongGeneration的开源,将降低音乐创作的门槛,让更多人能够参与到音乐创作中来。正如腾讯AI Lab所期望的,SongGeneration的推出不仅代表着技术能力的跃升,更是对“人人皆可创作”这一音乐未来愿景的坚实回应与有力推动。
挑战与展望
尽管SongGeneration取得了显著的进展,但AI音乐生成领域仍然面临着一些挑战。例如,如何进一步提升生成音乐的创意性和情感表达能力?如何更好地控制生成音乐的风格和主题?如何解决AI生成音乐的版权问题?
这些问题需要学术界、产业界以及法律界的共同努力。随着技术的不断发展和完善,我们有理由相信,AI音乐生成将在未来发挥越来越重要的作用,为音乐创作带来更多的可能性。
参考文献
- 机器之心. (2024, June 16). 人人皆可创作音乐!腾讯AI Lab开源音乐生成大模型SongGeneration. Retrieved from https://www.jiqizhixin.com/
Views: 0
