Tencentand Johns Hopkins University Partner to Launch Text-to-Speech Model EzAudio

10 月 1, 2024 #Speech, #text, #每日AI快讯

90年代申花出租车司机夜晚在车内看文汇报

在人工智能技术日新月异的今天，语音合成领域正迎来一场变革。近日，腾讯AI实验室与约翰霍普金斯大学共同推出了一款名为EzAudio的文本到音频（Text-to-Audio, T2A）生成模型，这不仅标志着我国在语音合成领域的技术实力得到了进一步提升，也为广大用户带来了前所未有的听觉体验。

EzAudio是由腾讯AI实验室与约翰霍普金斯大学共同研发的一款基于扩散变换器技术的文本到音频生成模型。该模型在生成速度、效率和音频真实感方面均达到了新的标准，为用户提供了高质量、高效率的音频生成服务。

波形VAE：EzAudio基于一维波形变分自动编码器（VAE）处理音频数据，避免了处理二维频谱图的复杂性，降低了计算成本，同时保持了高时间分辨率。
优化的扩散变换器架构（EzAudio-DiT）：EzAudio采用了定制的扩散模型，包括AdaLN-SOLA和长跳跃连接，提高了模型的参数和内存效率，同时保持了训练的稳定性。
多阶段训练策略：EzAudio结合了自监督学习和强化学习等训练策略，进一步提升了模型的性能。

EzAudio的问世，将为语音合成领域带来更多可能性。未来，EzAudio有望在以下领域发挥重要作用：

腾讯AI实验室与约翰霍普金斯大学共同研发的EzAudio，不仅展示了我国在语音合成领域的技术实力，更为广大用户带来了全新的听觉体验。随着技术的不断发展，EzAudio将在更多领域发挥重要作用，为我们的生活带来更多便利。