字节跳动发布SeedFoley：AI音效新突破

北京 – 在人工智能技术日新月异的今天，字节跳动豆包大模型语音团队推出了一款名为SeedFoley的端到端视频音效生成模型，旨在为视频创作者提供智能、高效的音效解决方案。该模型能够根据视频内容自动生成匹配的音效，极大地提升视频的叙事性和感染力。

SeedFoley的核心在于其能够精准提取视频帧级的视觉信息，智能区分动作音效和环境音效，并支持多种视频长度。这意味着，无论是生活Vlog、短片制作，还是游戏视频、广告宣传片，SeedFoley都能胜任，为视频内容增添生动的声音元素。

SeedFoley的技术亮点主要体现在以下几个方面：

视频编码器： 采用快慢特征组合的方式，在高帧率上捕捉帧间局部运动信息，在低帧率上提取视频的语义信息。这种设计使得模型能够在低计算资源下实现8fps的帧级别视频特征提取，从而实现精细的动作定位。随后，通过Transformer结构融合快慢特征，最终实现视频的时空特征提取。
音频表征模型： 区别于传统的基于梅尔频谱的VAE模型，SeedFoley直接采用原始波形作为输入，经过编码后得到1D的表征。音频采样率高达32kHz，确保了高频信息的保留，提升了音效的细腻程度。每秒钟的音频提取到32个音频潜在表征，有效提升音频在时序上的分辨率。
扩散模型： SeedFoley采用Diffusion Transformer框架，通过优化概率路径上的连续映射关系，实现从高斯噪声分布到目标音频表征空间的概率匹配。相较于传统扩散模型依赖马尔可夫链式采样的特性，SeedFoley通过构建连续变换路径，有效减少推理步数，降低推理成本。

SeedFoley的应用场景十分广泛，包括但不限于：

用户可以通过访问即梦平台（字节跳动旗下AI创作平台）体验SeedFoley的功能。具体步骤如下：

尽管SeedFoley在音效生成方面取得了显著进展，但仍面临一些挑战。例如，如何更好地理解视频中的复杂情感和微妙细节，从而生成更具表现力的音效；如何进一步降低模型的计算成本，使其能够更广泛地应用于移动设备和低配置电脑上。

未来，随着人工智能技术的不断发展，我们有理由相信，SeedFoley将会在音效生成领域发挥更大的作用，为视频创作带来更多的可能性。