中科大、浙大联手打造个性化视频生成框架CustomVideoX

北京讯 – 在人工智能视频生成领域，中国科研力量再次崭露头角。近日，由中国科学技术大学、浙江大学等高校联合推出的个性化视频生成框架CustomVideoX正式发布，引发业界广泛关注。该框架旨在通过参考图像和文本描述，生成高质量的定制化视频，为艺术创作、广告营销、影视娱乐等领域带来新的可能性。

CustomVideoX的核心在于其基于视频扩散变换器（Video Diffusion Transformer）的技术架构。与传统的微调方法不同，该框架采用零样本学习的方式，仅需训练少量的LoRA参数即可提取参考图像特征，从而实现高效的个性化视频生成。这一创新设计不仅降低了训练的复杂度，还保留了预训练模型的完整性，避免了性能下降的风险。

技术亮点：三大核心模块提升视频质量

CustomVideoX能够有效解决传统方法中时间不一致性和质量下降的问题，这主要归功于其三大核心技术模块：

3D 参考注意力机制： 该机制支持参考图像特征与视频帧在空间和时间维度上直接交互，确保生成的视频在每一帧中都能保持参考图像的主体特征和细节。
时间感知注意力偏差（TAB）策略： 通过动态调整参考特征的影响，增强生成视频的时间连贯性，避免了视频中常见的跳跃或不连贯问题。
实体区域感知增强（ERAE）模块： 该模块能够识别并增强视频中与文本描述相关的关键区域，突出目标实体，保持背景的多样性，从而提升生成视频的语义一致性和自然性。

应用前景：赋能多行业创新

CustomVideoX的应用场景十分广泛，有望在多个行业掀起创新浪潮：