云天励飞联手高校，打造200万视频编辑数据集

2025年3月12日 – 随着人工智能技术的飞速发展，视频编辑领域也迎来了新的变革。然而，高质量训练数据的匮乏一直是制约AI视频编辑模型发展的瓶颈。近日，云天励飞联合香港中文大学、香港理工大学、清华大学等多所高校，共同推出了名为Señorita-2M的大规模视频编辑数据集，为解决这一难题带来了曙光。

该数据集包含了高达200万个高质量的视频编辑对，涵盖了18种不同的视频编辑任务，旨在为研究人员和开发者提供丰富的训练资源，推动AI视频编辑技术的进步。

当前视频编辑算法的挑战

目前主流的视频编辑算法主要分为两类：

基于DDIM-Inversion的编辑方法： 该方法在视频一致性和文本对齐方面存在较大缺陷，难以生成高质量的编辑视频。
基于训练好的编辑模型的编辑方法： 这种方法依赖于大量高质量的视频编辑对进行训练，然而，目前公开可用的高质量数据集十分有限，导致模型难以达到理想的编辑效果。

Señorita-2M数据集的创新之处

为了克服上述挑战，云天励飞及合作高校的研究团队精心打造了Señorita-2M数据集。该数据集的独特之处在于：

高质量数据来源： 数据集中所有的编辑视频均由经过训练的专家模型生成，保证了数据质量和一致性。
多样化的编辑任务： 数据集涵盖了18种不同的视频编辑任务，例如风格转换、物体替换、物体移除等，能够满足不同应用场景的需求。
专家模型与计算机视觉模型相结合： 数据集构建过程中，研究团队不仅开发了视频编辑专家模型，还巧妙地结合了Grounded-SAM2、深度图检测模型等计算机视觉模型，实现了高效的数据标注和增强。

数据集构建的关键技术

Señorita-2M数据集的构建离不开以下关键技术：

视频编辑专家模型： 研究团队开发了四个视频编辑专家模型，分别负责全局风格转换 (Global Stylizer)、局部风格转换 (Local Stylizer)、文本引导的视频修复 (Text-guided Video Inpainter) 以及物体移除 (Object Remover) 等任务。
ControlNet架构的应用： 在风格转换任务中，研究团队巧妙地利用了ControlNet架构，将首帧的风格信息推广到剩余的视频帧中，保证了视频风格的一致性。
反转训练策略： 在物体移除任务中，研究团队提出了反转训练的策略，有效避免了视频移除器根据mask形状再次生成物体的问题。
大型语言模型 (LLM) 的应用： 研究团队利用LLM对风格prompt、物体描述等信息进行转换，生成用于编辑的指令，实现了数据增强和多样化。

数据清洗与质量保证

为了确保数据集的可靠性，研究团队采用了多种过滤算法对生成的视频进行清洗：

编辑失败数据检测： 训练检测器识别并去除编辑失败的视频，保证数据质量。
文本-视频匹配度检测： 使用CLIP模型检测文本和视频的匹配度，丢弃匹配度过低的数据，确保编辑指令与视频内容的一致性。
原始视频与编辑视频相似度比对： 丢弃没有明显编辑变化的视频，确保数据集包含有效的编辑信息。

数据集的意义与影响

Señorita-2M数据集的发布，将为AI视频编辑领域带来深远的影响：

促进视频编辑算法的进步： 高质量的数据集将帮助研究人员训练出更强大的视频编辑模型，提升视频编辑的质量和效率。
推动AI视频创作的发展： 强大的视频编辑模型将为AI视频创作提供更多可能性，降低创作门槛，激发创作灵感。
加速视频编辑技术的应用： 随着AI视频编辑技术的成熟，其应用场景将更加广泛，例如短视频制作、电影特效、在线教育等。

Señorita-2M数据集的发布，标志着AI视频编辑领域迈出了重要一步。我们期待在Señorita-2M数据集的助力下，AI视频编辑技术能够取得更大的突破，为人们带来更加便捷、高效、智能的视频创作体验。

参考文献：

Señorita-2M: A High-Quality Instruction-based Dataset for General Video Editing by Video Specialists. https://arxiv.org/abs/2502.06734
Señorita-2M Dataset. https://senorita-2m-dataset.github.io

>>> Read more <<<