北京报道 – 短视频平台快手近日联合中国科学院大学、香港科技大学等高校,共同发布了一款名为SketchVideo的全新AI框架。该框架基于草图,结合文本提示,旨在实现对视频内容空间布局和运动的精细化控制,为视频生成与编辑领域带来创新性的解决方案。
技术突破:草图驱动,精细控制
SketchVideo的核心在于其独特的草图控制能力。用户只需在关键帧上绘制草图,并结合文本描述,即可引导AI生成或编辑视频。这种方式相较于传统的文本或图像驱动的视频生成方法,提供了更为直观和精确的控制手段。
该框架基于扩散模型DiT(Diffusion-based Transformer)构建,并创新性地设计了高效的草图控制网络。该网络包含草图控制块和帧间注意力机制,能够将稀疏的关键帧草图条件传播到所有视频帧中,从而保证视频内容在时空上的连贯性。
核心技术亮点:
- 草图条件网络: 基于DiT模型,通过草图控制块预测跳过的DiT块的残差特征,将控制信号注入不同层次的特征中。
- 帧间注意力机制: 计算所有帧与控制帧的隐藏特征关系,实现草图特征的时空传播。
- 视频插入模块: 分析输入草图与原始视频的关系,生成与原始视频在空间和时间上一致的新内容,确保编辑后的视频无缝融合。
- 潜在融合技术: 基于DDIM反演生成输入视频的噪声潜在码,在未编辑区域替换这些潜在码,保留原始视频细节。
- 混合训练策略: 结合图像和视频数据进行训练,加速收敛并优化时间连贯性。
应用前景广阔:赋能多领域创作
SketchVideo的应用场景十分广泛,有望在多个领域发挥重要作用:
- 影视与广告: 快速生成创意视频和特效预览,优化制作流程,节省时间和成本。
- 教育与培训: 辅助制作教学视频和培训材料,提升教学效果。
- 游戏开发: 快速生成关卡预览和角色动画,提高开发效率。
- 个人创作: 降低创作门槛,让用户轻松创作个性化短视频。
- 建筑设计: 生成建筑和室内设计的动态预览,增强客户沟通。
专家观点:
“SketchVideo的推出,标志着视频生成与编辑技术进入了一个新的阶段。”一位不愿透露姓名的AI领域专家表示,“通过草图驱动的方式,用户可以更加直观地控制视频内容,这对于创意表达和内容制作具有重要意义。快手联合高校的合作模式,也为AI技术的发展提供了新的思路。”
项目地址:
- 项目官网:http://geometrylearning.com/SketchVideo
- GitHub仓库:https://github.com/IGLICT/SketchVideo
- arXiv技术论文:https://arxiv.org/pdf/2503.23284
结语:
SketchVideo的发布,不仅是快手在AI技术领域的一次重要突破,也为整个视频内容创作行业带来了新的可能性。随着技术的不断发展和完善,我们有理由相信,基于草图的视频生成与编辑技术将在未来发挥更大的作用,赋能更多领域的创新与发展。
参考文献:
- SketchVideo项目官网: http://geometrylearning.com/SketchVideo
- SketchVideo GitHub仓库: https://github.com/IGLICT/SketchVideo
- SketchVideo arXiv技术论文: https://arxiv.org/pdf/2503.23284
Views: 0