北京 – 短视频巨头快手联合浙江大学、新加坡国立大学Show Lab,近日正式开源了一项名为 DragAnything 的创新技术,该技术旨在实现对视频内容进行实体级别的精准运动控制,为视频创作、游戏开发、教育培训等领域带来革命性变革。
这项突破性的研究成果,已在GitHub上开放源代码,并发布了相应的技术论文,引发了AI社区的广泛关注。
DragAnything:突破像素级控制的瓶颈
传统的视频编辑方法往往局限于像素级别的操作,难以实现对视频中特定物体的精确控制。DragAnything 的出现,打破了这一瓶颈。它采用了一种全新的实体表示方法,从扩散模型的潜在特征中提取语义信息,从而能够精确地表征视频中的每一个物体。
“DragAnything 的核心在于其对视频内容的理解,它不仅仅是移动像素,而是理解了视频中的物体,并能按照用户的意图控制它们的运动,” 浙江大学计算机科学与技术学院教授,该项目的主要负责人之一王博士表示。“这就像给视频中的物体赋予了灵魂,让它们能够听从指挥。”
技术原理:扩散模型与轨迹引导的完美结合
DragAnything 的技术核心在于将扩散模型与轨迹引导的运动控制相结合。具体来说,它利用扩散模型强大的生成能力和去噪能力,生成高质量的视频内容。同时,用户可以通过绘制简单的轨迹来定义物体的运动路径。DragAnything 将轨迹与实体表示相结合,生成符合用户意图的视频内容,避免了直接操作像素点的局限性,实现了更自然和精确的运动控制。
此外,该技术还引入了 2D 高斯表示,基于高斯分布对物体的中心区域赋予更高的权重,减少边缘像素的影响,从而实现更自然的运动控制。
功能亮点:多实体独立控制与用户友好的交互
DragAnything 的功能亮点包括:
- 实体级运动控制: 对视频中的任何实体(包括前景和背景)进行精确的运动控制。
- 多实体独立控制: 支持同时对多个物体进行独立的运动控制。
- 用户友好的交互方式: 用户可以通过简单的交互(如选择区域并拖动)实现复杂的运动控制,无需复杂的输入信号。
- 相机运动控制: 除了控制视频中的物体,DragAnything 还能实现相机的运动控制,如缩放和平移。
- 高质量视频生成: 在保持运动控制精度的同时,生成高质量的视频内容。
应用前景:赋能各行各业
DragAnything 的应用前景十分广阔,可以赋能多个行业:
- 视频创作与编辑: 快速生成动画、调整物体运动轨迹,提升创作效率。
- 游戏开发: 生成角色动作和增强玩家的交互体验。
- 教育与培训: 辅助科学模拟和技能培训,帮助理解复杂运动过程。
- 广告与营销: 制作动态广告和产品展示,突出产品特点。
- 娱乐与社交: 生成互动视频和控制虚拟角色动作,增强趣味性。
开源意义:推动AI视频生成技术发展
快手选择开源 DragAnything,体现了其拥抱开放合作的态度,以及推动AI视频生成技术发展的决心。
“我们相信,开源是加速技术创新和普及的最佳方式,” 快手AI技术负责人李明表示。“我们希望通过开源 DragAnything,能够吸引更多的研究者和开发者参与进来,共同推动AI视频生成技术的发展,为用户带来更丰富、更有趣的视频体验。”
未来展望:持续创新,探索更多可能性
DragAnything 的开源,标志着可控视频生成技术迈出了重要一步。未来,快手将继续加大在AI领域的投入,探索更多可能性,为用户带来更多创新性的产品和服务。
项目地址:
- 项目官网:https://weijiawu.github.io/draganything
- GitHub仓库:https://github.com/showlab/DragAnything
- arXiv技术论文:https://arxiv.org/pdf/2403.07420
参考文献:
- Wu, W., et al. (2024). DragAnything: Controllable Video Generation with Trajectory-Guided Subject Manipulation. arXiv preprint arXiv:2403.07420.
(完)
Views: 3
