快手联手浙大开源DragAnything，视频生成新突破

北京 – 短视频巨头快手联合浙江大学、新加坡国立大学Show Lab，近日正式开源了一项名为 DragAnything 的创新技术，该技术旨在实现对视频内容进行实体级别的精准运动控制，为视频创作、游戏开发、教育培训等领域带来革命性变革。

这项突破性的研究成果，已在GitHub上开放源代码，并发布了相应的技术论文，引发了AI社区的广泛关注。

DragAnything：突破像素级控制的瓶颈

传统的视频编辑方法往往局限于像素级别的操作，难以实现对视频中特定物体的精确控制。DragAnything 的出现，打破了这一瓶颈。它采用了一种全新的实体表示方法，从扩散模型的潜在特征中提取语义信息，从而能够精确地表征视频中的每一个物体。

“DragAnything 的核心在于其对视频内容的理解，它不仅仅是移动像素，而是理解了视频中的物体，并能按照用户的意图控制它们的运动，” 浙江大学计算机科学与技术学院教授，该项目的主要负责人之一王博士表示。“这就像给视频中的物体赋予了灵魂，让它们能够听从指挥。”

技术原理：扩散模型与轨迹引导的完美结合

DragAnything 的技术核心在于将扩散模型与轨迹引导的运动控制相结合。具体来说，它利用扩散模型强大的生成能力和去噪能力，生成高质量的视频内容。同时，用户可以通过绘制简单的轨迹来定义物体的运动路径。DragAnything 将轨迹与实体表示相结合，生成符合用户意图的视频内容，避免了直接操作像素点的局限性，实现了更自然和精确的运动控制。

此外，该技术还引入了 2D 高斯表示，基于高斯分布对物体的中心区域赋予更高的权重，减少边缘像素的影响，从而实现更自然的运动控制。

功能亮点：多实体独立控制与用户友好的交互

DragAnything 的功能亮点包括：

实体级运动控制： 对视频中的任何实体（包括前景和背景）进行精确的运动控制。
多实体独立控制： 支持同时对多个物体进行独立的运动控制。
用户友好的交互方式： 用户可以通过简单的交互（如选择区域并拖动）实现复杂的运动控制，无需复杂的输入信号。
相机运动控制： 除了控制视频中的物体，DragAnything 还能实现相机的运动控制，如缩放和平移。
高质量视频生成： 在保持运动控制精度的同时，生成高质量的视频内容。

应用前景：赋能各行各业

DragAnything 的应用前景十分广阔，可以赋能多个行业：

视频创作与编辑： 快速生成动画、调整物体运动轨迹，提升创作效率。
游戏开发： 生成角色动作和增强玩家的交互体验。
教育与培训： 辅助科学模拟和技能培训，帮助理解复杂运动过程。
广告与营销： 制作动态广告和产品展示，突出产品特点。
娱乐与社交： 生成互动视频和控制虚拟角色动作，增强趣味性。

开源意义：推动AI视频生成技术发展

快手选择开源 DragAnything，体现了其拥抱开放合作的态度，以及推动AI视频生成技术发展的决心。

“我们相信，开源是加速技术创新和普及的最佳方式，” 快手AI技术负责人李明表示。“我们希望通过开源 DragAnything，能够吸引更多的研究者和开发者参与进来，共同推动AI视频生成技术的发展，为用户带来更丰富、更有趣的视频体验。”

未来展望：持续创新，探索更多可能性

DragAnything 的开源，标志着可控视频生成技术迈出了重要一步。未来，快手将继续加大在AI领域的投入，探索更多可能性，为用户带来更多创新性的产品和服务。

项目地址：

项目官网：https://weijiawu.github.io/draganything
GitHub仓库：https://github.com/showlab/DragAnything
arXiv技术论文：https://arxiv.org/pdf/2403.07420

参考文献：

Wu, W., et al. (2024). DragAnything: Controllable Video Generation with Trajectory-Guided Subject Manipulation. arXiv preprint arXiv:2403.07420.

（完）

>>> Read more <<<

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

快手联手浙大开源DragAnything，视频生成新突破

作者智能小编

DragAnything：突破像素级控制的瓶颈

技术原理：扩散模型与轨迹引导的完美结合

功能亮点：多实体独立控制与用户友好的交互

应用前景：赋能各行各业

开源意义：推动AI视频生成技术发展

未来展望：持续创新，探索更多可能性

相关文章

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

发表回复取消回复

为您推荐

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

国之重器，芯之所向：新周期与大国博弈下的中芯国际(688981.SH)价值重估

作者智能小编

DragAnything：突破像素级控制的瓶颈

技术原理：扩散模型与轨迹引导的完美结合

功能亮点：多实体独立控制与用户友好的交互

应用前景：赋能各行各业

开源意义：推动AI视频生成技术发展

未来展望：持续创新，探索更多可能性

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复