北京,2024年5月16日 – 短视频巨头快手联合中国科学院大学、香港科技大学,正式发布了一款颠覆性的AI视频生成与编辑框架——SketchVideo。这款创新工具允许用户通过简单的草图和文本提示,对视频的空间布局和运动进行精细控制,为视频创作领域带来了前所未有的灵活性和便捷性。

在人工智能技术日新月异的今天,视频内容的创作和编辑正经历着深刻的变革。传统的视频制作流程繁琐且耗时,对专业技能的要求也较高,这无疑限制了普通用户参与视频创作的热情。而SketchVideo的出现,有望打破这一壁垒,让每个人都能轻松创作出高质量的视频内容。

SketchVideo:草图与AI的完美结合

SketchVideo的核心理念是将用户的创意草图转化为实际的视频内容。用户只需在关键帧上绘制简单的草图,并结合文本描述,即可生成具有丰富细节和流畅运动的视频。这一创新性的方法,极大地简化了视频创作流程,降低了创作门槛。

据快手可灵团队介绍,SketchVideo基于先进的DiT(Diffusion-based Transformer)视频生成模型,并在此基础上设计了高效的草图控制网络。该网络包含草图控制块和帧间注意力机制,能够将稀疏的关键帧草图条件传播到所有视频帧中,从而实现对视频内容的高度控制。

技术解析:SketchVideo背后的创新引擎

SketchVideo的强大功能,离不开其背后一系列先进技术的支撑。

  • 草图条件网络: SketchVideo的核心是其基于DiT模型的草图条件网络。DiT模型是一种基于扩散过程的Transformer模型,在图像和视频生成领域表现出色。SketchVideo的草图条件网络在DiT模型的基础上进行了专门的设计,包含多个草图控制块,用于预测跳过的DiT块的残差特征。这些草图控制块均匀分布在DiT块中,能够在不同层次的特征中注入控制信号,从而实现对视频内容的精细控制。

  • 帧间注意力机制: 为了将关键帧上的草图条件传播到所有视频帧,SketchVideo采用了帧间注意力机制。该机制通过计算所有帧的隐藏特征与控制帧的隐藏特征之间的关系,实现了对草图特征的时空传播。这意味着,用户只需在少数关键帧上绘制草图,SketchVideo就能自动将这些草图信息扩展到整个视频序列中,从而大大提高了视频创作的效率。

  • 视频插入模块: 在视频编辑任务中,SketchVideo设计了视频插入模块,用于分析输入草图与原始视频之间的关系。该模块能够生成与原始视频空间和时间上一致的新内容,确保编辑后的视频与原始视频无缝融合。这意味着,用户可以使用SketchVideo轻松地在现有视频中添加新的元素,而无需担心这些元素与原始视频不协调。

  • 潜在融合技术: 为了在编辑视频时保留未修改区域的细节,SketchVideo采用了潜在融合技术。该技术在推理过程中,基于DDIM(Denoising Diffusion Implicit Models)反演生成输入视频的噪声潜在码。然后,在未编辑区域替换这些潜在码,从而保留原始视频的细节,确保编辑后的视频在视觉上自然、连贯。

  • 混合训练策略: 为了提高模型的训练效率和泛化能力,SketchVideo采用了混合训练策略。在训练的第一阶段,使用图像和视频数据,加速收敛并解决视频数据有限的问题。在第二阶段,使用视频数据,进一步优化时间连贯性。这种混合训练策略,使得SketchVideo能够在有限的数据集上训练出高质量的视频生成模型。

SketchVideo的主要功能:创意无限,触手可及

SketchVideo不仅技术先进,而且功能强大,能够满足用户在视频创作和编辑方面的各种需求。

  • 视频生成: 用户只需提供草图和文本提示,SketchVideo就能自动生成高质量的视频。这使得用户可以轻松地将自己的创意转化为实际的视频内容,而无需具备专业的视频制作技能。

  • 视频编辑: 用户可以在关键帧上绘制草图,修改视频内容。这使得用户可以对视频进行精细的编辑,例如改变视频中物体的形状、颜色和位置,或者添加新的物体。

  • 动态控制: SketchVideo支持运动插值和外推,使得用户可以对视频中的物体运动进行精确的控制。例如,用户可以指定物体在视频中的起始位置和结束位置,SketchVideo就能自动生成物体在两点之间的平滑运动轨迹。

  • 细节保留: 在编辑视频时,SketchVideo能够保留未修改区域的细节,确保编辑后的视频与原始视频在视觉上保持一致。这使得用户可以放心地对视频进行编辑,而无需担心会破坏原始视频的质量。

  • 高效生成: SketchVideo采用了内存优化技术,能够快速生成高质量的视频。这使得用户可以快速地预览自己的创意,并进行迭代修改,从而大大提高了视频创作的效率。

SketchVideo的应用场景:潜力无限,赋能各行各业

SketchVideo的应用场景非常广泛,可以赋能影视、广告、教育、游戏、建筑等多个行业。

  • 影视与广告: SketchVideo可以帮助影视制作人员和广告创意人员快速生成创意视频和特效预览,优化制作流程,节省时间和成本。例如,可以使用SketchVideo快速生成电影中的特效场景,或者为广告制作各种创意动画。

  • 教育与培训: SketchVideo可以辅助制作教学视频和培训材料,提升教学效果。例如,可以使用SketchVideo制作生动的动画,解释复杂的概念,或者模拟实验过程。

  • 游戏开发: SketchVideo可以快速生成关卡预览和角色动画,提高开发效率。例如,可以使用SketchVideo快速生成游戏中的角色动画,或者创建各种游戏场景。

  • 个人创作: SketchVideo可以帮助普通用户轻松创作个性化短视频,降低创作门槛。例如,可以使用SketchVideo制作自己的旅行vlog,或者分享自己的生活点滴。

  • 建筑设计: SketchVideo可以生成建筑和室内设计的动态预览,增强客户沟通。例如,可以使用SketchVideo制作建筑的三维动画,让客户更直观地了解建筑的设计方案。

专家观点:SketchVideo引领视频创作新方向

多位业内专家对SketchVideo的发布给予了高度评价。

“SketchVideo的出现,标志着视频创作进入了一个新的时代。”一位资深影视制作人表示,“它极大地降低了视频创作的门槛,让更多的人可以参与到视频创作中来。同时,它也为专业的视频制作人员提供了更强大的工具,帮助他们更高效地创作出高质量的视频内容。”

一位人工智能领域的专家表示:“SketchVideo的技术非常先进,它将草图和文本提示与深度学习模型相结合,实现了对视频内容的高度控制。这种方法具有很强的通用性,可以应用于各种视频生成和编辑任务中。”

展望未来:SketchVideo的无限可能

SketchVideo的发布,不仅是快手在人工智能领域的一次重要突破,也是对整个视频创作行业的一次深刻变革。随着技术的不断发展,SketchVideo的功能将更加强大,应用场景也将更加广泛。

未来,SketchVideo有望实现以下目标:

  • 更高的视频质量: 通过不断优化模型和算法,SketchVideo将能够生成更高质量的视频,更加逼真、流畅、细节丰富。

  • 更强的控制能力: SketchVideo将能够提供更强的控制能力,让用户可以对视频的各个方面进行精细的调整,例如光照、材质、纹理等。

  • 更智能的创作辅助: SketchVideo将能够提供更智能的创作辅助功能,例如自动生成草图、自动推荐文本提示等,从而进一步降低创作门槛。

  • 更广泛的应用场景: SketchVideo将能够应用于更广泛的场景,例如虚拟现实、增强现实、游戏开发、工业设计等。

快手可灵团队表示,将继续加大对SketchVideo的研发投入,不断提升其技术水平和功能,为用户提供更好的视频创作体验。

获取更多信息:

结语:

SketchVideo的发布,为视频创作领域带来了新的希望。它不仅降低了视频创作的门槛,也为专业的视频制作人员提供了更强大的工具。相信在不久的将来,SketchVideo将成为视频创作领域的一款必备工具,推动视频创作行业的发展。快手与高校的联合,也为产学研合作树立了新的典范,预示着更多创新成果将涌现,共同推动人工智能技术的发展与应用。


>>> Read more <<<

Views: 10

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注