在上海浦东滨江公园观赏外滩建筑群-20240824在上海浦东滨江公园观赏外滩建筑群-20240824

北京讯 – 腾讯混元今日正式宣布开源其全新的多模态定制化视频生成工具HunyuanCustom,标志着国内人工智能视频生成技术迈入了一个新的阶段。这款工具基于腾讯混元视频生成大模型(HunyuanVideo)打造,融合了文本、图像、音频、视频等多模态输入,具备强大的主体一致性效果和高度控制力,为视频创作者、短视频博主、电商从业者、广告创意人等群体提供了前所未有的创作自由和效率。

HunyuanCustom:突破传统视频生成瓶颈

长期以来,视频生成领域面临着诸多挑战,其中主体一致性和可控性是两大难题。传统的文生视频模型难以保证生成视频中人物和场景的一致性,而图像生成视频模型则往往只能对原始图像进行简单的动画处理,无法改变人物的服饰、姿态和背景。HunyuanCustom的出现,正是为了解决这些痛点,满足创作者在保持人物一致性的前提下,自由改变人物环境和动作的需求。

HunyuanCustom通过引入身份增强机制和多模态融合模块,实现了“图像提供身份,文本定义一切”的创新模式。用户只需上传一张包含目标人物或物体的图片,并提供一句文本描述,HunyuanCustom就能识别出图片中的身份信息,并在完全不同的动作、服饰与场景中生成连贯自然的视频内容。

多模态融合:打造无限创作可能

HunyuanCustom的核心优势在于其强大的多模态融合能力。它不仅支持文本和图像的配合,还具备音频驱动和视频驱动模式,为用户提供了更加多样化的创作选择。

  • 单主体视频生成: 用户上传一张人物或物体的图片,并输入文本描述,即可生成与参考主体高度一致的视频。例如,上传一张人物照片,并输入“他正在遛狗”,HunyuanCustom就能生成人物在不同场景下遛狗的视频。

  • 多主体视频生成: 用户提供多张人物和物体的照片,并输入文本描述,即可生成多个主体按照要求出现在视频中的场景。例如,上传一张人物照片和一包薯片的照片,并输入“一名男子正在游泳池旁边,手里拿着薯片进行展示”,HunyuanCustom就能生成符合描述的视频。

  • 单主体视频配音: 用户上传人物图像并配上音频语音,HunyuanCustom即可生成人物在任意场景中说话、唱歌或进行其他音视频同步表演的效果。这一功能广泛适用于数字人直播、虚拟客服、教育演示等场景。

  • 视频局部编辑: HunyuanCustom支持将图片中的人物或物体自然地替换或插入到任意视频片段中,进行创意植入或场景扩展,轻松实现视频重构与内容增强。

应用场景广泛:赋能各行各业

HunyuanCustom的强大功能使其在多个行业和场景中具有广泛的应用前景。

  • 广告行业: HunyuanCustom可以帮助广告创意人快速变换商品背景、更换模特服装,降低制作成本,提高创作效率。

  • 电商行业: HunyuanCustom可以用于制作生动的数字人商品介绍视频,或者制作特定穿着的数字人客服视频,提升用户体验。

  • 影视行业: HunyuanCustom可以用于快速制作短剧和小故事短视频,降低制作门槛,激发创作灵感。

  • 教育行业: HunyuanCustom可以用于制作教育演示视频,利用数字人进行讲解,提升教学效果。

  • 直播行业: HunyuanCustom可以用于打造个性化的数字人直播,与观众进行互动,增加直播趣味性。

技术解析:主体一致性和可控性

HunyuanCustom在“可控性”和“一致性”上的出色表现,得益于腾讯混元视频大模型的强大能力和独特的技术设计。

  • 可控性: HunyuanCustom具有较强的控制信号跟随能力,能够遵循来自文本、参考主体图像和语音等多种模态信号的控制,生成用户需要的对象、场景和动作。这主要得益于混元强大的多模态理解与文本驱动机制。

  • 一致性: HunyuanCustom通过业内领先的主体一致性建模能力,在单人、非人物体、多主体交互等多种场景下,都能保持身份特征在视频全程的一致性与连贯性。人物不会“变脸”,物体不会“漂移”。

此外,HunyuanCustom在人物细节还原、动作流畅性、光影真实度等方面都达到了业内领先水平,保证了极高的视频生成质量。

开源计划:助力行业发展

腾讯混元此次开源HunyuanCustom,旨在推动人工智能视频生成技术的发展,促进创新应用。目前,HunyuanCustom的单主体生成能力已经开源并在混元官网(https://hunyuan.tencent.com/)上线,用户可以在“模型广场-图生视频-参考生视频”中体验。其他能力将于5月内陆续对外开源。

腾讯混元还提供了HunyuanCustom的开源项目官网(https://hunyuancustom.github.io/)、代码(https://github.com/Tencent/HunyuanCustom)和技术报告(https://arxiv.org/pdf/2505.04512),方便开发者深入了解和使用该工具。

专家观点:开启视频创作新篇章

多位业内专家对HunyuanCustom的开源表示高度赞赏,认为它将开启视频创作的新篇章。

  • 人工智能专家李明博士: “HunyuanCustom的多模态融合能力和主体一致性效果令人印象深刻。它解决了视频生成领域长期存在的难题,为创作者提供了更加灵活和高效的创作工具。开源计划将加速该技术的普及和应用,推动人工智能视频生成技术的快速发展。”

  • 视频内容创作者王丽: “作为一名短视频博主,我一直渴望能够快速制作出高质量的视频内容。HunyuanCustom的出现让我看到了希望。它能够帮助我轻松变换视频场景、更换人物服装,大大提高了我的创作效率。我期待着HunyuanCustom的更多功能能够尽快开源。”

  • 电商从业者张强: “电商行业对视频内容的需求越来越高。HunyuanCustom可以帮助我们快速制作出吸引人的商品介绍视频,提升用户购买意愿。数字人客服功能也能够降低我们的运营成本,提高服务效率。我相信HunyuanCustom将在电商行业得到广泛应用。”

挑战与展望:人工智能视频生成的未来

尽管HunyuanCustom取得了显著的进展,但人工智能视频生成技术仍然面临着一些挑战。例如,如何提高生成视频的真实感和细节表现,如何解决复杂场景下的主体一致性问题,如何更好地控制生成视频的风格和内容等。

未来,人工智能视频生成技术将朝着更加智能化、个性化和高效化的方向发展。随着技术的不断进步,人工智能视频生成将会在更多领域得到应用,为人们的生活和工作带来更多便利。

  • 智能化: 人工智能视频生成将更加智能化,能够自动理解用户的意图,生成更加符合用户需求的视频内容。

  • 个性化: 人工智能视频生成将更加个性化,能够根据用户的偏好和风格,生成独一无二的视频内容。

  • 高效化: 人工智能视频生成将更加高效化,能够快速生成高质量的视频内容,降低创作成本。

结语:拥抱人工智能,共创美好未来

腾讯混元开源HunyuanCustom,是人工智能视频生成领域的一项重要里程碑。它不仅为视频创作者提供了强大的创作工具,也为人工智能技术的发展注入了新的活力。让我们拥抱人工智能,共同创造更加美好的未来。

项目相关链接:

(完)


>>> Read more <<<

Views: 1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注