腾讯混元开源视频生成利器HunyuanCustom

北京讯 – 腾讯混元今日正式宣布开源其全新的多模态定制化视频生成工具HunyuanCustom，标志着国内人工智能视频生成技术迈入了一个新的阶段。这款工具基于腾讯混元视频生成大模型（HunyuanVideo）打造，融合了文本、图像、音频、视频等多模态输入，具备强大的主体一致性效果和高度控制力，为视频创作者、短视频博主、电商从业者、广告创意人等群体提供了前所未有的创作自由和效率。

HunyuanCustom：突破传统视频生成瓶颈

长期以来，视频生成领域面临着诸多挑战，其中主体一致性和可控性是两大难题。传统的文生视频模型难以保证生成视频中人物和场景的一致性，而图像生成视频模型则往往只能对原始图像进行简单的动画处理，无法改变人物的服饰、姿态和背景。HunyuanCustom的出现，正是为了解决这些痛点，满足创作者在保持人物一致性的前提下，自由改变人物环境和动作的需求。

HunyuanCustom通过引入身份增强机制和多模态融合模块，实现了“图像提供身份，文本定义一切”的创新模式。用户只需上传一张包含目标人物或物体的图片，并提供一句文本描述，HunyuanCustom就能识别出图片中的身份信息，并在完全不同的动作、服饰与场景中生成连贯自然的视频内容。

多模态融合：打造无限创作可能

HunyuanCustom的核心优势在于其强大的多模态融合能力。它不仅支持文本和图像的配合，还具备音频驱动和视频驱动模式，为用户提供了更加多样化的创作选择。

单主体视频生成： 用户上传一张人物或物体的图片，并输入文本描述，即可生成与参考主体高度一致的视频。例如，上传一张人物照片，并输入“他正在遛狗”，HunyuanCustom就能生成人物在不同场景下遛狗的视频。
多主体视频生成： 用户提供多张人物和物体的照片，并输入文本描述，即可生成多个主体按照要求出现在视频中的场景。例如，上传一张人物照片和一包薯片的照片，并输入“一名男子正在游泳池旁边，手里拿着薯片进行展示”，HunyuanCustom就能生成符合描述的视频。
单主体视频配音： 用户上传人物图像并配上音频语音，HunyuanCustom即可生成人物在任意场景中说话、唱歌或进行其他音视频同步表演的效果。这一功能广泛适用于数字人直播、虚拟客服、教育演示等场景。
视频局部编辑： HunyuanCustom支持将图片中的人物或物体自然地替换或插入到任意视频片段中，进行创意植入或场景扩展，轻松实现视频重构与内容增强。

应用场景广泛：赋能各行各业

HunyuanCustom的强大功能使其在多个行业和场景中具有广泛的应用前景。

广告行业： HunyuanCustom可以帮助广告创意人快速变换商品背景、更换模特服装，降低制作成本，提高创作效率。
电商行业： HunyuanCustom可以用于制作生动的数字人商品介绍视频，或者制作特定穿着的数字人客服视频，提升用户体验。
影视行业： HunyuanCustom可以用于快速制作短剧和小故事短视频，降低制作门槛，激发创作灵感。
教育行业： HunyuanCustom可以用于制作教育演示视频，利用数字人进行讲解，提升教学效果。
直播行业： HunyuanCustom可以用于打造个性化的数字人直播，与观众进行互动，增加直播趣味性。

技术解析：主体一致性和可控性

HunyuanCustom在“可控性”和“一致性”上的出色表现，得益于腾讯混元视频大模型的强大能力和独特的技术设计。

可控性： HunyuanCustom具有较强的控制信号跟随能力，能够遵循来自文本、参考主体图像和语音等多种模态信号的控制，生成用户需要的对象、场景和动作。这主要得益于混元强大的多模态理解与文本驱动机制。
一致性： HunyuanCustom通过业内领先的主体一致性建模能力，在单人、非人物体、多主体交互等多种场景下，都能保持身份特征在视频全程的一致性与连贯性。人物不会“变脸”，物体不会“漂移”。

此外，HunyuanCustom在人物细节还原、动作流畅性、光影真实度等方面都达到了业内领先水平，保证了极高的视频生成质量。

开源计划：助力行业发展

腾讯混元此次开源HunyuanCustom，旨在推动人工智能视频生成技术的发展，促进创新应用。目前，HunyuanCustom的单主体生成能力已经开源并在混元官网（https://hunyuan.tencent.com/）上线，用户可以在“模型广场-图生视频-参考生视频”中体验。其他能力将于5月内陆续对外开源。

腾讯混元还提供了HunyuanCustom的开源项目官网（https://hunyuancustom.github.io/）、代码（https://github.com/Tencent/HunyuanCustom）和技术报告（https://arxiv.org/pdf/2505.04512），方便开发者深入了解和使用该工具。

专家观点：开启视频创作新篇章

多位业内专家对HunyuanCustom的开源表示高度赞赏，认为它将开启视频创作的新篇章。

人工智能专家李明博士： “HunyuanCustom的多模态融合能力和主体一致性效果令人印象深刻。它解决了视频生成领域长期存在的难题，为创作者提供了更加灵活和高效的创作工具。开源计划将加速该技术的普及和应用，推动人工智能视频生成技术的快速发展。”
视频内容创作者王丽： “作为一名短视频博主，我一直渴望能够快速制作出高质量的视频内容。HunyuanCustom的出现让我看到了希望。它能够帮助我轻松变换视频场景、更换人物服装，大大提高了我的创作效率。我期待着HunyuanCustom的更多功能能够尽快开源。”
电商从业者张强： “电商行业对视频内容的需求越来越高。HunyuanCustom可以帮助我们快速制作出吸引人的商品介绍视频，提升用户购买意愿。数字人客服功能也能够降低我们的运营成本，提高服务效率。我相信HunyuanCustom将在电商行业得到广泛应用。”

挑战与展望：人工智能视频生成的未来

尽管HunyuanCustom取得了显著的进展，但人工智能视频生成技术仍然面临着一些挑战。例如，如何提高生成视频的真实感和细节表现，如何解决复杂场景下的主体一致性问题，如何更好地控制生成视频的风格和内容等。

未来，人工智能视频生成技术将朝着更加智能化、个性化和高效化的方向发展。随着技术的不断进步，人工智能视频生成将会在更多领域得到应用，为人们的生活和工作带来更多便利。

智能化： 人工智能视频生成将更加智能化，能够自动理解用户的意图，生成更加符合用户需求的视频内容。
个性化： 人工智能视频生成将更加个性化，能够根据用户的偏好和风格，生成独一无二的视频内容。
高效化： 人工智能视频生成将更加高效化，能够快速生成高质量的视频内容，降低创作成本。

结语：拥抱人工智能，共创美好未来

腾讯混元开源HunyuanCustom，是人工智能视频生成领域的一项重要里程碑。它不仅为视频创作者提供了强大的创作工具，也为人工智能技术的发展注入了新的活力。让我们拥抱人工智能，共同创造更加美好的未来。

项目相关链接：

体验入口： https://hunyuan.tencent.com/modelSquare/home/play?modelId=192
项目官网： https://hunyuancustom.github.io/
代码： https://github.com/Tencent/HunyuanCustom
技术报告： https://arxiv.org/pdf/2505.04512

（完）

>>> Read more <<<

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

腾讯混元开源视频生成利器HunyuanCustom

作者智能小编

HunyuanCustom：突破传统视频生成瓶颈

多模态融合：打造无限创作可能

应用场景广泛：赋能各行各业

技术解析：主体一致性和可控性

开源计划：助力行业发展

专家观点：开启视频创作新篇章

挑战与展望：人工智能视频生成的未来

结语：拥抱人工智能，共创美好未来

相关文章

当“建工爷叔”网红流量撞上金矿与机器人传闻，周期困境中的上海建工（600170.SH）能否迎来价值重估？

超越包裹：解构顺丰控股（002352.SZ）向综合物流巨头的转型估值与长期价值

华域汽车 (600741.SH): 传统巨擘的电动化转身——深度估值与战略剖析

发表回复取消回复

为您推荐

英维克 (002837.SZ): AI浪潮下的液冷巨擘，高速增长与运营挑战并存

阳光电源（300274.SZ）：储能开启第二成长曲线，价值重估在即的全球光储巨擘

上海电气（601727.SH）：绿色转型催化剂——在周期性巨擘中探寻新质生产力价值

宁德时代（300750.SZ）：储能与全球化驱动下的价值重估

作者智能小编

HunyuanCustom：突破传统视频生成瓶颈

多模态融合：打造无限创作可能

应用场景广泛：赋能各行各业

技术解析：主体一致性和可控性

开源计划：助力行业发展

专家观点：开启视频创作新篇章

挑战与展望：人工智能视频生成的未来

结语：拥抱人工智能，共创美好未来

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复