谷歌VLOGGER：图像变视频，AI合成人物动起来！

谷歌推出VLOGGER：图像到合成人物动态视频的新模型

AI小集 2024-05-28

谷歌研究团队近日发布了一款名为VLOGGER的多模态扩散模型，能够将单一输入图像和音频样本生成逼真的、连贯的人像动态视频。VLOGGER的出现，标志着人工智能在视频生成领域取得了新的突破，为视频制作、内容创作、教育、娱乐等领域带来了新的可能性。

VLOGGER的独特功能

VLOGGER的核心功能在于将静态图片转换成动态的视频角色，同时保持照片中人物的逼真外观。该模型能够根据音频来控制人物动作，包括面部表情、嘴唇同步、头部运动、目光、眨眼以及上身和手部手势，将音频驱动的视频合成推向了一个新的高度。

VLOGGER的主要功能特性包括：

图像和音频驱动的视频生成：用户只需提供一张人物图片和一段音频，VLOGGER就能生成一个视频中的人物，其面部表情、嘴唇动作和身体语言与音频同步。
多样性和真实性：VLOGGER生成的视频具有高度的多样性，能够展示原始主体的不同动作和表情，同时保持背景的一致性和视频的真实性。
视频编辑：VLOGGER可以用于编辑现有视频，例如改变视频中人物的表情，使其与原始视频的未改变像素保持一致。
生成移动和说话的人物：VLOGGER可以从单张输入图像和驱动音频生成说话面部的视频，即使没有视频中人物的原始视频资料。
视频翻译：VLOGGER能够将一种语言的视频转换为另一种语言的视频，通过编辑唇部和面部区域以匹配新的音频，实现跨语言的视频内容适配。

VLOGGER的工作原理

VLOGGER的工作原理主要基于一个两阶段的流程，结合了音频驱动的运动生成和时间连贯的视频生成。

第一阶段：音频驱动的运动生成
- 音频处理：VLOGGER首先接收一段音频输入，这可以是语音或音乐。如果输入是文本，它也会通过文本到语音（TTS）模型转换为音频波形。
- 3D运动预测：接着，系统使用一个基于变换器（Transformer）架构的网络来处理音频输入。这个网络被训练来预测与音频同步的3D面部表情和身体姿势。网络使用多步注意力层来捕捉音频的时间特征，并生成一系列的3D姿势参数。
- 生成控制表示：网络输出的是一系列预测的面部表情（θe i）和身体姿势的残差（∆θb i）。这些参数随后用于生成控制视频生成过程的2D表示。
第二阶段：时间连贯的视频生成
- 视频生成模型：VLOGGER的第二个阶段是一个时间扩散模型，它接收第一阶段生成的3D运动控制和一张参考图像（即输入的单一人物图像）。
- 条件化视频生成：视频生成模型是一个基于扩散的图像到图像翻译模型，它利用预测的2D控制来生成一系列帧，这些帧按照输入的音频和3D运动参数进行动画处理。
超分辨率：为了提高视频质量，VLOGGER还包括一个超分辨率扩散模型，它将基础视频的分辨率从128×128提升到更高的分辨率，如256×256或512×512。
- 时间外延：VLOGGER使用时间外延（temporal outpainting）的技术来生成任意长度的视频。它首先生成一定数量的帧，然后基于前一帧的信息迭代地生成新的帧，从而扩展视频的长度。

数据集和训练

VLOGGER在名为MENTOR的大规模数据集（2200个小时和800000个身份）上进行训练，这是一个包含大量身份和动态手势的大规模数据集。训练过程中，模型学习如何根据3D姿势参数和输入图像生成连贯的、高质量的视频序列。

VLOGGER的应用前景

VLOGGER的出现，为视频制作、内容创作、教育、娱乐等领域带来了新的可能性。它可以用于：

制作虚拟主播：利用VLOGGER，可以轻松地创建虚拟主播，并根据不同的场景和需求进行个性化定制。
生成教育视频：VLOGGER可以用于生成生动的教育视频，将抽象的知识点转化为形象的动画，提高学习效率。
制作游戏角色：VLOGGER可以用于生成游戏角色的动画，为游戏增添更多生动和真实的元素。
制作电影特效：VLOGGER可以用于制作电影特效，例如将静态的人物图像转化为动态的角色，丰富电影的画面表现力。

VLOGGER的出现，标志着人工智能在视频生成领域取得了新的突破，未来，随着技术的不断发展，VLOGGER将会在更多领域发挥重要的作用，为人们的生活带来更多便利和乐趣。

【source】https://ai-bot.cn/google-vlogger-ai-model/

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

谷歌VLOGGER：图像变视频，AI合成人物动起来！

作者智能小编

谷歌推出VLOGGER：图像到合成人物动态视频的新模型

相关文章

当“建工爷叔”网红流量撞上金矿与机器人传闻，周期困境中的上海建工（600170.SH）能否迎来价值重估？

超越包裹：解构顺丰控股（002352.SZ）向综合物流巨头的转型估值与长期价值

华域汽车 (600741.SH): 传统巨擘的电动化转身——深度估值与战略剖析

发表回复取消回复

为您推荐

英维克 (002837.SZ): AI浪潮下的液冷巨擘，高速增长与运营挑战并存

阳光电源（300274.SZ）：储能开启第二成长曲线，价值重估在即的全球光储巨擘

上海电气（601727.SH）：绿色转型催化剂——在周期性巨擘中探寻新质生产力价值

宁德时代（300750.SZ）：储能与全球化驱动下的价值重估

作者智能小编

谷歌推出VLOGGER：图像到合成人物动态视频的新模型

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复