北京 – 人工智能领域再添新星。近日,由清华大学、东京大学、庆应义塾大学等顶尖学府和研究机构联合推出的EMAGE(Expressive Masked Audio-conditioned GEsture modeling)框架正式亮相,引发业界广泛关注。该框架旨在通过音频输入,生成逼真自然的全身共语手势,为虚拟现实、动画制作、数字人等领域带来革新性的技术支持。

EMAGE:让AI“听懂”并“表达”

EMAGE的核心功能在于,它能够根据输入的音频信号,生成与音频节奏和语义相匹配的全身手势,包括面部表情、身体动作、手势和全局运动。更令人惊喜的是,EMAGE还支持接受部分预定义手势输入,用户可以提供特定的动作或姿势作为提示,框架将据此生成完整的、自然的手势序列。

这项技术突破的关键在于EMAGE的技术原理。它采用了掩蔽音频手势变换器,在训练过程中,部分手势数据被随机遮蔽,模型基于音频和其他未遮蔽的手势信息预测遮蔽部分。这种掩蔽机制类似于自然语言处理中的BERT模型,能增强模型对局部和全局信息的理解能力。同时,EMAGE还融合了音频的节奏特征和内容特征,并利用预训练的VQ-VAE(向量量化变分自编码器)对身体的不同部分进行建模,从而生成丰富多样的手势动作。

技术细节:掩蔽、融合与离散表示

具体而言,EMAGE通过以下几个关键技术实现其功能:

  • 掩蔽音频手势变换器: 类似于BERT模型的掩蔽机制,增强模型对局部和全局信息的理解能力,学习音频与手势之间的映射关系。
  • 音频特征融合: 结合音频的节奏特征(如音调的起伏、节奏的强弱)和内容特征(如文本转录的词嵌入),使生成的手势既能反映音频的节奏,又能与语义相关联。
  • 预训练的VQ-VAE: 将身体的不同部分(如面部、上肢、下肢)分别用独立的VQ-VAE建模,每个VQ-VAE负责生成特定部分的动作。
  • 离散表示学习: 基于VQ-VAE将连续的手势动作转换为离散的表示,便于模型学习和生成。
  • 全局运动预测器: 基于预训练的全局运动预测器估计身体的全局平移(如行走、转身等),让生成的手势在局部动作上自然,整体运动也更加连贯和真实。

应用前景:虚拟现实、动画制作与更多

EMAGE的潜在应用场景十分广泛,包括:

  • 虚拟现实(VR)与增强现实(AR): 生成虚拟角色的自然手势和表情,提升虚拟社交、虚拟会议、虚拟游戏等场景中的交互体验。
  • 动画制作: 辅助动画电影、电视剧及动态广告的制作,根据对话内容自动生成角色手势和表情,减少动画师工作量,提高制作效率。
  • 虚拟客服与数字人: 为在线客服、智能助手等创建自然流畅的手势和表情,在与用户交流时更具亲和力和真实感,提升用户体验。
  • 教育与培训: 在教育领域,虚拟教师根据讲解内容生成相应手势,帮助学生更好地理解知识;在培训场景中,生成逼真的操作演示手势,辅助教学。
  • 娱乐行业: 在游戏开发中,根据角色语音生成匹配的手势和表情,增强游戏的沉浸感和真实感。

项目链接与体验

对EMAGE感兴趣的开发者和研究者可以通过以下链接了解更多信息:

结语:AI手势生成的新篇章

EMAGE的发布标志着AI在手势生成领域取得了显著进展。它不仅为虚拟角色的行为赋予了更强的表现力,也为各行各业带来了提升效率和用户体验的潜力。随着技术的不断发展,我们有理由相信,EMAGE将在未来的人机交互中扮演越来越重要的角色。


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注