腾讯京东联手，Motion Anything引爆AI运动生成！

北京 – 人工智能在内容创作领域的应用正迎来新的突破。近日，由腾讯联合京东以及澳大利亚国立大学、悉尼大学、麦吉尔大学等多所国内外高校共同研发的多模态运动生成框架Motion Anything正式发布。该框架能够根据文本、音乐或两者的组合，生成高质量、可控的人类运动，为影视动画、VR/AR、游戏开发以及人机交互等领域带来了新的可能性。

Motion Anything的核心在于其多模态条件下的运动生成能力。与以往的运动生成技术不同，该框架不仅可以根据文本描述生成动作，还能根据音乐的节奏和风格生成相应的舞蹈动作，甚至可以同时考虑文本和音乐的输入，生成更加复杂和自然的运动。

技术创新：基于注意力机制的细粒度控制

Motion Anything的技术原理主要基于注意力机制的掩码建模方法。该方法能够对运动序列中的关键帧和动作进行细粒度控制，解决现有方法无法根据条件优先生成动态内容的问题。具体来说，该框架包含以下几个关键技术点：

基于注意力的掩码建模： 通过注意力机制选择与文本或音乐最相关的运动部分进行掩码，并在生成过程中优先恢复这些关键帧和动作，从而实现对动态内容的聚焦。
时间自适应变换器： 根据输入条件的模态（文本、音乐或两者组合），动态调整注意力计算，使运动的关键帧与文本中的关键词或音乐的节拍对齐，提升时间维度上的连贯性。
空间对齐变换器： 通过重新排列条件和运动嵌入，暴露空间维度，恢复被掩码的关键动作，确保运动与条件在空间上的一致性。
多模态条件编码： 能够同时处理文本和音乐等多种模态条件，并通过自适应编码器将不同模态的信息整合到运动生成中，实现多模态条件下的可控运动生成。

TMD数据集：为多模态运动生成研究提供新基准

为了支持多模态运动生成的研究，Motion Anything团队还推出了Text-Music-Dance (TMD) 数据集。该数据集包含2153对文本、音乐和舞蹈的配对样本，为研究人员提供了丰富的数据资源，有望推动该领域的技术发展。

应用前景：赋能多个行业

Motion Anything的发布，预示着AI在运动生成领域的应用将迎来新的发展机遇。其潜在的应用场景包括：

影视动画： 快速生成高质量动画，降低制作成本，提升视觉效果。动画师可以利用该框架快速生成人物的基本动作，然后进行精细调整，大大提高工作效率。
VR/AR： 为虚拟角色生成逼真动作，增强沉浸感，实现自然交互。例如，用户可以通过语音或文本指令控制虚拟角色的动作，获得更加真实的互动体验。
游戏开发： 根据剧情或音乐生成角色动作，提升游戏的趣味性和流畅性。游戏开发者可以利用该框架快速生成游戏中角色的各种动作，使游戏体验更加丰富。
人机交互： 生成自然动作，让机器人与人类交互更友好，实现语音指令驱动的动作生成。未来，机器人可以通过Motion Anything生成更加自然的肢体语言，从而更好地与人类进行交流。
教育与培训： 生成标准动作示范，辅助体育、舞蹈等教学，提升培训效果。例如，舞蹈教练可以利用该框架生成标准舞蹈动作的示范视频，帮助学员更好地学习。

专家观点：AI驱动内容创作的未来

“Motion Anything的发布是AI在内容创作领域的一个重要里程碑，”一位匿名人工智能专家表示，“它不仅展示了AI在运动生成方面的强大能力，也为未来的内容创作提供了新的思路。随着技术的不断发展，我们有理由相信，AI将在内容创作领域发挥越来越重要的作用。”

项目地址：