腾讯联手港城大，打造动漫生活模拟系统

北京 – 2024年5月16日 – 腾讯PCG与香港城市大学近日联合推出了一款名为AnimeGamer的动漫生活模拟系统，该系统基于多模态大语言模型（MLLM），旨在为玩家提供沉浸式的动漫角色扮演和互动体验。这一创新项目不仅展示了AI技术在游戏领域的应用潜力，也预示着未来游戏互动模式的新方向。

AnimeGamer允许玩家扮演经典动漫角色，例如《悬崖上的金鱼姬》中的宗介，并与游戏世界进行互动。玩家可以通过开放式的语言指令，操控角色在动态的游戏世界中进行冒险，与不同动漫的角色相遇并互动。

核心技术与功能亮点

AnimeGamer的核心在于其强大的多模态大语言模型（MLLM），该模型能够理解和生成包含文本和视觉信息的多模态数据。该系统具备以下几个关键功能：

角色扮演与互动： 玩家可以扮演动漫角色，与游戏世界互动，实现不同动漫角色之间的跨作品互动。
动态动画生成： 系统能够根据玩家指令，实时生成动态动画镜头（视频），展现角色动作和场景变化，并确保动画具有上下文一致性和动态性。这得益于其将动画镜头分解为视觉参考、动作描述和动作强度三个部分，并通过编码器整合为多模态表示。
角色状态更新： 根据角色行为和互动，系统能够动态更新角色的体力、社交和娱乐值，从而反映角色在游戏世界中的状态变化，增强游戏的真实感。
多轮对话交互： AnimeGamer支持玩家基于自然语言进行多轮对话，模型能够基于历史上下文生成一致的游戏状态，提供连贯的游戏体验。
自定义游戏内容： 玩家可以自定义喜欢的角色和场景，创造个性化的游戏体验。

技术原理的深入解析

AnimeGamer的技术突破主要体现在以下几个方面：

动作感知多模态表示： 系统将动画镜头分解为视觉参考、动作描述和动作强度三个部分，基于编码器将信息整合为多模态表示，为后续的动画生成奠定了基础。
视频扩散模型： 系统采用视频扩散模型（如 CogVideoX）作为动画镜头的解码器，将多模态表示解码为高质量的动态视频。通过引入动作强度作为额外的条件，系统能够更好地控制生成视频中的动作幅度，使动画更加自然和真实。
上下文一致性： 系统将历史动画镜头的多模态表示作为上下文输入，模型能够预测后续的游戏状态，确保生成的动画镜头在上下文中保持一致，对于维持游戏的连贯性和沉浸感至关重要。

应用场景的多元化拓展

AnimeGamer的应用场景十分广泛，不仅限于娱乐领域：