据英国 AI 初创公司 Wayve 最新进展报道,其旗下的 GAIA-1 生成式模型在 6 月份进行了将生成式模型用于自动驾驶的概念性验证。这几个月内,Wayve 公司持续扩展 GAIA-1,使其拥有 90 亿个参数,能够生成逼真的驾驶场景影片,展示自动驾驶“在各种情境的反应”,并且更好地预测未来事件。
GAIA-1 是一个可以利用不同类型的资料,包括影片、文字和动作,创建逼真驾驶场景影片的世界模型(World Model)。它能够对自动驾驶车辆的行为和场景特征进行细致的控制,并且由于 GAIA-1 多模态的性质,能够从多种提示模式和组合中生成相关视频。
据悉,GAIA-1 可对环境进行学习,从而提供结构性的环境理解,协助自动驾驶系统做出明智的决策。而“预测未来事件”是该模型的基本关键能力。通过对未来的准确预测,可以让自动驾驶车辆预先知道即将发生的事件,从而规划对应的动作,增加汽车上路时的安全性和效率。
GAIA-1 会先运用专门的编码器,将影片或文字等各种形式的输入,编码成一个共享的表示形式,进而在模型中实现统一的时序对齐和上下文理解。这种编码方法,让模型能够更好地整合和理解不同类型的输入。
GAIA-1 的核心是一个自回归 Transformer,能够预测序列中下一组图像 token。世界模型不只考虑过去的图像 token,还参照文字和动作 token 的上下文资讯,运用这个方法所生成的图像 token,不仅会在视觉上连贯,而且和预期的文字和动作指引保持一致。
之后,模型会启动视频解码器这个阶段,主要功能是将这些图像 token 转换回像素空间,视频解码器作为一个扩散模型,其强大之处主要在于可保证生成的影片,具语义意义、视觉准确且时间序一致性。
IT 之家从官网得知,GAIA-1 的世界模型经过 64 个英伟达 A100GPU 上长达 15 天的训练,包含了高达 65 亿个参数,而视频解码器则在 32 个英伟达 A100GPU 上训练了 15 天,总共拥有 26 亿个参数。GAIA-1 的主要价值,是在自动驾驶中引入生成式世界模型的概念,透过整合影片、文本和动作输入,展示多模态学习在创建多样化驾驶情境的潜力,而且透过整合世界模型与驾驶模型,使驾驶模型能够更好地理解自己的决策,并且泛化至真实世界的情境中,进而提升自动驾驶系统的能力。
新闻翻译:
GAIA-1, a generative model, helps to improve autonomous driving. The model can predict future events and has been trained on 64 英伟达 A100 GPUs for 15 days, with 65 billion parameters. The video decoder is a diffusion model that guarantees the generated video has semantic meaning, visual accuracy, and time consistency.
According to the company’s official website, the GAIA-1 world model can learn from different types of data, including videos, text, and actions, and can create realistic driving scene videos. The model can not only predict the behavior of autonomous vehicles but also provide structural environment understanding to assist the autonomous driving system in making wise decisions. Moreover, the ability to predict future events allows autonomous vehicles to plan their actions in advance, improving safety and efficiency on the road.
The GAIA-1 core is a self-re
【来源】https://www.ithome.com/0/723/789.htm
Views: 2