伦敦/北京 – 在人工智能领域持续领跑的谷歌DeepMind今日发布了两款新型AI模型——Gemini Robotics和Gemini Robotics-ER(具象推理),旨在赋予机器人更强的现实世界任务执行能力。这一举动标志着机器人技术发展的一个重要里程碑,预示着机器人或将进入一个“无师自通”的时代。
Gemini Robotics:无需训练,即刻上手
Gemini Robotics的核心亮点在于其“视觉语言行动模型”的特性。这意味着机器人无需经过针对特定任务的专门训练,就能理解并执行新的情境下的指令。这一突破性的能力得益于Gemini Robotics所搭载的谷歌最新版本的AI旗舰模型——Gemini 2.0。
DeepMind机器人部门高级总监Carolina Parada表示,Gemini Robotics依托Gemini强大的多模态世界理解能力,通过整合物理行动的新模态,实现了在现实世界中的应用。该模型在通用性、互动性和灵活性这三个DeepMind认为构建高效机器人所需的核心领域取得了显著进展。
通用性: 传统机器人往往只能执行预先设定的任务,一旦环境或任务发生变化,就需要重新编程或训练。Gemini Robotics的出现打破了这一局限,它能够理解并适应新的情境,无需人工干预即可完成任务。例如,在未接受过相关训练的情况下,Gemini Robotics可以根据指令,识别并拿起不同形状的物体,或者在不同的环境中导航。
互动性: Gemini Robotics在与人类和环境的互动方面也表现出色。它能够理解人类的语言指令,并根据指令做出相应的动作。此外,它还能感知周围环境的变化,并做出相应的调整。例如,当有人靠近时,Gemini Robotics可以自动停止工作,避免发生碰撞。
灵活性: Gemini Robotics能够执行更精确的物理操作,例如折纸或打开瓶盖。这些看似简单的任务,对于传统机器人来说却极具挑战性。Gemini Robotics的出现,使得机器人能够胜任更多需要精细操作的任务,例如在医疗领域进行微创手术,或者在制造业领域进行精密装配。
Gemini Robotics-ER:赋予机器人“具象推理”能力
除了Gemini Robotics,DeepMind还推出了Gemini Robotics-ER(具象推理)模型。该公司将其定义为一种先进的视觉语言模型,能够“理解复杂且动态的世界”。
Parada解释说,Gemini Robotics-ER的设计初衷是为了解决机器人面临的复杂推理任务。例如,在装便当盒时,桌上的物品摆放位置和如何操作都是需要考虑的因素。Gemini Robotics-ER正是为此类推理任务而设计,它能够帮助机器人理解场景中的各种元素,并根据这些元素做出合理的决策。
机器人专家可以通过Gemini Robotics-ER模型与现有的低级控制系统对接,从而开启由Gemini Robotics-ER驱动的新功能。这意味着,现有的机器人可以通过升级软件,获得更强的推理能力,从而更好地适应复杂的工作环境。
安全至上:DeepMind的“分层安全策略”
在人工智能技术快速发展的同时,安全问题也日益受到关注。DeepMind深知这一点,并采取了一系列措施来确保Gemini Robotics的安全可靠。
DeepMind的研究员Vikas Sindhwani表示,该公司正在开发一种“分层安全策略”,旨在确保机器人在各种情况下都能安全运行。Gemini Robotics-ER模型已被训练用于评估在特定情况下某个动作是否安全。这意味着,机器人在执行任务之前,会先评估该动作可能带来的风险,如果风险过高,则会拒绝执行该动作。
此外,DeepMind还发布了新的基准和框架,旨在推动AI领域的安全研究。这些基准和框架可以帮助研究人员更好地评估AI模型的安全性,并开发更安全的AI技术。
“机器人宪法”:DeepMind的伦理考量
早在去年,DeepMind就推出了“机器人宪法”,这是一套受艾萨克·阿西莫夫启发的机器人行为规范。这套规范旨在引导机器人的行为,确保其符合伦理道德标准。
“机器人宪法”包含以下几条核心原则:
- 机器人不得伤害人类,或因不作为而使人类受到伤害。
- 机器人必须服从人类的命令,除非该命令与第一定律相冲突。
- 机器人必须保护自己,只要这种保护不与第一或第二定律相冲突。
这些原则旨在确保机器人在执行任务时,始终以人类的利益为优先,避免对人类造成伤害。
合作共赢:DeepMind的开放策略
DeepMind一直秉持开放合作的策略,与各行各业的合作伙伴共同推动人工智能技术的发展。
据外媒The Verge报道,DeepMind与Apptronik合作,共同致力于“打造下一代人形机器人”。此外,谷歌还向包括Agile Robots、Agility Robotics、波士顿动力和Enchanted Tools在内的“受信任的测试者”开放了Gemini Robotics-ER模型。
Parada表示:“我们专注于打造能够理解物理世界并在其中行动的智能,我们非常期待将这一技术应用于多个领域和多种表现形式。”
行业影响:机器人技术迎来新纪元
谷歌DeepMind发布的Gemini Robotics和Gemini Robotics-ER模型,无疑将对机器人技术产生深远的影响。
加速机器人普及: Gemini Robotics的“无师自通”特性,将大大降低机器人的使用门槛。这意味着,即使没有专业的编程知识,人们也可以轻松地使用机器人来完成各种任务。这将加速机器人在各个领域的普及,例如家庭服务、医疗保健、制造业等。
提升机器人智能化水平: Gemini Robotics-ER的“具象推理”能力,将显著提升机器人的智能化水平。这意味着,机器人不再只是简单地执行预先设定的任务,而是能够根据环境的变化做出相应的决策。这将使得机器人能够胜任更加复杂和具有挑战性的任务。
推动机器人产业发展: Gemini Robotics的发布,将吸引更多的企业和研究机构投入到机器人技术的研发中。这将推动机器人产业的快速发展,并催生出更多创新性的应用。
未来展望:机器人技术将走向何方?
随着人工智能技术的不断发展,机器人技术也将迎来更加美好的未来。
更智能的机器人: 未来的机器人将拥有更强的感知能力、推理能力和学习能力。它们能够更好地理解人类的意图,并根据环境的变化做出相应的调整。
更安全的机器人: 未来的机器人将更加安全可靠。它们能够评估自身行为可能带来的风险,并采取相应的措施来避免事故的发生。
更普及的机器人: 未来的机器人将更加普及。它们将出现在我们生活的各个角落,为我们提供各种各样的服务。
更人性化的机器人: 未来的机器人将更加人性化。它们能够理解人类的情感,并与人类建立更加紧密的联系。
谷歌DeepMind的Gemini Robotics的发布,是机器人技术发展的一个重要里程碑。它预示着机器人或将进入一个“无师自通”的时代,并将对机器人产业产生深远的影响。我们有理由相信,在不久的将来,机器人将在我们的生活中扮演越来越重要的角色。
参考文献
- IT之家. (2024, March 12). 谷歌 DeepMind 推出新 AI 模型,机器人未经训练也能执行现实任务. Retrieved from https://www.ithome.com/0/756/199.htm
- The Verge. (n.d.). Google DeepMind is building the next generation of humanoid robots with Apptronik. Retrieved from https://www.theverge.com/ (需要搜索相关文章)
声明: 本文基于公开信息撰写,力求客观公正。但由于信息来源的局限性,可能存在疏漏或偏差。读者在参考本文时,请结合自身判断,并以官方发布的信息为准。
Views: 0