引言
“除了跳跳舞、翻翻跟头,人形机器人还能干什么?” 北京大学助理教授、银河通用机器人创始人及CTO王鹤用这个问题开启了我们关于具身智能和人形机器人的深度对话。在生成式AI浪潮下,具身智能正成为AI领域的一个关键现象,而王鹤和他的银河通用正站在这一技术前沿,致力于让机器人从简单的表演者转变为真正能“干活”的劳动者。
银河通用的独特路径
聚焦高价值工作
银河通用自2023年5月成立以来,只发布过一款机器人本体产品Galbot(G1),但发布了多款具身大模型。公司将大部分资源投向了具身大模型研发,致力于提升机器人的通用性和泛化性。王鹤认为,人形机器人卷本体的结果是把机器人卖出钢铁原材料的价格,目前市场上已经出现了价格战的苗头;只有具身智能模型能力的提升,才能赋予人形机器人更高的价值。
务实与保守的发展策略
尽管具身智能模型是人类前沿技术的“无人区”,但王鹤对此持务实态度。他认为,具身智能模型还有很多不成熟的地方,距离什么活儿都能干可能需要五年到十年的时间。银河通用选择攻克“不那么复杂”的移动、抓取、放置技能,其对具身操作模型的命名——抓取基础大模型GraspVLA——也显得朴实无华。
场景落地与市场化
零售业的突破
银河通用联合合作伙伴推出了全球首个人形机器人智慧零售解决方案,目前已经在北京开设了近10家由机器人进行24小时无人值守的药店。Galbot G1不间断自动精确拣药,并交付给骑手。公司计划今年在北京、上海、深圳等城市共开100家无人值守零售店,预计将带来近亿元人民币的收入。
真机演示与技术验证
在前不久的智源大会开幕式现场,Galbot G1在主论坛舞台进行了现场直播真机演示。机器人在王鹤的语音指令下自主、精确地移动到准确位置并将饮料从货架取出,实现了复杂货架抓取与交付的全流程自主执行,全程无遥操,无需场景数据预采集。
泛化性与终极目标
从0到1的突破
王鹤认为,具身智能进入任何一个场景,都需要进行一些数据上的准备,才能打造百分百成功的产品。Mobile,Pick and Place技能还在持续更新中,银河通用选择从零售业的货架场景做起,逐渐提升操作的泛化性。
通向AGI的漫长征途
从泛化性的角度衡量,如果无所不能的人形机器人是100,掌握Mobile,Pick and Place技能的机器人是10,在零售业的货架场景进行Mobile,Pick and Place的落地仅仅是“1”。当下的银河通用,已实现“从0到1”的突破,正向通用具身智能的终极目标迈进。
对话王鹤
公司现状与团队规模
《智能涌现》:公司现在员工规模有多大?
王鹤:我们现在百余人。
聚焦核心技能
《智能涌现》:银河通用只做了一款本体,但发布了多款模型,是把更多资源倾斜在模型上吗?
王鹤:实际上我们和很多同行的机器人标准不一样。如果机器人只用作科研、硬件平台,以及秀5分钟的demo,这种呈现形式对于产品的可靠性不要求高。这和一个真正能24小时工作的机器人可靠性差距非常大,因为它不能落地应用。
资金投入与模型研发
《智能涌现》:从资金投入上呢?
王鹤:作为一个具身大模型公司,我们投入最大的还是模型的研发。但这块不是靠堆人,因为没有一家公司是靠堆模型训练的员工来把模型做好。而是要建立整个从数据的基建到模型训练、测试,一整套闭环的团队。这里面算力费用占比很大。
合成数据的独特优势
《智能涌现》:重视合成数据是银河通用很鲜明的一个标签。不过很多同行也都说自己会用仿真数据,再结合一些互联网视频、真机数据等,大家的区别在哪里?
王鹤:合成数据这个东西,不会的人用不好它,所以有人会说什么仿真“有毒”等等。银河通用能取得现在的成绩,合成数据
Views: 0