纽约/北京—— 在人工智能与机器人技术融合的浪潮中,Hugging Face近日开源了一款名为SmolVLA的轻量级视觉-语言-行动(VLA)模型,引发了业界广泛关注。这款模型以其低成本、高效率的特性,有望加速机器人在各行各业的普及,甚至走进千家万户。
何为SmolVLA?
SmolVLA,顾名思义,是一款“小而精”的机器人模型。它拥有4.5亿参数,相较于动辄数十亿、数百亿参数的大型模型,SmolVLA显得格外“轻巧”。这种轻量化的设计,使其能够在CPU上流畅运行,只需一块消费级GPU即可进行训练,甚至可以在MacBook上轻松部署。更令人惊喜的是,SmolVLA完全基于开源数据集训练,这无疑降低了开发和使用的门槛。
SmolVLA的技术亮点
SmolVLA并非仅仅是参数上的“瘦身”,更是在技术上进行了多项创新:
- 多模态输入处理: SmolVLA能够同时处理多幅图像、自然语言指令以及机器人的状态信息。通过视觉编码器提取图像特征,将语言指令标记化后输入解码器,并将传感运动状态通过线性层投影到一个标记上,与语言模型的标记维度对齐,实现了多模态信息的有效融合。
- 动作序列生成: SmolVLA包含一个轻量级的Transformer结构的“动作专家”模块,能够基于视觉-语言模型(VLM)的输出,生成未来机器人的动作序列块。该模块采用流匹配技术进行训练,通过引导噪声样本回归真实数据分布来学习动作生成,从而实现高精度的实时控制。
- 高效推理与异步执行: SmolVLA引入了异步推理堆栈,将动作执行与感知和预测分离,实现了更快、更灵敏的控制。这意味着机器人可以一边执行当前动作,一边已经开始处理新的观察并预测下一组动作,从而在快速变化的环境中做出更迅速的响应,提高响应速度和任务吞吐量。
- 视觉Token减少与层跳跃加速推理: 为了进一步提高效率,SmolVLA限制每帧图像的视觉Token数量为64个,大大减少了处理成本。此外,SmolVLA还跳过VLM中的一半层进行计算,有效地将计算成本减半,同时保持了良好的性能。
- 交错注意力层: 与传统的VLA架构不同,SmolVLA交替使用交叉注意力(CA)和自注意力(SA)层,提高了多模态信息整合的效率,加快推理速度。
SmolVLA的应用前景
凭借其低成本、高效率的特性,SmolVLA在多个领域展现出广阔的应用前景:
- 物体抓取与放置: SmolVLA可以控制机械臂完成复杂的抓取和放置任务,例如在工业生产线上,机器人可以根据视觉输入和语言指令,准确地抓取零件并将其放置到指定位置。
- 家务劳动: SmolVLA可以应用于家庭服务机器人,帮助完成各种家务劳动。例如,机器人可以根据自然语言指令,识别并清理房间中的杂物,或者将物品放置到指定位置。
- 货物搬运: 在物流仓库中,SmolVLA可以控制机器人完成货物的搬运任务。机器人可以根据视觉输入识别货物的位置和形状,结合语言指令,生成最优的搬运路径和动作序列,提高货物搬运的效率和准确性。
- 机器人教育: SmolVLA可以作为机器人教育的工具,帮助学生和研究人员更好地理解和开发机器人技术。
专家观点
“SmolVLA的出现,为机器人技术的普及打开了一扇新的大门,”卡内基梅隆大学机器人研究所教授李博表示,“其轻量化的设计和高效的性能,使得机器人不再是少数实验室和大型企业的专属,而是可以走进更多中小企业,甚至走进普通家庭。”
挑战与展望
尽管SmolVLA具有诸多优势,但其发展也面临一些挑战。例如,如何进一步提高模型的泛化能力,使其能够适应更复杂、更动态的环境;如何保证机器人在实际应用中的安全性,避免出现意外事故等。
展望未来,随着技术的不断进步和应用场景的不断拓展,SmolVLA有望成为推动机器人技术发展的重要力量,加速机器人在各行各业的普及,为人类创造更加美好的生活。
相关链接:
- HuggingFace模型库:https://huggingface.co/lerobot/smolvla_base
- arXiv技术论文:https://arxiv.org/pdf/2506.01844
(完)
Views: 0