UniAct：清华、商汤等联手打造具身智能新框架

摘要： 清华大学、商汤科技、北京大学、上海人工智能实验室联合推出具身基础模型框架UniAct，旨在解决不同机器人之间行为异构性问题，通过学习通用行为，实现机器人跨平台、跨环境的高效泛化和快速适应。该框架有望推动具身智能在自动驾驶、医疗机器人、工业自动化、智能家居等领域的广泛应用。

北京 – 在人工智能领域，具身智能（Embodied AI）正成为一个备受关注的研究方向。为了解决不同机器人之间行为异构性的难题，清华大学、商汤科技、北京大学、上海人工智能实验室强强联合，共同推出了新型的具身基础模型框架——UniAct。这一框架通过学习通用行为，捕捉不同机器人共享的原子行为特征，从而消除因物理形态和控制接口差异导致的行为异构性，为具身智能的发展注入了新的活力。

UniAct 的核心架构与技术原理

UniAct 的架构主要包括三个核心组成部分：通用行为提取器、通用行为空间和异构解码器。

通用行为提取器： 基于视觉语言模型（VLM），通过观察和任务目标提取通用行为。该提取器能够从复杂的视觉和语言输入中提取出与任务进展直接相关的通用动作，避免了外部因素的干扰，确保了动作空间的纯净性和一致性。
通用行为空间： 以向量量化码本形式实现，每个向量代表一种原子行为。UniAct 通过向量量化（Vector Quantization）构建了一个离散的通用动作空间，将不同机器人的原子行为（如“移动到目标位置”或“避开障碍物”）通过向量量化形成一个通用的 codebook，每个 token 代表一种可跨平台共享的通用技能。
异构解码器： 将通用行为翻译为特定机器人的控制信号。这些解码器针对不同的机器人平台进行设计，能够根据机器人的具体特征（如关节力矩或摄像头视角）将通用动作转换为具体的控制信号，从而灵活适配不同类型的机器人，实现高效的跨平台控制。

UniAct 的主要功能与优势

UniAct 框架具备以下显著的功能与优势：

通用动作编码： 将不同机器人的原子行为通过向量量化形成一个通用的 codebook，实现跨平台共享的通用技能。
轻量化架构与高效性能： UniAct-0.5B 模型仅需 0.5 亿参数，在真实与模拟环境的任务测试中，表现已经超过了参数达到 14 亿的 OpenVLA 模型。
快速适应新环境和机器人： 仅需 50 条专用示教数据即可完成模型在新环境中的微调，能快速适应新机器人和控制接口。通过添加新的轻量级解码器，可以轻松扩展到新的机器人平台。
跨领域数据利用： 通过通用行为空间，能更好地利用跨领域的数据进行训练，在不同机器人和环境中实现更高效的泛化。
一致的行为模式： 在不同的部署场景和机器人类型上，同一个通用动作可以表现出一致的行为模式，为具身智能体的控制提供了新的便捷方式。

UniAct 的潜在应用场景

UniAct 的技术原理和架构具有广泛的应用前景，有望赋能多个领域：

自动驾驶与智能交通： 通过学习通用的驾驶行为模式，UniAct 能为自动驾驶系统提供更高效的动作规划和控制。
医疗机器人： 可以应用于辅助康复机器人或手术机器人，通过通用动作空间，医疗机器人能更灵活地适应不同的患者需求和手术场景。
工业自动化： 可以用于控制多种工业机器人，实现高效的生产流程优化。通过快速适应不同的机器人平台和任务需求，UniAct 能显著提高工业生产的灵活性和效率。
智能家居与服务机器人： 可以应用于智能家居和家庭服务机器人领域。通过通用动作空间，服务机器人能更自然地与人类交互，完成各种家务任务。

专家观点

“UniAct 的推出是具身智能领域的一项重要突破，”一位不愿透露姓名的 AI 专家表示，“它有效地解决了不同机器人之间的行为异构性问题，为实现真正的通用机器人奠定了基础。未来，随着 UniAct 的不断完善和应用，我们有望看到更多智能化、灵活化的机器人出现在我们的生活和工作中。”

项目地址与相关资源