最新消息最新消息

摘要: 上海人工智能实验室联合香港大学、约翰霍普金斯大学等机构,推出了一款名为OS-Genesis的创新框架,旨在解决当前Digital Agents领域面临的数据稀缺性难题。该框架通过反向任务合成技术,实现GUI Agent轨迹数据的自动收集和标注,为构建高效且多样化的Digital Agents提供了新的思路。

上海,2025年1月22日 – 在人工智能领域,构建能够理解并执行复杂任务的Digital Agents一直是研究的热点。然而,高质量的GUI Agent轨迹数据,作为训练这些Agent的关键资源,却面临着稀缺性的挑战。为了解决这一难题,上海人工智能实验室吴志勇团队联合香港大学、约翰霍普金斯大学等机构,共同推出了OS-Genesis框架,为自动化收集和标注Agent数据带来了突破。

背景与挑战:Digital Agents的“数据饥渴”

有效的Digital Agents需要具备两项关键能力:任务规划能力(Planning)和动作执行能力(Action)。Planning能力是指能够将用户给定的高阶指令分解为一系列子目标;Action能力则是指根据当前目标,执行相应的动作。而GUI轨迹数据,包含了Agent完成任务的完整步骤,是训练Agent学习如何完成任务的关键。

然而,现有的轨迹数据采集方法存在诸多局限:

  • 人工采集成本高昂: 手动设计高阶指令并记录每一步操作,需要耗费大量的人力资源,效率低下。
  • 合成数据局限性大: 基于模型生成的轨迹数据通常依赖于预定义的高阶任务,限制了数据的多样性,且容易与真实环境脱节。

OS-Genesis:反向任务合成,突破数据瓶颈

为了克服上述局限,OS-Genesis框架应运而生。其核心思想是:先探索性地交互GUI环境,捕捉每一步动作及其前后状态变化,然后基于这些变化逆向生成高质量的低阶指令,再根据环境导出一个高阶指令。

具体来说,OS-Genesis采用了反向任务合成(Reverse Task Synthesis)技术,其流程包括:

  1. 动作记录与状态捕捉: 在没有预定义任务的情况下,OS-Genesis在GUI环境中系统性地执行基本动作(如CLICK、TYPE、SCROLL等),生成大量的三元组数据 <状态前,动作,状态后>
  2. 低阶指令生成: 利用GPT-4o模型,将每个三元组转化为描述具体操作的低阶指令(Low-level Instruction),例如“点击下拉菜单以显示选项”。
  3. 高阶任务生成: 在低阶指令的基础上,OS-Genesis进一步生成高阶指令(High-level Instruction),描述一个更为抽象且目标明确的任务,例如“配置应用程序设置”。

这种从低阶到高阶的逐步生成方法,摆脱了人工干预和任务预定义的限制,实现了GUI轨迹数据生成的高效性和多样性。

研究团队与未来展望

该研究的共同一作孙秋实是香港大学的博士生,研究方向包括LLM Agents和神经代码智能等领域。另一位共同一作金川杨是约翰霍普金斯大学的博士生,其开发的心智能力测试 MMToM-QA 荣获 ACL 2024 杰出论文奖。

OS-Genesis框架的推出,为构建通用的GUI agent提供了新的思路。该框架有望降低GUI Agent轨迹数据的获取成本,提高数据质量和多样性,从而加速Digital Agents的研发和应用。

项目地址: https://qiushisun.github.io/OS-Genesis-Home/

研究机构: 上海人工智能实验室,香港大学,上海交通大学,约翰霍普金斯大学,牛津大学,香港科技大学

投稿邮箱: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

参考文献:

  • OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis. (请查阅项目地址获取论文链接)
  • 机器之心AIxiv专栏相关报道 (请查阅机器之心网站)

关键词: OS-Genesis, Digital Agents, GUI Agent, 轨迹数据, 反向任务合成, 上海人工智能实验室, 香港大学, 约翰霍普金斯大学, 人工智能

(完)


>>> Read more <<<

Views: 4

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注