OS-Genesis：Agent数据自动标注，AI进化提速！

摘要： 上海人工智能实验室联合香港大学、约翰霍普金斯大学等机构，推出了一款名为OS-Genesis的创新框架，旨在解决当前Digital Agents领域面临的数据稀缺性难题。该框架通过反向任务合成技术，实现GUI Agent轨迹数据的自动收集和标注，为构建高效且多样化的Digital Agents提供了新的思路。

上海，2025年1月22日 – 在人工智能领域，构建能够理解并执行复杂任务的Digital Agents一直是研究的热点。然而，高质量的GUI Agent轨迹数据，作为训练这些Agent的关键资源，却面临着稀缺性的挑战。为了解决这一难题，上海人工智能实验室吴志勇团队联合香港大学、约翰霍普金斯大学等机构，共同推出了OS-Genesis框架，为自动化收集和标注Agent数据带来了突破。

背景与挑战：Digital Agents的“数据饥渴”

有效的Digital Agents需要具备两项关键能力：任务规划能力（Planning）和动作执行能力（Action）。Planning能力是指能够将用户给定的高阶指令分解为一系列子目标；Action能力则是指根据当前目标，执行相应的动作。而GUI轨迹数据，包含了Agent完成任务的完整步骤，是训练Agent学习如何完成任务的关键。

然而，现有的轨迹数据采集方法存在诸多局限：

人工采集成本高昂： 手动设计高阶指令并记录每一步操作，需要耗费大量的人力资源，效率低下。
合成数据局限性大： 基于模型生成的轨迹数据通常依赖于预定义的高阶任务，限制了数据的多样性，且容易与真实环境脱节。

OS-Genesis：反向任务合成，突破数据瓶颈

为了克服上述局限，OS-Genesis框架应运而生。其核心思想是：先探索性地交互GUI环境，捕捉每一步动作及其前后状态变化，然后基于这些变化逆向生成高质量的低阶指令，再根据环境导出一个高阶指令。

具体来说，OS-Genesis采用了反向任务合成（Reverse Task Synthesis）技术，其流程包括：

动作记录与状态捕捉： 在没有预定义任务的情况下，OS-Genesis在GUI环境中系统性地执行基本动作（如CLICK、TYPE、SCROLL等），生成大量的三元组数据 <状态前，动作，状态后>。
低阶指令生成： 利用GPT-4o模型，将每个三元组转化为描述具体操作的低阶指令（Low-level Instruction），例如“点击下拉菜单以显示选项”。
高阶任务生成： 在低阶指令的基础上，OS-Genesis进一步生成高阶指令（High-level Instruction），描述一个更为抽象且目标明确的任务，例如“配置应用程序设置”。

这种从低阶到高阶的逐步生成方法，摆脱了人工干预和任务预定义的限制，实现了GUI轨迹数据生成的高效性和多样性。

研究团队与未来展望

该研究的共同一作孙秋实是香港大学的博士生，研究方向包括LLM Agents和神经代码智能等领域。另一位共同一作金川杨是约翰霍普金斯大学的博士生，其开发的心智能力测试 MMToM-QA 荣获 ACL 2024 杰出论文奖。

OS-Genesis框架的推出，为构建通用的GUI agent提供了新的思路。该框架有望降低GUI Agent轨迹数据的获取成本，提高数据质量和多样性，从而加速Digital Agents的研发和应用。

项目地址： https://qiushisun.github.io/OS-Genesis-Home/

研究机构： 上海人工智能实验室，香港大学，上海交通大学，约翰霍普金斯大学，牛津大学，香港科技大学

投稿邮箱： liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

参考文献：