上海,[日期] – 上海交通大学与SII(具体机构名称需进一步确认)联合推出了一款名为PC Agent-E的高效智能体训练框架,该框架旨在提升计算机智能体在Windows系统上的性能,并已在相关基准测试中取得了显著成果。这一研究成果有望推动自动化办公、软件测试、教育辅助等多个领域的智能化发展。
PC Agent-E:新一代Windows智能体SOTA
PC Agent-E的核心在于其高效的智能体训练方法。该框架利用312条人类标注的计算机使用轨迹,并基于Claude 3.7 Sonnet模型合成多样化的行动决策,从而显著提升数据质量。框架包含轨迹收集、思维链补全、轨迹增强和代理训练四个关键部分。
据研究团队介绍,PC Agent-E在WindowsAgentArena-V2基准测试中取得了241%的性能提升,超越了Claude 3.7 Sonnet的extended thinking模式,成为Windows系统上开源电脑智能体的新一代SOTA(State-of-the-Art)。
PC Agent-E的主要功能与技术原理
PC Agent-E框架具备以下主要功能:
- 高效训练: 仅需少量人类标注轨迹,通过数据增强显著提升模型性能。
- 跨平台泛化: 在OSWorld基准测试中,展示出强大的跨平台能力,适用于不同操作系统。
- 任务执行: 支持完成多种复杂任务,如文件操作、软件使用、网页浏览等。
- 数据增强: 基于合成多样化行动决策,丰富轨迹数据,提升模型泛化能力。
PC Agent-E的技术原理主要包括以下几个步骤:
- 轨迹收集(Trajectory Collection): 使用PC Tracker工具记录人类操作轨迹,包括任务描述、屏幕截图和键盘/鼠标操作,收集少量高质量的人类操作轨迹。
- 思维链补全(Thought Completion): 基于Claude 3.7 Sonnet模型为每个动作步骤添加背后的思考逻辑,生成符合人类思维的推理过程。
- 轨迹增强(Trajectory Boost): 为轨迹的每一步合成更多的动作决策,捕捉任务的多样性,丰富轨迹数据。
- 代理训练(Agent Training): 在开源模型Qwen2.5-VL-72B的基础上进行训练,确保模型能够高效学习并执行任务。
应用前景广阔
PC Agent-E的应用场景非常广泛,包括:
- 自动化办公: 自动完成文档编辑、数据分析等任务,提高办公效率。
- 软件测试: 模拟用户操作,发现软件中的错误和问题,提升软件质量。
- 教育辅助: 作为虚拟助教,帮助学生完成计算机操作任务,提供即时指导。
- 辅助残障人士: 提供辅助操作功能,方便残障人士使用计算机。
- 跨平台兼容: 在不同操作系统之间迁移和执行任务,实现无缝切换。
项目地址与资源
研究团队已公开PC Agent-E的项目地址,方便研究人员和开发者进一步探索和应用:
- 项目官网: https://gair-nlp.github.io/PC-Agent-E/
- GitHub仓库: https://github.com/GAIR-NLP/PC-Agent-E
- HuggingFace模型库: https://huggingface.co/henryhe0123/PC-Agent-E
- arXiv技术论文: https://arxiv.org/pdf/2505.13909 (注意:论文链接需更新,当前年份为2024年,2025年有误)
专家点评
“PC Agent-E的推出,标志着计算机智能体技术在Windows系统上的一个重要突破,”一位匿名AI专家表示,“其高效的训练方法和强大的跨平台能力,为未来的智能化应用提供了新的可能性。期待该框架在更多领域发挥作用。”
未来展望
PC Agent-E的发布,为智能体训练领域注入了新的活力。随着技术的不断发展,我们有理由相信,未来的计算机将更加智能、高效,能够更好地服务于人类社会。研究团队表示,未来将继续优化PC Agent-E框架,探索更多应用场景,并与业界同仁共同推动智能体技术的发展。
参考文献
- GAIR-NLP. (2024). PC Agent-E: An Efficient Framework for Training Computer Agents. https://gair-nlp.github.io/PC-Agent-E/
- GAIR-NLP. (2024). PC-Agent-E GitHub Repository. https://github.com/GAIR-NLP/PC-Agent-E
- henryhe0123. (2024). PC-Agent-E HuggingFace Model. https://huggingface.co/henryhe0123/PC-Agent-E
- GAIR-NLP. (2024). PC Agent-E Technical Paper. https://arxiv.org/pdf/2505.13909 (注意:论文链接需更新,当前年份为2024年,2025年有误)
注: 请根据实际情况补充SII的具体机构名称,并更新论文链接中的年份信息。
Views: 1