智谱AI开源CogAgent-9B，GLM-PC基座模型亮相

北京—— 在人工智能领域，智谱AI再次展现其创新实力，推出了名为CogAgent-9B的开源模型。这款模型基于强大的GLM-4V-9B视觉语言模型构建，其独特之处在于，它仅依赖屏幕截图作为输入，无需传统的HTML等文本表征，即可理解并执行图形用户界面（GUI）操作，为自动化任务和人机交互开辟了新的可能性。

CogAgent-9B：GUI交互的革新者

CogAgent-9B的核心优势在于其对GUI的深度理解和操作能力。它不仅能够识别屏幕上的按钮、图标等视觉元素，还能理解其背后的功能和逻辑。通过高分辨率图像处理（最高可达1120×1120像素）和双语（中英文）交互能力，CogAgent-9B能够应对各种复杂的GUI场景，并根据用户指令预测和执行下一步操作。

无需文本表征，简化交互流程

与传统的GUI自动化方法不同，CogAgent-9B无需依赖HTML等文本表征，而是直接从屏幕截图入手。这种方式不仅简化了数据处理流程，也使得模型在各种设备（包括个人电脑、手机和车机）上的应用更加灵活。这意味着，无论是开发者还是普通用户，都可以更轻松地利用CogAgent-9B实现自动化任务。

技术原理：视觉与语言的完美融合

CogAgent-9B的技术核心在于其强大的视觉语言模型（VLM）GLM-4V-9B。该模型采用双流注意力机制，将视觉元素映射到相应的文本标签或描述，从而增强了模型对用户意图的理解和执行能力。此外，CogAgent-9B还引入了GUI Grounding预训练方法，通过屏幕截图和布局对，构建界面子区域和布局表征的对应关系，进一步提升了模型对GUI的理解能力。

数据集与训练策略：性能提升的关键

CogAgent-9B的卓越性能离不开其丰富的数据集和优化的训练策略。该团队广泛收集并整合了多种数据集，包括无监督数据和GUI指令微调数据集，为模型提供了广泛的训练和测试基础。在预训练阶段，CogAgent-9B引入了GUI Referring Expression Generation (REG)和GUI Referring Expression Comprehension (REC)任务，以构建界面子区域与布局表征的对应关系。在后训练阶段，采用了更科学的GUI agent后训练策略，使模型具备了更强的分析、推理、预测能力。

思维链优化：更智能的决策过程

为了提高模型的推理能力，CogAgent-9B将思维链分解为Status（当前屏幕状态）、Plan（全局计划）、Action（下一步自然语言描述）和Operation（下一步形式语言描述）。通过随机采样混合多种模式训练数据，模型能够灵活调整和控制推理过程中的实际输出，从而做出更智能的决策。此外，CogAgent-9B还明确了基础动作空间，新增了LLM、QUOTE_TEXT、LAUNCH等高级动作，增强了模型的使用工具和交互能力。

应用前景：广泛而深远

CogAgent-9B的应用前景十分广阔。在软件开发领域，它可以用于自动化测试，模拟用户操作来测试应用程序的GUI，提高测试效率和覆盖率。作为智能个人助理，CogAgent-9B可以帮助用户自动完成日常任务，如日程管理、邮件处理等。在客户服务领域，CogAgent-9B可以通过自动化操作来辅助客服人员，快速响应客户需求并执行相关操作。此外，CogAgent-9B还可以集成到智能家居系统中，通过GUI控制家中的各种智能设备，甚至在汽车领域，用于智能座舱系统，提供更安全、便捷的驾驶体验。

开源共享：推动AI生态发展

智谱AI选择开源CogAgent-9B，体现了其推动AI技术发展的决心。该模型的Github仓库（https://github.com/THUDM/CogAgent）和HuggingFace模型库（https://huggingface.co/THUDM/cogagent-9b-20241220）已对外开放，为研究人员和开发者提供了宝贵的资源。

结论：GUI交互的未来已来

CogAgent-9B的出现，标志着GUI交互技术迈向了一个新的阶段。它不仅简化了自动化任务的实现过程，也为人工智能在人机交互领域的应用开辟了新的道路。随着技术的不断发展，我们有理由相信，CogAgent-9B将在未来的人工智能领域发挥更加重要的作用。

参考文献