港大联手Rhymes AI，开源GUI多模态交互模型

引言：

在人机交互领域，图形用户界面（GUI）始终扮演着至关重要的角色。然而，如何让机器更智能地理解和操作 GUI，一直是人工智能研究的挑战。近日，香港大学与 Rhymes AI 联合推出开源多模态模型 Aria-UI，为这一难题提供了新的解决方案。Aria-UI 不仅能精准定位 GUI 元素，还能理解复杂的指令和动态上下文，为自动化测试、用户交互辅助等领域带来革命性的变革。

主体：

1. Aria-UI：纯视觉驱动的 GUI 智能交互新星

Aria-UI 是一款专为图形用户界面（GUI）定位任务设计的大型多模态模型。与传统方法不同，Aria-UI 采用纯视觉方法，直接从 GUI 图像中提取视觉特征，无需依赖 HTML 或 AXTree 等辅助输入。这种方法不仅简化了模型的设计，还使其能够更好地适应不同环境下的多样化指令。

Aria-UI 的核心优势在于其强大的多模态输入处理能力。它能够同时处理 GUI 图像、文本指令和动作历史等多种模态的输入信息，充分理解和利用多模态数据中的丰富信息。此外，Aria-UI 还创新性地整合了动态动作历史信息，用文本或文本-图像交错格式增强模型在多步任务场景中的定位能力。

2. 技术解析：多模态 MoE 模型与数据合成的强大引擎

Aria-UI 的技术核心在于其基于 Aria 多模态 MoE（Mixture of Experts）模型构建，该模型拥有 39 亿激活参数，擅长处理多模态数据。为了训练模型，研究团队采用了两阶段的数据合成流程，从 Common Crawl 和公开数据中生成高质量的元素描述和多样化指令样本。这些样本覆盖了 Web、桌面和移动三大 GUI 环境，为模型提供了大量、多样化的训练数据。

为了让模型更好地理解动态上下文，研究团队还利用公开的代理轨迹数据模拟具有上下文的定位任务，构建了文本动作历史和文本-图像交错历史两种上下文设置。基于数据合成流程，研究团队为轨迹数据中的所有定位步骤生成了详细的逐步指令，让模型在动态环境中更好地理解和执行任务。

此外，Aria-UI 还支持高达 3920×2940 的图像分辨率，通过将图像分割成小块处理，显著扩展了可处理的图像尺寸范围，保证了图像的细节和准确性。

3. 应用前景：从自动化测试到智能客服，潜力无限

Aria-UI 的强大功能使其在多个领域具有广阔的应用前景：