微软发布Magentic-UI：开源人机协作AI工具集

引言

想象一下，一个AI助手不仅能帮你自动完成复杂的网页任务，还能在执行过程中随时与你互动，确保每一步都符合你的预期。这听起来像是科幻小说中的情节，但现在，微软的Magentic-UI让这一切成为了现实。Magentic-UI是一个开源的人机协作AI Agent研究原型，旨在探索人类与AI Agent的高效协作方式。本文将深入探讨Magentic-UI的背景、功能、技术原理及其应用场景。

Magentic-UI的背景

什么是Magentic-UI？

Magentic-UI是微软推出的一款开源研究原型，用于探索人类参与的AI Agent系统。它是一个以人为中心的AI Agent，能够与用户协作完成复杂的Web任务，如浏览网页、执行代码和处理文件。Magentic-UI的核心特点包括协作规划（co-planning）、协作执行（co-tasking）、安全机制（action guards）及从经验中学习（plan learning）。

研究目的

Magentic-UI的主要目的是通过人机协作提升任务完成效率，降低人工成本，并为研究人员提供一个实验平台，探索人类与AI Agent的协作方式。通过实时参与任务规划和执行，用户可以获得透明且可控的交互体验。

Magentic-UI的主要功能

协作规划

在执行任务前，Magentic-UI会生成分步计划，用户可以修改和批准这些计划，以确保任务按预期进行。这种协作规划的方式使得用户能够全程掌控任务的每一个细节。

协作执行

Magentic-UI会实时展示即将执行的操作，用户可以随时接管控制权，确保任务执行符合需求。这种实时反馈机制大大提高了任务执行的准确性和灵活性。

安全机制

在执行关键或不可逆操作前，Magentic-UI会征求用户批准，并支持用户自定义审批策略，以保障操作安全。这种安全机制有效防止了潜在的风险和错误。

学习复用

任务完成后，Magentic-UI会保存执行计划，用户可以在未来任务中复用或修改这些计划，从而提升效率。这种学习复用的功能使得Magentic-UI能够不断优化和改进任务执行过程。

Magentic-UI的技术原理

系统架构

Magentic-UI基于AutoGen的Magentic-One系统，由多个专业代理（agents）组成，协同工作完成任务。

Orchestrator（协调者）：由大型语言模型（LLM）驱动，负责与用户进行协作规划，决定何时征求用户反馈，并将子任务分配给其他Agent完成。
WebSurfer（网页浏览者）：配备浏览器控制能力的LLM Agent，能执行点击、输入、滚动等操作，完成Orchestrator分配的网页浏览任务。
Coder（代码执行者）：配备Docker代码执行容器的LLM Agent，将结果反馈给Orchestrator。
FileSurfer（文件处理者）：配备Docker容器和文件转换工具的LLM代理，能定位文件、转换为Markdown格式，并回答有关文件的问题。

交互流程

用户通过文本消息和附加图像与Magentic-UI交互。Orchestrator根据用户输入创建自然语言的分步计划，用户可以基于计划编辑界面进行修改。Orchestrator根据计划的每一步决定由哪个Agent或用户完成，并发送请求等待响应。所有步骤完成后，Orchestrator会生成最终答案呈现给用户。如果在执行过程中发现计划不足，Orchestrator会在获得用户许可后重新规划并执行新计划。

安全与控制

Magentic-UI提供了多种安全与控制机制，包括：

用户设置Magentic-UI可访问的网站列表，访问列表外的网站需要用户明确批准。
用户可以在任务执行的任何阶段中断Magentic-UI，停止任何待执行的代码或网页浏览操作。
Magentic-UI控制的浏览器和代码执行器都在Docker容器中运行，避免对主机环境产生影响，并防止登录凭证泄露等安全风险。
用户可以配置行动审批策略，决定Magentic-UI在执行某些操作时是否需要用户批准。

Magentic-UI的应用场景

复杂任务自动化

Magentic-UI可以帮助用户完成多步骤的Web任务，如比较产品价格、填写在线表单或预订旅行。这种自动化功能大大提升了任务执行的效率和准确性。

#

>>> Read more <<<

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

微软发布Magentic-UI：开源人机协作AI工具集

作者智能小编

引言

Magentic-UI的背景

什么是Magentic-UI？

研究目的

Magentic-UI的主要功能

协作规划

协作执行

安全机制

学习复用

Magentic-UI的技术原理

系统架构

交互流程

安全与控制

Magentic-UI的应用场景

复杂任务自动化

#

相关文章

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

发表回复取消回复

为您推荐

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

国之重器，芯之所向：新周期与大国博弈下的中芯国际(688981.SH)价值重估

作者智能小编

引言

Magentic-UI的背景

什么是Magentic-UI？

研究目的

Magentic-UI的主要功能

协作规划

协作执行

安全机制

学习复用

Magentic-UI的技术原理

系统架构

交互流程

安全与控制

Magentic-UI的应用场景

复杂任务自动化

#

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复