上海枫泾古镇一角_20240824上海枫泾古镇一角_20240824

引言:

想象一下,你只需对手机说一句“帮我订一杯美式咖啡”,手机就能自动打开美团,选择瑞幸门店,完成下单,你只需要最后确认付款。这不再是科幻电影里的场景,而是 AI 操控手机的现实。本周,AI 大模型在操控计算机方面取得了突破性进展,从 AI 创业公司到科技巨头,再到手机厂商,纷纷亮出自己的新产品。而华为也加入了这场竞赛,推出了名为 LiMAC 的轻量级多模态应用控制架构,让 AI 像人类一样操作手机,并有望在不久的将来实现落地。

AI 操控手机的突破:

微软发布的商业智能体和 Anthropic 推出的 Claude 3.5 Sonnet,都展现了 AI 操控计算机的能力。Claude 3.5 Sonnet 甚至可以突破 CAPTCHA 验证,证明 AI 已经具备了像人类一样使用计算机的能力。荣耀也推出了搭载 AI 智能体的 MagicOS 9,实现了手机的“自动驾驶”模式,让用户只需用语音指令就能完成各种操作。

华为 LiMAC 架构:

为了解决现有 AI 操控手机方案的成本高、速度慢等问题,华为诺亚方舟实验室和伦敦大学学院(UCL)汪军团队提出了 LiMAC 架构。该架构结合了 Transformer 网络和一个小型的微调版 VLM,能够有效地处理大部分动作,并针对需要自然语言理解的动作,调用 VLM 生成文本。这种混合方法显著缩短了执行时间,提高了准确度,为 AI 操控手机提供了更实用、更便捷的解决方案。

LiMAC 架构的优势:

  • 轻量级: LiMAC架构仅需约 500M 参数量,相比 GPT-4o 和 Claude 等大型模型,计算需求更低,更适合日常应用。
  • 高效: LiMAC 架构能够将执行时间缩短 30 倍,平均每个任务只需 3 秒,显著提升了响应速度。
  • 准确: LiMAC 架构通过混合方法提高了准确度,能够更准确地理解用户意图,完成操作。

未来展望:

LiMAC 架构的出现,标志着 AI 操控手机技术迈上了一个新的台阶。随着 AI技术的不断发展,未来 AI 操控手机将更加智能化、人性化,为用户带来更便捷、更智能的体验。

结论:

AI 操控手机的时代已经到来。华为 LiMAC 架构的推出,为 AI 操控手机技术的发展提供了新的思路,并有望在不久的将来实现落地,为用户带来更便捷、更智能的手机体验。

参考文献:


>>> Read more <<<

Views: 1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注