好的,这是一篇基于你提供的信息,并按照你提出的专业新闻写作要求撰写的文章:

AI 软件工程师“Devin”神话破灭?研究者一个月实测:真不好用

引言:

“全球首位 AI 软件工程师”,这是今年年初初创公司 Cognition 发布 Devin 时,外界给予它的耀眼光环。Devin 被描绘成一个无所不能的超级智能助手,能够独立完成从学习新技术、调试代码到部署应用的全流程开发工作。然而,理想很丰满,现实却很骨感。近日,来自新型 AI 研发实验室 Answer.AI 的研究者们,用一个月的实测数据,给 Devin 的“神话”泼了一盆冷水。他们的博客文章《与 Devin 共度一个月的感想》详细记录了 Devin 在 20 多项任务中的表现,结果令人大跌眼镜。

主体:

初见惊艳:简单任务表现尚可

在最初的测试中,Devin 展现出了一定的实力。研究者们给 Devin 的第一个任务是将数据从 Notion 数据库拉取到 Google Sheet。Devin 不仅成功完成了任务,还展现了令人惊讶的能力:它不仅浏览了 Notion API 文档,了解了所需步骤,还指导研究人员在 Google Cloud Console 中设置必要的凭证。更令人称道的是,Devin 并非简单地转储 API 说明,而是引导用户完成每个菜单和按钮点击,这大大节省了用户查找文档的时间。整个过程耗时约一个小时,但人工交互仅需几分钟。最终,Devin 生成了一个格式完美的 Google Sheet,其中包含了所需数据。尽管生成的代码略显冗长,但能够正常运行。

此外,研究者 Johno 使用 Devin 创建了一个行星跟踪器,用于揭穿有关木星和土星历史位置的错误说法,同样取得了成功。更令人印象深刻的是,他完全通过手机就完成了这项工作,Devin 承担了设置环境和编写代码的所有繁重工作。这些早期的成功案例,让研究者们对 Devin 的能力充满期待。

致命缺陷:在不可能完成的任务上浪费时间

然而,随着测试的深入,Devin 的缺陷也逐渐暴露出来。研究者们尝试利用 Devin 的异步能力,希望让它在会议期间编写文档,或者在他们专注于设计工作时调试问题。但结果却令人失望。看似简单的任务往往需要几天而不是几个小时才能完成,而且 Devin 经常陷入技术死胡同或产生过于复杂、无法使用的解决方案。

更令人担忧的是,Devin 倾向于推进实际上不可能完成的任务。例如,当被要求将多个应用程序部署到单个 Railway 部署中(而 Railway 并不支持此操作)时,Devin 没有识别到这个限制,而是花了一天多的时间尝试各种方法,并幻想不存在的功能。研究者们表示,最令人沮丧的不是失败本身,而是他们花费了大量时间试图挽救这些尝试。

深入分析:Devin 的短板究竟在哪里?

研究者们开始反思,为什么 Devin 能够熟练地处理 API 集成并构建功能性的应用程序,却在一些看似更简单的任务上遇到了困难?为了找到答案,他们在一个月的时间里,系统地记录了 Devin 在以下几类任务中的表现:

  • 从零开始创建新项目
  • 执行研究任务
  • 分析和修改现有项目

结果令人震惊:在 20 项任务中,Devin 有 14 次失败,3 次成功,3 次结果不确定。更令人担忧的是,研究者们无法找出任何规律来预测哪些任务会成功,甚至那些与早期成功案例相似的任务,Devin 都会以意想不到的方式失败。

具体而言:

  • 从零开始创建新项目: 尽管 Devin 最初的演示视频展示了其自主完成 Upwork 任务的能力,但在实际测试中,Devin 往往会生成复杂的“代码汤”,使得简单的操作变得不必要地复杂。例如,在创建一个可观测性平台集成的项目中,Devin 生成的代码层层抽象,最终研究者们不得不放弃 Devin,转而使用 Cursor 进行逐步构建集成,结果证明效率更高。在另一个案例中,Devin 在 AI 笔记工具和 Spiral.computer 之间创建集成时,生成的代码被研究者形容为“意大利面条式的代码,阅读起来比从头开始编写更令人困惑。”
  • 研究任务: Devin 在研究任务上的表现也喜忧参半。虽然它能够处理基本的文档查找,但对于更复杂的研究任务却颇具挑战性。例如,当要求 Devin 完成带有准确时间戳的转录摘要时,Devin 只是重复了一些与核心问题无关的信息,而没有真正解决问题。它没有探索潜在的解决方案或识别关键的技术挑战,而是提供了一些不涉及根本问题的通用代码示例。
  • 网页抓取: 网页抓取是 Devin 表现最差的领域之一。研究者们要求 Devin 跟踪 Google Scholar 的链接并抓取某位作者最近的 25 篇论文,这对于具备浏览网页和编写代码能力的 Devin 来说,应该是一个简单的任务。然而,Devin 却陷入了一个无休止的 HTML 解析循环中,无法从自己的混乱中解脱出来。

结论:

Answer.AI 的研究者们用一个月的实测数据,揭示了 Devin 作为“全球首位 AI 软件工程师”的局限性。尽管 Devin 在某些简单任务上展现出了一定的潜力,但在复杂任务、研究任务和网页抓取等领域,其表现令人失望。Devin 倾向于在不可能完成的任务上浪费时间,并且难以预测哪些任务会成功。

这些发现表明,AI 在软件工程领域的应用仍然面临着巨大的挑战。虽然 Devin 代表了 AI 软件开发领域的一次重要尝试,但它距离真正的“超级智能助手”还有很长的路要走。我们不能过分夸大 AI 的能力,而应该保持理性的态度,认识到其局限性,并继续探索和研究。

参考文献:

(注:以上参考文献格式为 APA 格式)


>>> Read more <<<

Views: 6

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注