AI程序员Devin“翻车”？合作一月遭研究者差评

好的，这是一篇基于你提供的信息，并按照你提出的专业新闻写作要求撰写的文章：

AI 软件工程师“Devin”神话破灭？研究者一个月实测：真不好用

引言：

“全球首位 AI 软件工程师”，这是今年年初初创公司 Cognition 发布 Devin 时，外界给予它的耀眼光环。Devin 被描绘成一个无所不能的超级智能助手，能够独立完成从学习新技术、调试代码到部署应用的全流程开发工作。然而，理想很丰满，现实却很骨感。近日，来自新型 AI 研发实验室 Answer.AI 的研究者们，用一个月的实测数据，给 Devin 的“神话”泼了一盆冷水。他们的博客文章《与 Devin 共度一个月的感想》详细记录了 Devin 在 20 多项任务中的表现，结果令人大跌眼镜。

主体：

初见惊艳：简单任务表现尚可

在最初的测试中，Devin 展现出了一定的实力。研究者们给 Devin 的第一个任务是将数据从 Notion 数据库拉取到 Google Sheet。Devin 不仅成功完成了任务，还展现了令人惊讶的能力：它不仅浏览了 Notion API 文档，了解了所需步骤，还指导研究人员在 Google Cloud Console 中设置必要的凭证。更令人称道的是，Devin 并非简单地转储 API 说明，而是引导用户完成每个菜单和按钮点击，这大大节省了用户查找文档的时间。整个过程耗时约一个小时，但人工交互仅需几分钟。最终，Devin 生成了一个格式完美的 Google Sheet，其中包含了所需数据。尽管生成的代码略显冗长，但能够正常运行。

此外，研究者 Johno 使用 Devin 创建了一个行星跟踪器，用于揭穿有关木星和土星历史位置的错误说法，同样取得了成功。更令人印象深刻的是，他完全通过手机就完成了这项工作，Devin 承担了设置环境和编写代码的所有繁重工作。这些早期的成功案例，让研究者们对 Devin 的能力充满期待。

致命缺陷：在不可能完成的任务上浪费时间

然而，随着测试的深入，Devin 的缺陷也逐渐暴露出来。研究者们尝试利用 Devin 的异步能力，希望让它在会议期间编写文档，或者在他们专注于设计工作时调试问题。但结果却令人失望。看似简单的任务往往需要几天而不是几个小时才能完成，而且 Devin 经常陷入技术死胡同或产生过于复杂、无法使用的解决方案。

更令人担忧的是，Devin 倾向于推进实际上不可能完成的任务。例如，当被要求将多个应用程序部署到单个 Railway 部署中（而 Railway 并不支持此操作）时，Devin 没有识别到这个限制，而是花了一天多的时间尝试各种方法，并幻想不存在的功能。研究者们表示，最令人沮丧的不是失败本身，而是他们花费了大量时间试图挽救这些尝试。

深入分析：Devin 的短板究竟在哪里？

研究者们开始反思，为什么 Devin 能够熟练地处理 API 集成并构建功能性的应用程序，却在一些看似更简单的任务上遇到了困难？为了找到答案，他们在一个月的时间里，系统地记录了 Devin 在以下几类任务中的表现：

从零开始创建新项目
执行研究任务
分析和修改现有项目

结果令人震惊：在 20 项任务中，Devin 有 14 次失败，3 次成功，3 次结果不确定。更令人担忧的是，研究者们无法找出任何规律来预测哪些任务会成功，甚至那些与早期成功案例相似的任务，Devin 都会以意想不到的方式失败。

具体而言：

从零开始创建新项目： 尽管 Devin 最初的演示视频展示了其自主完成 Upwork 任务的能力，但在实际测试中，Devin 往往会生成复杂的“代码汤”，使得简单的操作变得不必要地复杂。例如，在创建一个可观测性平台集成的项目中，Devin 生成的代码层层抽象，最终研究者们不得不放弃 Devin，转而使用 Cursor 进行逐步构建集成，结果证明效率更高。在另一个案例中，Devin 在 AI 笔记工具和 Spiral.computer 之间创建集成时，生成的代码被研究者形容为“意大利面条式的代码，阅读起来比从头开始编写更令人困惑。”
研究任务： Devin 在研究任务上的表现也喜忧参半。虽然它能够处理基本的文档查找，但对于更复杂的研究任务却颇具挑战性。例如，当要求 Devin 完成带有准确时间戳的转录摘要时，Devin 只是重复了一些与核心问题无关的信息，而没有真正解决问题。它没有探索潜在的解决方案或识别关键的技术挑战，而是提供了一些不涉及根本问题的通用代码示例。
网页抓取： 网页抓取是 Devin 表现最差的领域之一。研究者们要求 Devin 跟踪 Google Scholar 的链接并抓取某位作者最近的 25 篇论文，这对于具备浏览网页和编写代码能力的 Devin 来说，应该是一个简单的任务。然而，Devin 却陷入了一个无休止的 HTML 解析循环中，无法从自己的混乱中解脱出来。

结论：

Answer.AI 的研究者们用一个月的实测数据，揭示了 Devin 作为“全球首位 AI 软件工程师”的局限性。尽管 Devin 在某些简单任务上展现出了一定的潜力，但在复杂任务、研究任务和网页抓取等领域，其表现令人失望。Devin 倾向于在不可能完成的任务上浪费时间，并且难以预测哪些任务会成功。

这些发现表明，AI 在软件工程领域的应用仍然面临着巨大的挑战。虽然 Devin 代表了 AI 软件开发领域的一次重要尝试，但它距离真正的“超级智能助手”还有很长的路要走。我们不能过分夸大 AI 的能力，而应该保持理性的态度，认识到其局限性，并继续探索和研究。

参考文献：

Answer.AI. (2025, January 8). A Month with Devin. https://www.answer.ai/posts/2025-01-08-devin.html

（注：以上参考文献格式为 APA 格式）

>>> Read more <<<

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

AI程序员Devin“翻车”？合作一月遭研究者差评

作者智能小编