OpenAI发布GPT-4.1：百万Token，碾压GPT-4o！

旧金山 – 人工智能领域再掀波澜。今日凌晨，OpenAI正式发布其新一代模型系列GPT-4.1，包含GPT-4.1、GPT-4.1 mini和GPT-4.1 nano三款模型，并通过API向所有开发者开放。这一系列模型在性能、成本和延迟方面均实现了显著提升，OpenAI宣布将于三个月后（2025年7月14日）正式弃用GPT-4.5预览版，以便开发者顺利过渡。

性能全面碾压，百万Token上下文成亮点

OpenAI表示，GPT-4.1系列模型在性能上全面超越了GPT-4o和GPT-4o mini，尤其在编程和指令遵循方面表现突出。更令人瞩目的是，该系列模型拥有高达100万个token的上下文窗口，能够更好地理解和利用长上下文信息。此外，模型的知识截止日期已更新至2024年6月，保证了信息的时效性。

在行业标准指标测试中，GPT-4.1表现亮眼：

编程： 在SWE-bench Verified测试中，GPT-4.1得分为54.6%，相较于GPT-4o提升了21.4%，相较于GPT-4.5提升了26.6%，成为当前领先的编程模型。
指令遵循： 在Scale的MultiChallenge基准测试中，GPT-4.1得分为38.3%，比GPT-4o提升了10.5%。
长上下文： 在多模态长上下文理解基准测试Video-MME中，GPT-4.1创造了新的纪录，在长篇无字幕测试中得分为72.0%，比GPT-4o提升了6.7%。

针对实际效用优化，成本大幅降低

OpenAI强调，在训练GPT-4.1系列模型时，重点关注了模型的实际效用，与开发者社区密切合作，针对开发者应用最相关的任务进行优化。GPT-4.1 mini在小型模型性能上实现了显著飞跃，甚至在多项基准测试中超越了GPT-4o。该模型在智能评估方面与GPT-4o旗鼓相当甚至超越，同时将延迟降低了近一半，成本降低了83%。

GPT-4.1 nano是OpenAI目前速度最快、成本最低的模型，拥有100万token上下文窗口，在小规模下仍能提供卓越的性能。该模型在MMLU测试中得分达80.1%、在GPQA测试中得分达50.3%、在Aider多语言编码测试中得分达9.8%，甚至高于GPT-4o mini。

智能体驱动效率提升，API开发者迎来新机遇

GPT-4.1系列模型在指令遵循可靠性和长上下文理解方面的改进，使其在驱动智能体方面更加高效。结合Responses API等原语，开发者现在可以构建在实际软件工程中更有用、更可靠的智能体，从大型文档中提取洞见，以最少的手动操作解决客户请求，以及执行其他复杂任务。

通过提升推理系统的效率，OpenAI得以降低GPT-4.1系列的价格。GPT-4.1的中等规模查询成本比GPT-4o低26%，而GPT-4.1 nano是OpenAI迄今为止最便宜、速度最快的模型。对于重复传递相同上下文的查询，OpenAI将新系列模型的即时缓存折扣从之前的50%提升至75%。此外，OpenAI还提供长上下文请求，并且无需额外付费。

编程能力显著增强，代码处理更可靠

GPT-4.1在各种编码任务上都显著优于GPT-4o，包括智能体解决编码任务、前端编程、减少无关编辑、可靠遵循diff格式、确保工具使用一致性等任务。在衡量真实世界软件工程技能的SWE-bench Verified测试中，GPT-4.1完成了54.6%的任务，而GPT-4o（2024-11-20）完成了33.2%。

对于需要编辑大型文件的API开发者来说，GPT-4.1在处理各种格式的代码diff时更可靠。在Aider的多语言差异基准测试中，GPT-4.1的得分是GPT-4o的两倍多，甚至比GPT-4.5高出8%。OpenAI专门训练了GPT-4.1，使其能够更可靠地遵循diff格式，这使得开发者只需输出更改的行，而无需重写整个文件，节省成本和延迟。同时，OpenAI将GPT-4.1的输出token限制增加到32,768个token（高于GPT-4o的16,384个token）。

未来展望：AI模型持续进化，应用前景广阔

OpenAI CEO山姆·奥特曼表示，GPT-4.1不仅基准测试成绩优异，并且专注真实世界的实用性，应该会令开发者开心的。GPT-4.1的发布，标志着AI模型在性能、成本和实用性方面都取得了显著进步，为开发者提供了更强大的工具和更广阔的应用空间。随着AI技术的不断发展，我们有理由相信，未来的AI模型将会在更多领域发挥重要作用，为人类社会带来更多福祉。

参考文献：