旧金山 – 人工智能领域再掀波澜。今日凌晨,OpenAI正式发布其新一代模型系列GPT-4.1,包含GPT-4.1、GPT-4.1 mini和GPT-4.1 nano三款模型,并通过API向所有开发者开放。这一系列模型在性能、成本和延迟方面均实现了显著提升,OpenAI宣布将于三个月后(2025年7月14日)正式弃用GPT-4.5预览版,以便开发者顺利过渡。
性能全面碾压,百万Token上下文成亮点
OpenAI表示,GPT-4.1系列模型在性能上全面超越了GPT-4o和GPT-4o mini,尤其在编程和指令遵循方面表现突出。更令人瞩目的是,该系列模型拥有高达100万个token的上下文窗口,能够更好地理解和利用长上下文信息。此外,模型的知识截止日期已更新至2024年6月,保证了信息的时效性。
在行业标准指标测试中,GPT-4.1表现亮眼:
- 编程: 在SWE-bench Verified测试中,GPT-4.1得分为54.6%,相较于GPT-4o提升了21.4%,相较于GPT-4.5提升了26.6%,成为当前领先的编程模型。
- 指令遵循: 在Scale的MultiChallenge基准测试中,GPT-4.1得分为38.3%,比GPT-4o提升了10.5%。
- 长上下文: 在多模态长上下文理解基准测试Video-MME中,GPT-4.1创造了新的纪录,在长篇无字幕测试中得分为72.0%,比GPT-4o提升了6.7%。
针对实际效用优化,成本大幅降低
OpenAI强调,在训练GPT-4.1系列模型时,重点关注了模型的实际效用,与开发者社区密切合作,针对开发者应用最相关的任务进行优化。GPT-4.1 mini在小型模型性能上实现了显著飞跃,甚至在多项基准测试中超越了GPT-4o。该模型在智能评估方面与GPT-4o旗鼓相当甚至超越,同时将延迟降低了近一半,成本降低了83%。
GPT-4.1 nano是OpenAI目前速度最快、成本最低的模型,拥有100万token上下文窗口,在小规模下仍能提供卓越的性能。该模型在MMLU测试中得分达80.1%、在GPQA测试中得分达50.3%、在Aider多语言编码测试中得分达9.8%,甚至高于GPT-4o mini。
智能体驱动效率提升,API开发者迎来新机遇
GPT-4.1系列模型在指令遵循可靠性和长上下文理解方面的改进,使其在驱动智能体方面更加高效。结合Responses API等原语,开发者现在可以构建在实际软件工程中更有用、更可靠的智能体,从大型文档中提取洞见,以最少的手动操作解决客户请求,以及执行其他复杂任务。
通过提升推理系统的效率,OpenAI得以降低GPT-4.1系列的价格。GPT-4.1的中等规模查询成本比GPT-4o低26%,而GPT-4.1 nano是OpenAI迄今为止最便宜、速度最快的模型。对于重复传递相同上下文的查询,OpenAI将新系列模型的即时缓存折扣从之前的50%提升至75%。此外,OpenAI还提供长上下文请求,并且无需额外付费。
编程能力显著增强,代码处理更可靠
GPT-4.1在各种编码任务上都显著优于GPT-4o,包括智能体解决编码任务、前端编程、减少无关编辑、可靠遵循diff格式、确保工具使用一致性等任务。在衡量真实世界软件工程技能的SWE-bench Verified测试中,GPT-4.1完成了54.6%的任务,而GPT-4o(2024-11-20)完成了33.2%。
对于需要编辑大型文件的API开发者来说,GPT-4.1在处理各种格式的代码diff时更可靠。在Aider的多语言差异基准测试中,GPT-4.1的得分是GPT-4o的两倍多,甚至比GPT-4.5高出8%。OpenAI专门训练了GPT-4.1,使其能够更可靠地遵循diff格式,这使得开发者只需输出更改的行,而无需重写整个文件,节省成本和延迟。同时,OpenAI将GPT-4.1的输出token限制增加到32,768个token(高于GPT-4o的16,384个token)。
未来展望:AI模型持续进化,应用前景广阔
OpenAI CEO山姆·奥特曼表示,GPT-4.1不仅基准测试成绩优异,并且专注真实世界的实用性,应该会令开发者开心的。GPT-4.1的发布,标志着AI模型在性能、成本和实用性方面都取得了显著进步,为开发者提供了更强大的工具和更广阔的应用空间。随着AI技术的不断发展,我们有理由相信,未来的AI模型将会在更多领域发挥重要作用,为人类社会带来更多福祉。
参考文献:
- 机器之心. (2024). 刚刚,OpenAI发布GPT-4.1!全系支持百万token上下文,全方位碾压GPT-4o并且价格更低. Retrieved from https://www.jiqizhixin.com/articles/2024-04-15-1
Views: 1
