杭州—— 国内人工智能领域再掀波澜。在OpenAI发布最新模型之际,国内大模型“豆包”也迎来重大升级。火山引擎总裁谭待在2025火山引擎Force Link AI创新巡展杭州站上宣布,“豆包1.5·深度思考模型”正式加入豆包大模型家族,并特别推出了具备多模态能力的“视觉版本”,标志着国内大模型在多模态推理领域迈出了重要一步。

这一消息迅速引发业界关注,预示着大模型不仅能理解文字,更能“看懂”图像,从而解锁更广泛的应用场景。

“豆包1.5”:深度思考与视觉理解的双重进化

本次发布的“豆包1.5·深度思考模型”包含两个版本:

  • Doubao-1.5-thinking-pro: 主线版本,强化了语言模型的推理能力,在数学推理、编程竞赛、科学推理等专业领域以及创意写作等通用任务中表现突出。
  • Doubao-1.5-thinking-pro-vision: 视觉版本,具备强大的视觉理解能力,能够像人类一样,基于所见画面进行思考,实现更立体、更深度的推理。

据介绍,Doubao-1.5-thinking-pro模型采用了MoE架构,总参数为200B,激活参数仅20B,在训练和推理成本上具有显著优势。在专业级推理方面,该模型在数学、代码、科学等领域均已达到或接近全球第一梯队水平。

例如,在数学推理方面,该模型的AIME 2024得分为86.7,追平OpenAI o3-mini-high;代码能力方面,Codeforces pass@8达到了55.0%,接近Gemini 2.5 Pro;科学推理方面,GPQA得分为77.3%,接近o3-mini-high。

多模态推理:AI理解世界的全新方式

“豆包1.5·深度思考模型”视觉版的推出,意味着大模型开始具备“原生多模态”能力。用户可以通过文字、语音甚至拍照的方式向模型提问,模型能够结合视觉信息进行深度思考,并给出更全面、更准确的答案。

例如,用户可以上传一张复杂的图表,然后向模型提问图表中的趋势和关键信息。模型不仅能识别图表中的数据,还能理解数据背后的含义,并进行深入分析。

豆包家族全面升级:应用场景持续拓展

除了“豆包1.5·深度思考模型”外,豆包家族的其他成员也迎来了重磅升级:

  • 豆包·视觉理解模型: 增强了视觉定位能力和视频搜索能力。
  • 豆包文生图模型3.0: 凭借“更好的文字排版表现、实拍级的图像生成效果、2K的高清图片生成”三大优势,重新树立了生成式视觉技术的工业级应用标杆。

这些升级进一步拓展了豆包大模型的应用场景,使其能够更好地服务于各行各业的需求。

火山引擎:AI云服务领域的领跑者

随着豆包大模型的不断升级和应用场景的拓展,火山引擎在AI云服务领域的领先地位也日益巩固。

据IDC报告显示,2024年中国公有云大模型调用量激增,火山引擎以46.4%的市场份额位居中国市场第一。

本次活动中,火山引擎还面向Agent服务发布了OS Agent解决方案、GUI Agent大模型——豆包1.5·UI-TARS模型;面向大规模推理,发布了AI云原生·ServingKit推理套件。这些举措将进一步提升模型面向企业复杂场景的分析能力,为智能决策与行动提供支持。

展望未来:大模型将如何改变我们的生活?

“豆包1.5·深度思考模型”的发布,是大模型技术发展的一个重要里程碑。它不仅提升了模型的推理能力,也拓展了模型的应用场景。

可以预见,随着大模型技术的不断发展,我们将会看到更多创新应用涌现,例如:

  • 智能助手: 能够理解用户的意图,并根据用户的需求提供个性化的服务。
  • 智能客服: 能够快速准确地回答用户的问题,并解决用户的问题。
  • 智能创作: 能够辅助人们进行内容创作,提高创作效率。
  • 智能决策: 能够为企业提供数据分析和决策支持,帮助企业做出更明智的决策。

大模型正在深刻地改变着我们的生活,而“豆包1.5·深度思考模型”的发布,无疑将加速这一进程。

参考文献:


>>> Read more <<<

Views: 1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注