北京 – 字节跳动近日正式推出其最新一代多模态深度思考大模型——豆包大模型1.6(Doubao-Seed-1.6)。这款模型不仅在推理能力、上下文处理能力上实现了显著提升,更凭借其独特的多模态理解和图形界面操作能力,以及灵活的思考模式选择,为企业和开发者提供强大的AI生产力工具,预示着国内AI大模型应用进入一个全新的阶段。
豆包1.6:不止于“快”,更在于“深”
与以往追求速度的大模型不同,豆包大模型1.6在“快”的基础上,更加强调“深”。它支持auto、thinking和non-thinking三种思考模式,能够根据任务的复杂程度智能选择最佳策略。这种自适应思考模式,既保证了处理速度,又大幅降低了tokens的消耗,体现了字节跳动在AI技术上的精细化打磨。
- 全能综合型模型 (doubao-seed-1.6): 作为全能型选手,它最大的亮点是支持高达256K的上下文窗口,这在国内大模型中尚属首例。这意味着模型能够理解和处理更长的文本内容,从而更好地把握上下文信息,生成更精准、更连贯的回复。
- 深度思考强化版 (doubao-seed-1.6-thinking): 专注于深度思考,在代码编写、数学计算、逻辑推理等领域进行了强化。在GPQA Diamond测试中,该模型取得了81.5分的成绩,达到全球第一梯队水平,是目前最好的推理模型之一。在数学测评AIME25中,成绩达到86.3分,相比豆包1.5深度思考模型提升12.3分,展现了其强大的逻辑推理能力。
- 极速响应版本 (doubao-seed-1.6-flash): 以极速响应为核心优势,TOPT(Top-of-Pipeline Time)仅需10ms,适用于对响应速度要求极高的场景,例如实时交互和视觉任务处理。
多模态能力:AI的“看”、“听”、“说”
豆包大模型1.6全系列原生支持多模态思考能力,能够理解和处理文本、图像、视频等多种模态数据。这意味着,用户可以通过上传图片或视频,让模型理解其中的内容,并进行相应的处理。例如,可以上传一张商品图片,让模型自动生成商品描述和营销文案;或者上传一段视频,让模型自动提取关键信息和生成摘要。
更令人瞩目的是,豆包大模型1.6还具备图形界面操作能力(GUI操作)。它能够基于视觉深度思考与精准定位,与浏览器及其他软件进行交互和操作,高效执行各类任务。这为自动化办公、智能助手等应用场景带来了巨大的想象空间。
定价模式:普惠AI,降低使用门槛
为了让更多企业和开发者能够享受到豆包大模型1.6带来的便利,字节跳动采用了统一的定价模式,无论是否开启深度思考模式,无论是文本还是视觉输入,tokens价格均一致。
- 输入长度0-32K:输入价格:0.8元/百万tokens;输出价格:8元/百万tokens。
- 输入长度32K-128K:输入价格:1.2元/百万tokens;输出价格:16元/百万tokens。
- 输入长度128K-256K:输入价格:2.4元/百万tokens;输出价格:24元/百万tokens。
- 输入32K、输出200 tokens以内:输入价格:0.8元/百万tokens;输出价格:2元/百万tokens。
这种定价策略,旨在降低AI的使用门槛,让更多企业能够以更低的成本,享受到高质量的AI服务。
火山引擎上线:赋能企业,加速应用落地
目前,豆包大模型1.6已在火山引擎上线,企业和开发者可以通过API调用体验其强大的功能。
如何使用豆包大模型1.6:
- 注册并登录火山引擎平台。
- 开通豆包大模型服务。
- 选择合适的模型版本(如doubao-seed-1.6、doubao-seed-1.6-thinking或doubao-seed-1.6-flash)。
- 获取API密钥。
- 使用API接口调用模型,构建请求数据,发送请求,并接收响应。
未来展望:AI赋能,重塑行业格局
豆包大模型1.6的发布,不仅是字节跳动在AI领域的一次重要突破,也为整个行业带来了新的机遇。随着AI技术的不断发展,大模型将在内容创作、智能对话、代码生成、自动化办公等领域发挥越来越重要的作用,重塑行业格局。
项目地址:https://console.volcengine.com/
参考文献:
- 豆包大模型1.6 – 字节跳动推出的多模态深度思考模型. AI工具集. Retrieved from https://www.aigc.cn/?p=12519
Views: 0