深圳—— 华为在近日举行的开发者大会(HDC 2025)上正式发布了新一代人工智能大模型——盘古大模型5.5。与以往侧重通用能力的AI模型不同,盘古大模型5.5强调“不作诗,只做事”,将重心放在解决实际产业问题,旨在推动千行百业的智能化升级。

此次发布的盘古大模型5.5包含五大基础模型,分别面向自然语言处理(NLP)、多模态、预测、科学计算和计算机视觉(CV)等关键领域。这一战略布局,清晰地展现了华为对AI技术在产业落地应用的高度重视。

五大模型,各有所长

盘古大模型5.5的核心亮点在于其针对不同行业和场景的定制化能力。

  • 自然语言处理(NLP): 盘古Ultra MoE模型拥有高达7180亿的参数,基于昇腾全栈软硬件协同打造,具备高效长序列处理、低幻觉、深度研究等核心能力。通过Adaptive SWA和ESA技术,能够轻松应对100万token长度的上下文,并采用知识边界判定和结构化思考验证等创新方案,提升模型推理的准确度。更值得一提的是,其自适应快慢思考合一技术,可根据问题难易程度自动切换思考模式,推理效率提升高达8倍。

  • 多模态: 盘古大模型5.5构建了世界模型,为智能驾驶、具身智能机器人训练构建数字物理空间,实现持续优化迭代。例如在智能驾驶领域,可生成大量训练数据,无需依赖高成本路采。

  • 预测: 采用triplet transformer架构,将不同行业的数据进行统一的三元组编码和预训练,提升预测精度和跨行业、跨场景的泛化性。

  • 科学计算: 深圳气象局基于盘古大模型升级的“智霁”大模型,首次实现AI集合预报,能更直观地反映天气系统的演变可能性。

  • 计算机视觉(CV): 300亿参数视觉大模型,支持多维度泛视觉感知、分析和决策,构建工业场景稀缺的泛视觉故障样本库,提升业务场景的可识别种类与精度。

技术突破,驱动产业变革

盘古大模型5.5在技术层面也取得了显著突破。

  • 盘古Ultra MoE: 拥有7180亿参数,采用256个路由专家,每个token激活8个专家,激活量为39亿,具备超大规模和高稀疏比的特性。引入MLA(Multi-head Latent Attention)注意力机制,有效压缩KV Cache空间,缓解推理阶段的内存带宽瓶颈。

  • 盘古Pro MoE: 创新性地提出分组混合专家模型(MoGE),在专家选择阶段对专家进行分组,并约束token在每个组内激活等量专家,实现专家负载均衡,显著提升模型在昇腾平台的部署效率。

  • 盘古DeepDiver: 针对深度研究场景,能够完成超过10跳的复杂问答,并生成万字以上的专业调研报告。

挑战与展望

尽管盘古大模型5.5在技术和应用层面都展现出强大的潜力,但其未来的发展仍然面临一些挑战。

  • 算力需求: 超大规模模型的训练和推理需要强大的算力支持,如何进一步优化算法,降低对硬件资源的依赖,是未来需要重点关注的问题。

  • 数据安全: 在产业应用中,如何保护用户数据安全,防止数据泄露和滥用,是AI技术发展必须面对的伦理问题。

  • 人才培养: AI技术的快速发展需要大量专业人才,如何加强AI人才培养,满足产业需求,是推动AI技术持续发展的关键。

总而言之,盘古大模型5.5的发布,标志着华为在AI领域迈出了坚实的一步。其“不作诗,只做事”的理念,以及在技术和应用层面的创新,有望为各行各业带来深刻的变革。未来,随着技术的不断成熟和应用场景的不断拓展,盘古大模型有望在推动产业智能化升级的道路上发挥更大的作用。

参考文献:

  • 华为开发者大会(HDC 2025)官方网站
  • AI工具集相关报道


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注