在2025世界人工智能大会(WAIC)的大模型论坛上,商汤科技重磅发布了「悟能」具身智能平台,正式宣布进军具身智能领域。这一发布不仅标志着商汤科技在人工智能技术研究上的又一重要里程碑,也为具身智能这一新兴领域的发展注入了新的活力。商汤凭借其在多模态技术领域十多年的积累和世界模型经验,推出了日日新V6.5多模态推理大模型,其图文交错思维链显著提升了跨模态推理精度,性价比更是提升了5倍。这一创新技术的发布,引发了业界广泛关注。

日日新V6.5多模态推理大模型:跨模态推理的突破

商汤科技此次发布的日日新V6.5多模态推理大模型,是其在多模态技术研究上的又一力作。与传统的多模态推理模型不同,日日新V6.5独创了图文交错思维链,使得图像能够在推理过程中以本体形式参与,而不再仅仅是通过文本解读。这种图文混合的思考模式,使得日日新V6.5在多媒体推理能力上表现卓越,多个数据集上的表现甚至超越了Gemini 2.5 Pro。

同时,日日新V6.5依托轻量Vision Encoder和纵深LLM架构,相较于前一代模型,其性能提升了6.99%,而推理成本却仅为日日新6.0的30%,综合性价比提升了5倍。这一突破不仅展示了商汤科技在技术研发上的深厚积淀,也为大模型技术的实际应用开辟了新的道路。

从多模态到具身智能:商汤的必然选择

商汤科技此次高调切入具身智能领域,是其从感知视觉、多模态走向物理世界交互的必然结果。商汤科技联合创始人、执行董事、首席科学家林达华认为,多模态是迈向AGI(通用人工智能)的必经之路。只有能够同时“读文本、看世界、动手脚”,AI才可能真正理解并改造物理环境。

商汤科技在自动驾驶领域的成功实践,为其在感知、定位、轨迹规划和安全冗余等方面积累了大量真实数据与世界模型经验。这些能力迁移到机器人等具身形态,相当于先在“会开车的大机器人”身上练兵,再扩展到泛化的移动与操作场景。因此,商汤继「开悟」世界模型之后,发布全新「悟能」具身智能平台,一端承接日日新多模态大模型的通用能力,一端拥有打造和使用世界模型进行训练的经验,进而打造生态体系。

具身智能的未来:风口已至

具身智能,作为人工智能领域的新兴方向,正吸引着越来越多的AI头部企业、初创公司和投资者的关注。具身智能不仅涉及传统的感知和推理能力,更强调AI在物理世界中的交互和操作能力。这一领域的快速发展,预示着AI 2.0时代的新风口已经到来。

在此次WAIC大模型论坛上,商汤科技的发布揭开了具身智能领域的诸多谜团。随着技术的不断迭代和优化,具身智能将在更多实际应用场景中发挥重要作用,如智能机器人、自动驾驶、智能制造等。商汤科技凭借其在多模态技术和世界模型经验上的深厚积累,无疑在这一领域占据了有利位置。

结论与展望

商汤科技发布「悟能」具身智能平台,不仅展示了其在人工智能技术研究上的最新成果,也为具身智能领域的发展注入了新的活力。随着技术的不断进步和应用场景的不断拓展,具身智能将在未来发挥越来越重要的作用。商汤科技凭借其在多模态技术和世界模型经验上的深厚积淀,必将在这一新兴领域中占据一席之地。

未来,随着更多企业和研究机构的加入,具身智能领域必将迎来更加广阔的发展空间。我们期待看到更多像商汤科技这样的企业,通过不断的技术创新和实践探索,推动人工智能技术的发展,为人类社会带来更多的便利和惊喜。

参考文献

  1. 量子位. (2025). 具身智能迎来实力派!十年多模态打底,世界模型开路,商汤「悟能」来了.
  2. 商汤科技. (2025). WAIC 2025大模型论坛发布资料.


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注