北京 – 在人工智能领域,多模态大模型正成为新的竞争焦点。近日,商汤科技正式发布了其最新一代融合多模态模型「日日新 SenseNova V6」(以下简称:日日新V6)。这款模型以其强大的多模态推理与交互能力,引发了业界的广泛关注。据官方介绍,日日新V6在多项基准测试中超越了OpenAI的GPT-4.5、Gemini 2.0 Pro等国际一流模型,尤其在强推理能力上大幅领先GPT-4o。
多模态交互体验升级:更像一位有耐心的老师
随着GPT-4o的发布,人机交互进入了新的时代。然而,商汤日日新V6在交互体验上更进一步。例如,在数学解题场景中,日日新V6能够循序渐进地引导用户解题,其耐心程度甚至超过了GPT-4o。此外,该模型还支持指尖点读翻译功能,能够精准翻译并自动生成单词卡,整个过程流畅自然。
技术突破:原生融合多模态与强化学习
日日新V6之所以能够实现如此强大的性能,得益于其在多模态长思维链训练、全局记忆、强化学习等方面的技术突破。与此前V5.5版本相比,日日新V6 / V6 Reasoner的推理能力得到了显著增强。
更值得关注的是,日日新V6采用了原生融合多模态技术。这意味着,它并非简单地将图像、语音、文本等模态分别训练后再进行拼接,而是从底层架构上实现了多模态信息的融合。这种原生融合的方式,使得模型能够更好地理解和处理复杂的多模态任务。
此外,日日新V6还采用了强化学习技术,使其思维链长度达到了数万字。这意味着,模型能够进行更深入、更复杂的推理,从而更好地解决实际问题。
性能领先:多项指标超越国际一流模型
在多模态推理任务上,SenseNova V6 Reasoner同时超过了OpenAI的o1和Gemini 2.0 flash-thinking。在语言深度推理任务上,SenseNova V6 Reasoner也同样超越了上述两个模型。
在权威的推理能力及多模态能力评测中,日日新V6也处于行业领先水平。在纯文本和多模态任务上,多项指标超越GPT-4.5、Gemini 2.0 Pro,并且在纯文本任务上全面超越DeepSeek V3。
此外,日日新V6在音频理解、视觉理解等基准上也处于领先水平。
应用场景广泛:数学辅导、文旅讲解、绘本故事等
目前,日日新V6已经正式开放API,并可通过商量Web、商量App(内测版),以及商汤小浣熊、咔皮记账等应用进行体验。
从实际体验来看,日日新V6在数学讲题、翻译点读、文旅讲解和绘本故事等应用场景中表现出色。例如,在数学讲题场景中,该模型能够精准识别手写答案,并以引导提问的方式逐步剖析解题思路,还可以实时一对一语音答疑。
成本控制:软硬件协同优化
在高性能的同时,商汤也注重成本控制。通过构建「模型 – 系统 – 计算」的垂直整合体系,商汤实现了大模型算法与基础设施的联合优化,大幅提升了日日新V6的训练和推理效率。
依靠6D自动并行、FP8低精度训练等技术,日日新V6的训练成本达到了行业最优水平。在推理时,日日新V6实现了生产级的INT4量化、高适应性的分级缓存、分钟级弹性扩缩容,整体推理成本也做到了行业最低,效率超过了DeepSeek。
结语:国产大模型崛起,加速AI应用落地
商汤日日新V6的发布,标志着国产大模型在多模态领域取得了重要突破。凭借其强大的推理能力、交互体验和成本优势,日日新V6有望加速AI在教育、文旅、娱乐等领域的应用落地,为人们的生活带来更多便利。
随着技术的不断发展,我们有理由相信,未来将会有更多优秀的国产大模型涌现,为中国人工智能产业的发展注入新的活力。
参考文献:
- 机器之心. (2024, April 11). 原生多模态大模型也能强化学习,思维链长达几万字,商汤日日新V6来了. Retrieved from https://www.jiqizhixin.com/articles/2024-04-11-15
Views: 1
