新闻报道新闻报道

北京 – 在人工智能领域,多模态学习正成为新的研究热点。近日,小红书团队与西安交通大学联合推出了一款名为DeepEyes的多模态深度思考模型,该模型最大的亮点在于其“用图思考”的能力,无需依赖传统的监督微调(SFT),在视觉推理方面取得了显著进展。

DeepEyes:让AI像人一样“看图思考”

DeepEyes的核心在于将图像直接融入推理过程,让AI不仅能够“看图”,还能像人类一样“用图思考”。这种能力得益于其基于端到端强化学习(RL)的技术架构,模型能够自主学习如何在推理过程中有效利用图像信息。

具体来说,DeepEyes引入了交错多模态思维链(iMCoT),支持模型在推理过程中动态地交替使用视觉和文本信息。模型在每一步推理中决定是否需要进一步的视觉信息,并基于生成边界框坐标裁剪图像中的关键区域,将区域重新输入模型,作为新的视觉证据。这种动态工具调用机制,使得DeepEyes在处理复杂视觉任务时更加灵活高效。

技术细节:端到端强化学习与交错多模态思维链

DeepEyes的技术原理主要包括以下几个方面:

  • 端到端强化学习: 通过奖励信号直接优化模型的行为,自主学习如何在推理过程中有效利用图像信息。奖励函数包括准确率奖励、格式奖励和条件工具奖励,确保模型在正确回答问题的同时,高效地使用图像工具。
  • 交错多模态思维链(iMCoT): 支持模型在推理过程中动态地交替使用视觉和文本信息,提升模型在复杂任务中的推理能力。
  • 工具使用导向的数据选择: 训练数据经过精心筛选,确保样本有效促进模型的工具调用能力。数据集包括高分辨率图像、图表数据和推理数据,覆盖多种任务类型,提升模型的泛化能力。

V* Bench测试:准确率高达90.1%

DeepEyes在视觉推理基准测试V* Bench上表现出色,准确率高达90.1%,展现出强大的视觉搜索和多模态推理能力。该模型还具备出色的图像定位能力,能有效减少幻觉现象,提升模型的可靠性和泛化能力。

应用场景:教育、医疗、交通、安防、制造

DeepEyes的应用前景广阔,以下是一些潜在的应用场景:

  • 教育辅导: 解析试卷中的图表和几何图形,为学生提供详细的解题步骤,提升学习效率。
  • 医疗影像: 分析医学影像,辅助医生进行诊断,提高诊断的准确性和效率。
  • 智能交通: 实时分析路况图像,辅助自动驾驶系统做出更准确的决策,提升交通安全。
  • 安防监控: 分析监控视频,识别异常行为,增强公共安全和犯罪预防能力。
  • 工业制造: 在生产线上进行质量检测和设备故障预测,提高生产效率并降低维护成本。

开源计划:促进AI社区发展

为了促进AI社区的发展,小红书和西安交大选择开源DeepEyes的相关代码和模型。项目地址如下:

结语

DeepEyes的发布,标志着多模态深度学习领域又向前迈进了一步。其“用图思考”的能力,不仅提升了AI在视觉任务中的表现,也为AI在更多领域的应用打开了新的可能性。随着开源计划的推进,DeepEyes有望吸引更多研究者和开发者参与其中,共同推动AI技术的进步。

参考文献:


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注