小红书联手西安交大，发布多模态深度思考模型DeepEyes

北京 – 在人工智能领域，多模态学习正成为新的研究热点。近日，小红书团队与西安交通大学联合推出了一款名为DeepEyes的多模态深度思考模型，该模型最大的亮点在于其“用图思考”的能力，无需依赖传统的监督微调（SFT），在视觉推理方面取得了显著进展。

DeepEyes：让AI像人一样“看图思考”

DeepEyes的核心在于将图像直接融入推理过程，让AI不仅能够“看图”，还能像人类一样“用图思考”。这种能力得益于其基于端到端强化学习（RL）的技术架构，模型能够自主学习如何在推理过程中有效利用图像信息。

具体来说，DeepEyes引入了交错多模态思维链（iMCoT），支持模型在推理过程中动态地交替使用视觉和文本信息。模型在每一步推理中决定是否需要进一步的视觉信息，并基于生成边界框坐标裁剪图像中的关键区域，将区域重新输入模型，作为新的视觉证据。这种动态工具调用机制，使得DeepEyes在处理复杂视觉任务时更加灵活高效。

技术细节：端到端强化学习与交错多模态思维链

DeepEyes的技术原理主要包括以下几个方面：

端到端强化学习： 通过奖励信号直接优化模型的行为，自主学习如何在推理过程中有效利用图像信息。奖励函数包括准确率奖励、格式奖励和条件工具奖励，确保模型在正确回答问题的同时，高效地使用图像工具。
交错多模态思维链（iMCoT）： 支持模型在推理过程中动态地交替使用视觉和文本信息，提升模型在复杂任务中的推理能力。
工具使用导向的数据选择： 训练数据经过精心筛选，确保样本有效促进模型的工具调用能力。数据集包括高分辨率图像、图表数据和推理数据，覆盖多种任务类型，提升模型的泛化能力。

V* Bench测试：准确率高达90.1%

DeepEyes在视觉推理基准测试V* Bench上表现出色，准确率高达90.1%，展现出强大的视觉搜索和多模态推理能力。该模型还具备出色的图像定位能力，能有效减少幻觉现象，提升模型的可靠性和泛化能力。

应用场景：教育、医疗、交通、安防、制造

DeepEyes的应用前景广阔，以下是一些潜在的应用场景：

教育辅导： 解析试卷中的图表和几何图形，为学生提供详细的解题步骤，提升学习效率。
医疗影像： 分析医学影像，辅助医生进行诊断，提高诊断的准确性和效率。
智能交通： 实时分析路况图像，辅助自动驾驶系统做出更准确的决策，提升交通安全。
安防监控： 分析监控视频，识别异常行为，增强公共安全和犯罪预防能力。
工业制造： 在生产线上进行质量检测和设备故障预测，提高生产效率并降低维护成本。

开源计划：促进AI社区发展

为了促进AI社区的发展，小红书和西安交大选择开源DeepEyes的相关代码和模型。项目地址如下：

项目官网： https://visual-agent.github.io/
GitHub仓库： https://github.com/Visual-Agent/DeepEyes
HuggingFace模型库： https://huggingface.co/ChenShawn/DeepEyes
arXiv技术论文： https://arxiv.org/pdf/2505.14362

结语

DeepEyes的发布，标志着多模态深度学习领域又向前迈进了一步。其“用图思考”的能力，不仅提升了AI在视觉任务中的表现，也为AI在更多领域的应用打开了新的可能性。随着开源计划的推进，DeepEyes有望吸引更多研究者和开发者参与其中，共同推动AI技术的进步。

参考文献：

Visual-Agent. (n.d.). DeepEyes. Retrieved from https://visual-agent.github.io/
Visual-Agent. (n.d.). DeepEyes (GitHub). Retrieved from https://github.com/Visual-Agent/DeepEyes
ChenShawn. (n.d.). DeepEyes (HuggingFace). Retrieved from https://huggingface.co/ChenShawn/DeepEyes
Visual-Agent. (n.d.). DeepEyes (arXiv). Retrieved from https://arxiv.org/pdf/2505.14362

>>> Read more <<<

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

小红书联手西安交大，发布多模态深度思考模型DeepEyes

作者智能小编

DeepEyes：让AI像人一样“看图思考”

技术细节：端到端强化学习与交错多模态思维链

V* Bench测试：准确率高达90.1%

应用场景：教育、医疗、交通、安防、制造

开源计划：促进AI社区发展

结语

相关文章

SpaceX崛起史：一切，为了去火星-实地探访星舰基地与总部

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

发表回复取消回复

为您推荐

SpaceX崛起史：一切，为了去火星-实地探访星舰基地与总部

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

作者智能小编

DeepEyes：让AI像人一样“看图思考”

技术细节：端到端强化学习与交错多模态思维链

V* Bench测试：准确率高达90.1%

应用场景：教育、医疗、交通、安防、制造

开源计划：促进AI社区发展

结语

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复