小红书联手西安交大，发布多模态深度思考模型DeepEyes

北京时间 [当前日期] 讯 – 在人工智能领域，多模态融合已成为大势所趋。近日，小红书团队与西安交通大学联合推出了一款名为 DeepEyes 的多模态深度思考模型，再次引发业界关注。该模型最大的亮点在于其强大的“用图思考”能力，无需依赖监督微调（SFT），即可实现类似 OpenAI o3 的视觉推理效果。

DeepEyes：不仅仅是“看图”，更是“用图思考”

传统的AI模型在处理图像信息时，往往只能进行简单的图像识别或分类。而DeepEyes 的创新之处在于，它能够将图像信息深度融入推理过程，实现真正的“用图思考”。这意味着，模型不仅能“看懂”图像，还能根据图像内容进行逻辑推理、问题解答，甚至进行更复杂的决策。

DeepEyes 的核心功能包括：

用图思考： 在推理过程中动态调用图像信息，增强对细节的感知与理解。
视觉搜索： 在高分辨率图像中快速定位小物体或模糊区域，基于裁剪和缩放工具进行详细分析，显著提升搜索准确率。
幻觉缓解： 基于聚焦图像细节，减少模型在生成回答时可能出现的幻觉现象，提升回答的准确性和可靠性。
多模态推理： 在视觉和文本推理之间实现无缝融合，提升模型在复杂任务中的推理能力。
动态工具调用： 模型能自主决定何时调用图像工具，如裁剪、缩放等，无需外部工具支持，实现更高效、更准确的推理。

技术解析：端到端强化学习与交错多模态思维链

DeepEyes 能够实现如此强大的功能，离不开其独特的技术原理。该模型采用了端到端强化学习（RL）进行训练，无需冷启动监督微调（SFT）。通过奖励信号直接优化模型的行为，自主学习如何在推理过程中有效利用图像信息。

此外，DeepEyes 还引入了交错多模态思维链（Interleaved Multimodal Chain-of-Thought, iMCoT），支持模型在推理过程中动态地交替使用视觉和文本信息。模型在每一步推理中决定是否需要进一步的视觉信息，基于生成边界框坐标裁剪图像中的关键区域，将区域重新输入模型，作为新的视觉证据。

V* Bench 上的卓越表现

为了验证 DeepEyes 的性能，研究团队在视觉推理基准测试 V* Bench 上进行了测试。结果显示，DeepEyes 的准确率高达 90.1%，充分展现了其强大的视觉搜索和多模态推理能力。

应用前景：教育、医疗、交通、安防、制造等多领域潜力无限

DeepEyes 的“用图思考”能力使其在多个领域具有广阔的应用前景：