最近一款备受瞩目的AI模型正式进入大众视野——DeepEyes,这是小红书团队与西安交通大学联合研发的多模态深度思考模型。它基于端到端强化学习技术,成功实现了类似OpenAI o3的"以图思考"能力,而且无需依赖监督微调(SFT)。在视觉推理基准测试V* Bench上,DeepEyes以90.1%的准确率展现出强大实力,其卓越的视觉搜索和多模态推理能力令人印象深刻。特别是在图像定位方面,该模型能有效减少幻觉现象,大大提升了自身的可靠性与泛化能力。
一、DeepEyes核心功能解析
1. 图像融入推理的"用图思考"模式
DeepEyes突破传统,直接将图像信息深度融入推理进程。它不只是"查看图像",更能"借助图像思考",在推理过程中动态调用图像信息,显著增强了对细节的感知与理解能力。
2. 精准高效的视觉搜索能力
面对高分辨率图像,DeepEyes能够快速定位其中的小物体或模糊区域。通过灵活运用裁剪和缩放等工具进行细致分析,其搜索准确率得到了显著提升。
3. 有效缓解模型幻觉现象
基于对图像细节的聚焦处理,DeepEyes能大幅减少模型在生成回答时可能出现的幻觉问题,让回答的准确性和可靠性更有保障。
4. 无缝融合的多模态推理
该模型实现了视觉推理与文本推理的无缝衔接,在处理复杂任务时,这种融合特性使其推理能力得到进一步提升。
5. 自主智能的动态工具调用
DeepEyes具备自主决策能力,可根据推理需求自行决定何时调用图像工具,如裁剪、缩放等。无需外部工具支持,便能实现更高效、更精准的推理过程。
二、技术原理深度剖析
1. 端到端强化学习训练机制
DeepEyes采用端到端强化学习(RL)来训练模型,无需进行冷启动监督微调(SFT)。它基于奖励信号直接对模型行为进行优化,使模型能够自主学习如何在推理过程中有效利用图像信息。其奖励函数包含准确率奖励、格式奖励和条件工具奖励,确保模型在正确回答问题的同时,还能高效地使用图像工具。
2. 交错多模态思维链(iMCoT)
模型引入了交错多模态思维链(Interleaved Multimodal Chain-of-Thought, iMCoT),支持在推理过程中动态交替使用视觉和文本信息。每一步推理时,模型都会判断是否需要进一步的视觉信息,然后通过生成边界框坐标来裁剪图像中的关键区域,并将该区域重新输入模型,作为新的视觉证据。
3. 工具使用导向的数据选择
为更好地激励模型的工具使用行为,DeepEyes采用了基于工具使用导向的数据选择机制。训练数据经过精心筛选,确保样本能有效促进模型的工具调用能力。数据集涵盖高分辨率图像、图表数据和推理数据等,覆盖多种任务类型,有力提升了模型的泛化能力。
4. 动态工具调用行为的发展阶段
在训练过程中,模型的工具调用行为经历了三个阶段:
- 初始探索阶段:最初进行随机尝试
- 积极使用阶段:逐渐增加工具使用频率
- 高效利用阶段:最终实现与人类类似的视觉推理过程,能高效、准确地调用工具
5. 深度融合的多模态框架
DeepEyes将视觉和文本信息进行深度融合,构建了一个统一的推理框架。这种融合不仅提升了模型在视觉任务中的表现,还增强了其在多模态任务中的整体性能。
三、项目资源链接汇总
- 项目官网:https://visual-agent.github.io/
- GitHub仓库:https://github.com/Visual-Agent/DeepEyes
- HuggingFace模型库:https://huggingface.co/ChenShawn/DeepEyes
- arXiv技术论文:https://arxiv.org/pdf/2505.14362
四、多元应用场景探索
1. 教育辅导领域
DeepEyes可解析试卷中的图表和几何图形,为学生提供详细的解题步骤,助力提升学习效率。
2. 医疗影像分析
在医学领域,它能对医疗影像进行分析,为医生诊断提供辅助,有助于提高诊断的准确性和效率。
3. 智能交通场景
可实时分析路况图像,辅助自动驾驶系统做出更准确的决策,为提升交通安全贡献力量。
4. 安防监控领域
通过对监控视频的分析,能够识别异常行为,在增强公共安全和犯罪预防方面发挥重要作用。
5. 工业制造场景
在生产线上,可用于质量检测和设备故障预测,帮助提高生产效率并降低维护成本。