DeepEyes:小红书携手西安交大推出的多模态深度思考模型

文章 8小时前 Midlight
3 0

最近一款备受瞩目的AI模型正式进入大众视野——DeepEyes,这是小红书团队与西安交通大学联合研发的多模态深度思考模型。它基于端到端强化学习技术,成功实现了类似OpenAI o3的"以图思考"能力,而且无需依赖监督微调(SFT)。在视觉推理基准测试V* Bench上,DeepEyes以90.1%的准确率展现出强大实力,其卓越的视觉搜索和多模态推理能力令人印象深刻。特别是在图像定位方面,该模型能有效减少幻觉现象,大大提升了自身的可靠性与泛化能力。

一、DeepEyes核心功能解析

1. 图像融入推理的"用图思考"模式

DeepEyes突破传统,直接将图像信息深度融入推理进程。它不只是"查看图像",更能"借助图像思考",在推理过程中动态调用图像信息,显著增强了对细节的感知与理解能力。

2. 精准高效的视觉搜索能力

面对高分辨率图像,DeepEyes能够快速定位其中的小物体或模糊区域。通过灵活运用裁剪和缩放等工具进行细致分析,其搜索准确率得到了显著提升。

3. 有效缓解模型幻觉现象

基于对图像细节的聚焦处理,DeepEyes能大幅减少模型在生成回答时可能出现的幻觉问题,让回答的准确性和可靠性更有保障。

4. 无缝融合的多模态推理

该模型实现了视觉推理与文本推理的无缝衔接,在处理复杂任务时,这种融合特性使其推理能力得到进一步提升。

5. 自主智能的动态工具调用

DeepEyes具备自主决策能力,可根据推理需求自行决定何时调用图像工具,如裁剪、缩放等。无需外部工具支持,便能实现更高效、更精准的推理过程。

二、技术原理深度剖析

1. 端到端强化学习训练机制

DeepEyes采用端到端强化学习(RL)来训练模型,无需进行冷启动监督微调(SFT)。它基于奖励信号直接对模型行为进行优化,使模型能够自主学习如何在推理过程中有效利用图像信息。其奖励函数包含准确率奖励、格式奖励和条件工具奖励,确保模型在正确回答问题的同时,还能高效地使用图像工具。

2. 交错多模态思维链(iMCoT)

模型引入了交错多模态思维链(Interleaved Multimodal Chain-of-Thought, iMCoT),支持在推理过程中动态交替使用视觉和文本信息。每一步推理时,模型都会判断是否需要进一步的视觉信息,然后通过生成边界框坐标来裁剪图像中的关键区域,并将该区域重新输入模型,作为新的视觉证据。

3. 工具使用导向的数据选择

为更好地激励模型的工具使用行为,DeepEyes采用了基于工具使用导向的数据选择机制。训练数据经过精心筛选,确保样本能有效促进模型的工具调用能力。数据集涵盖高分辨率图像、图表数据和推理数据等,覆盖多种任务类型,有力提升了模型的泛化能力。

4. 动态工具调用行为的发展阶段

在训练过程中,模型的工具调用行为经历了三个阶段:

  • 初始探索阶段:最初进行随机尝试
  • 积极使用阶段:逐渐增加工具使用频率
  • 高效利用阶段:最终实现与人类类似的视觉推理过程,能高效、准确地调用工具

5. 深度融合的多模态框架

DeepEyes将视觉和文本信息进行深度融合,构建了一个统一的推理框架。这种融合不仅提升了模型在视觉任务中的表现,还增强了其在多模态任务中的整体性能。

三、项目资源链接汇总

四、多元应用场景探索

1. 教育辅导领域

DeepEyes可解析试卷中的图表和几何图形,为学生提供详细的解题步骤,助力提升学习效率。

2. 医疗影像分析

在医学领域,它能对医疗影像进行分析,为医生诊断提供辅助,有助于提高诊断的准确性和效率。

3. 智能交通场景

可实时分析路况图像,辅助自动驾驶系统做出更准确的决策,为提升交通安全贡献力量。

4. 安防监控领域

通过对监控视频的分析,能够识别异常行为,在增强公共安全和犯罪预防方面发挥重要作用。

5. 工业制造场景

在生产线上,可用于质量检测和设备故障预测,帮助提高生产效率并降低维护成本。

版权声明:Midlight 发表于 2025-06-03 14:53:00。
转载请注明:DeepEyes:小红书携手西安交大推出的多模态深度思考模型 | 程序员导航网

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...