DeepEyes：小红书携手西安交大推出的多模态深度思考模型

文章 1个月前 Midlight

5 0 0

最近一款备受瞩目的AI模型正式进入大众视野——DeepEyes，这是小红书团队与西安交通大学联合研发的多模态深度思考模型。它基于端到端强化学习技术，成功实现了类似OpenAI o3的"以图思考"能力，而且无需依赖监督微调（SFT）。在视觉推理基准测试V* Bench上，DeepEyes以90.1%的准确率展现出强大实力，其卓越的视觉搜索和多模态推理能力令人印象深刻。特别是在图像定位方面，该模型能有效减少幻觉现象，大大提升了自身的可靠性与泛化能力。

一、DeepEyes核心功能解析

1. 图像融入推理的"用图思考"模式

DeepEyes突破传统，直接将图像信息深度融入推理进程。它不只是"查看图像"，更能"借助图像思考"，在推理过程中动态调用图像信息，显著增强了对细节的感知与理解能力。

2. 精准高效的视觉搜索能力

面对高分辨率图像，DeepEyes能够快速定位其中的小物体或模糊区域。通过灵活运用裁剪和缩放等工具进行细致分析，其搜索准确率得到了显著提升。

3. 有效缓解模型幻觉现象

基于对图像细节的聚焦处理，DeepEyes能大幅减少模型在生成回答时可能出现的幻觉问题，让回答的准确性和可靠性更有保障。

4. 无缝融合的多模态推理

该模型实现了视觉推理与文本推理的无缝衔接，在处理复杂任务时，这种融合特性使其推理能力得到进一步提升。

5. 自主智能的动态工具调用

DeepEyes具备自主决策能力，可根据推理需求自行决定何时调用图像工具，如裁剪、缩放等。无需外部工具支持，便能实现更高效、更精准的推理过程。

二、技术原理深度剖析

1. 端到端强化学习训练机制

DeepEyes采用端到端强化学习（RL）来训练模型，无需进行冷启动监督微调（SFT）。它基于奖励信号直接对模型行为进行优化，使模型能够自主学习如何在推理过程中有效利用图像信息。其奖励函数包含准确率奖励、格式奖励和条件工具奖励，确保模型在正确回答问题的同时，还能高效地使用图像工具。

2. 交错多模态思维链（iMCoT）

模型引入了交错多模态思维链（Interleaved Multimodal Chain-of-Thought, iMCoT），支持在推理过程中动态交替使用视觉和文本信息。每一步推理时，模型都会判断是否需要进一步的视觉信息，然后通过生成边界框坐标来裁剪图像中的关键区域，并将该区域重新输入模型，作为新的视觉证据。

3. 工具使用导向的数据选择

为更好地激励模型的工具使用行为，DeepEyes采用了基于工具使用导向的数据选择机制。训练数据经过精心筛选，确保样本能有效促进模型的工具调用能力。数据集涵盖高分辨率图像、图表数据和推理数据等，覆盖多种任务类型，有力提升了模型的泛化能力。

4. 动态工具调用行为的发展阶段

在训练过程中，模型的工具调用行为经历了三个阶段：

初始探索阶段：最初进行随机尝试
积极使用阶段：逐渐增加工具使用频率
高效利用阶段：最终实现与人类类似的视觉推理过程，能高效、准确地调用工具

5. 深度融合的多模态框架

DeepEyes将视觉和文本信息进行深度融合，构建了一个统一的推理框架。这种融合不仅提升了模型在视觉任务中的表现，还增强了其在多模态任务中的整体性能。

三、项目资源链接汇总

项目官网：https://visual-agent.github.io/
GitHub仓库：https://github.com/Visual-Agent/DeepEyes
HuggingFace模型库：https://huggingface.co/ChenShawn/DeepEyes
arXiv技术论文：https://arxiv.org/pdf/2505.14362

四、多元应用场景探索

1. 教育辅导领域

DeepEyes可解析试卷中的图表和几何图形，为学生提供详细的解题步骤，助力提升学习效率。

2. 医疗影像分析

在医学领域，它能对医疗影像进行分析，为医生诊断提供辅助，有助于提高诊断的准确性和效率。

3. 智能交通场景

可实时分析路况图像，辅助自动驾驶系统做出更准确的决策，为提升交通安全贡献力量。

4. 安防监控领域

通过对监控视频的分析，能够识别异常行为，在增强公共安全和犯罪预防方面发挥重要作用。

5. 工业制造场景

在生产线上，可用于质量检测和设备故障预测，帮助提高生产效率并降低维护成本。

GitHub OpenAI

版权声明：Midlight 发表于 2025-06-03 14:53:00。
转载请注明：DeepEyes：小红书携手西安交大推出的多模态深度思考模型 | 程序员导航网

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

DeepEyes：小红书携手西安交大推出的多模态深度思考模型

一、DeepEyes核心功能解析

1. 图像融入推理的"用图思考"模式

2. 精准高效的视觉搜索能力

3. 有效缓解模型幻觉现象

4. 无缝融合的多模态推理

5. 自主智能的动态工具调用

二、技术原理深度剖析

1. 端到端强化学习训练机制

2. 交错多模态思维链（iMCoT）

3. 工具使用导向的数据选择

4. 动态工具调用行为的发展阶段

5. 深度融合的多模态框架

三、项目资源链接汇总

四、多元应用场景探索

1. 教育辅导领域

2. 医疗影像分析

3. 智能交通场景

4. 安防监控领域

5. 工业制造场景

TrackVLA：银河通用推出的纯视觉端到端导航大模型

从容大模型：云从科技打造的多模态AI新标杆

暂无评论

DeepEyes：小红书携手西安交大推出的多模态深度思考模型

一、DeepEyes核心功能解析

1. 图像融入推理的"用图思考"模式

2. 精准高效的视觉搜索能力

3. 有效缓解模型幻觉现象

4. 无缝融合的多模态推理

5. 自主智能的动态工具调用

二、技术原理深度剖析

1. 端到端强化学习训练机制

2. 交错多模态思维链（iMCoT）

3. 工具使用导向的数据选择

4. 动态工具调用行为的发展阶段

5. 深度融合的多模态框架

三、项目资源链接汇总

四、多元应用场景探索

1. 教育辅导领域

2. 医疗影像分析

3. 智能交通场景

4. 安防监控领域

5. 工业制造场景

TrackVLA：银河通用推出的纯视觉端到端导航大模型

从容大模型：云从科技打造的多模态AI新标杆

暂无评论

收藏至：