Vision-DeepResearch Benchmark (VDR-Bench)

github2026-01-30 更新2026-02-03 收录

下载链接：

https://github.com/Osilly/Vision-DeepResearch

下载链接

链接失效反馈

官方服务：

资源简介：

Vision-DeepResearch Benchmark (VDR-Bench) 是一个用于评估多模态大语言模型在视觉和文本搜索能力上的基准测试数据集。

The Vision-DeepResearch Benchmark (VDR-Bench) is a benchmark dataset dedicated to evaluating the visual and text search capabilities of multimodal large language models.

创建时间：

2026-01-29

原始信息汇总

Vision-DeepResearch 数据集概述

数据集简介

该仓库为“Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models”与“Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models”两篇论文的官方代码库。核心内容包括一系列用于训练和评估多模态大语言模型深度研究能力的数据集与基准。

数据集构成与发布

冷启动数据集（演示版）：https://huggingface.co/datasets/Osilly/Vision-DeepResearch-Toy-SFT-Data
强化学习数据集（演示版）：https://huggingface.co/datasets/Osilly/Vision-DeepResearch-Toy-RL-Data
VDR-Bench（完整版）：https://huggingface.co/datasets/Osilly/VDR-Bench
VDR-Bench（测试迷你版）：https://huggingface.co/datasets/Osilly/VDR-Bench-testmini

核心基准性能

在VDR-Bench基准测试中，模型性能通过多个数据集进行评估，包括VDR、FVQA、MMSearch+、MMSearch、LiveVQA和BC-VL。评估模式分为直接回答、RAG工作流、智能体工作流和多模态深度研究MLLM。

关键性能对比

Vision-DeepResearch-8B (Ours) 在智能体工作流下，相较于基线模型（Qwen3-VL-8B-Instruct (Agentic)）在多个数据集上取得显著提升，平均提升10.4个百分点。
Vision-DeepResearch-30B-A3B (Ours) 在智能体工作流下，相较于基线模型（Qwen3-VL-30B-A3B-Instruct (Agentic)）在多个数据集上取得显著提升，平均提升16.0个百分点。

时间线

2026年02月02日：发布了冷启动数据集（演示版）、强化学习数据集（演示版）、Vision-DeepResearch-8B (SFT-only)模型、VDR-Bench（完整版）和VDR-Bench（测试迷你版）。

相关论文

Vision-DeepResearch Paper: https://arxiv.org/abs/2601.22060
VDR-Bench Paper: https://github.com/Osilly/Vision-DeepResearch/blob/main/papers/VDR-Bench.pdf

搜集汇总

数据集介绍

构建方式

在人工智能领域，视觉与文本的深度融合研究正成为推动多模态大语言模型发展的关键方向。Vision-DeepResearch Benchmark (VDR-Bench) 的构建遵循严谨的数据工程流程，其核心在于模拟真实世界中的深度研究场景。该数据集通过整合来自开放网络的多样化视觉与文本资源，精心设计了一系列需要模型进行多轮推理、信息检索与综合分析的复杂任务。构建过程中，研究者们特别注重任务的结构化设计，确保每个样本都包含清晰的视觉输入、文本查询以及期望的答案或行为序列，从而为模型训练与评估提供了高质量、高挑战性的基准环境。

特点

VDR-Bench 的显著特点在于其任务设计的复杂性与评估维度的全面性。该基准不仅涵盖了传统的视觉问答（VQA）和跨模态检索，更引入了需要模型执行多步规划、工具调用和自主信息验证的深度研究任务。数据集中的问题往往没有直接答案，要求模型像人类研究者一样，通过分析图像内容、理解文本指令、主动搜索外部知识并整合多源信息来逐步推导结论。这种设计使得 VDR-Bench 能够有效衡量模型在开放域环境下的深度认知、推理与执行能力，而非简单的模式匹配。

使用方法

对于希望利用 VDR-Bench 的研究者而言，该数据集主要服务于多模态大语言模型的训练与系统性评估。用户可以从 Hugging Face 平台获取完整版或轻量测试版数据集。在模型训练阶段，其提供的冷启动数据集（SFT）和强化学习数据集（RL）可用于分阶段优化模型的深度研究能力。在评估阶段，研究者可以将待测模型在 VDR-Bench 的多个子任务上进行测试，通过对比直接回答、检索增强生成（RAG）以及智能体工作流等不同范式下的性能表现，全面分析模型在复杂多模态任务上的优劣。数据集附带的详细性能对比表格，为模型间的横向比较提供了权威参照。

背景与挑战

背景概述

Vision-DeepResearch Benchmark（VDR-Bench）作为多模态大语言模型（MLLMs）研究领域的前沿数据集，于2026年由相关研究团队正式发布，其核心研究问题聚焦于激励模型在视觉与文本深度融合搜索任务中的深度研究能力。该数据集旨在通过系统化的评估框架，推动MLLMs在复杂信息检索、跨模态推理以及自主探索性学习等方面的发展，为学术界和工业界提供了衡量模型智能水平的新标准，对促进多模态人工智能向更高层次认知迈进具有显著影响力。

当前挑战

VDR-Bench所针对的领域挑战在于解决多模态大语言模型在视觉与文本联合搜索任务中的深度理解与推理难题，例如模型需在庞大异构数据中精准定位信息并进行逻辑串联。在数据集构建过程中，挑战主要体现在如何设计高质量、多样化的评估样本以覆盖真实世界复杂场景，同时确保标注的一致性与可靠性，以及平衡不同任务（如视觉问答、跨模态检索）的难度与代表性，从而构建出能够全面检验模型深度研究能力的基准测试。

常用场景

经典使用场景

在视觉与语言交叉领域的研究中，Vision-DeepResearch Benchmark（VDR-Bench）作为一个多模态大语言模型（MLLM）的评估基准，其经典使用场景聚焦于对模型深度研究能力的系统性评测。该数据集通过模拟真实世界中的视觉与文本搜索任务，要求模型不仅能够理解复杂的图文信息，还需具备跨模态推理与信息整合的能力，从而为研究社区提供了一个标准化、可复现的测试平台，用以衡量模型在开放域视觉问答、多模态搜索等任务上的表现。

解决学术问题

VDR-Bench的构建旨在解决多模态大语言模型研究中长期存在的关键学术问题，即如何有效评估模型在深度研究场景下的综合能力。传统基准往往侧重于单一模态或浅层理解，而该数据集通过引入需要多步推理、外部知识检索与自主决策的复杂任务，填补了现有评估体系在衡量模型“深度研究”潜力方面的空白。其意义在于推动了MLLM从被动应答向主动探索的范式转变，为模型能力的边界拓展提供了量化依据，进而促进了更鲁棒、更智能的多模态系统的发展。

衍生相关工作

围绕VDR-Bench数据集，研究社区已衍生出一系列具有影响力的经典工作。例如，与其配套提出的“Vision-DeepResearch”方法，通过结合监督微调（SFT）与强化学习（RL）的训练范式，显著提升了模型在基准任务上的性能。同时，该基准也催生了如MMSearch-R1、Webwatcher等专注于多模态搜索与代理工作流的模型架构创新。这些工作不仅验证了VDR-Bench作为评估工具的有效性，更共同推动了多模态大语言模型在复杂任务理解、自主工具使用与迭代推理等前沿方向上的技术探索与突破。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集