ViDoRe V3

Name: ViDoRe V3
Creator: Illuin Technology; NVIDIA; 巴黎萨克雷大学·CentraleSupélec
Published: 2026-01-13 23:00:33
License: 暂无描述

arXiv2026-01-13 更新2026-01-15 收录

下载链接：

https://hf.co/vidore

下载链接

链接失效反馈

官方服务：

资源简介：

ViDoRe V3是由Illuin Technology等机构推出的多模态检索增强生成基准测试数据集，涵盖10个专业领域的26,000页文档，包含3,099条人工验证的多语言查询。数据集通过12,000小时人工标注，提供了检索相关性、边界框定位和参考答案的高质量标注，支持视觉与文本混合检索任务。其文档来源于政府、教育和工业领域的开放许可资源，采用三阶段人工协同流程构建，重点解决复杂跨文档视觉元素检索、多语言查询及细粒度视觉定位等现实场景挑战，适用于金融、医药、工业维护等领域的知识密集型NLP任务评估。

ViDoRe V3 is a multimodal retrieval-augmented generation benchmark dataset developed by Illuin Technology and other institutions. It covers 26,000 pages of documents across 10 professional domains, and includes 3,099 manually verified multilingual queries. With 12,000 man-hours of manual annotation, the dataset provides high-quality annotations covering retrieval relevance, bounding box localization and reference answers, supporting hybrid visual-textual retrieval tasks. Constructed via a three-stage collaborative manual workflow, the dataset sources its documents from open-licensed resources in government, education and industrial sectors. It focuses on addressing real-world challenges such as complex cross-document visual element retrieval, multilingual queries and fine-grained visual localization, and is suitable for evaluating knowledge-intensive NLP tasks in fields including finance, medicine and industrial maintenance.

提供机构：

Illuin Technology; NVIDIA; 巴黎萨克雷大学·CentraleSupélec

创建时间：

2026-01-13

原始信息汇总

ViDoRe 数据集概述

数据集项目简介

ViDoRe（Visual Document Retrieval）是一个专注于视觉文档检索的项目，由 ILLUIN Technology 开发，并获得了 NVIDIA 的贡献。该项目包含模型、数据集、基准测试和代码，旨在解决企业级应用中从复杂、视觉丰富的文档中检索准确信息的挑战。

核心基准测试：ViDoRe V3

ViDoRe V3 是最新发布的基准测试，旨在为多模态企业文档检索评估设定新的行业黄金标准。

设计目标：评估生产环境中的检索增强生成（RAG）系统。
数据特点：
- 包含 10个 具有挑战性的真实世界数据集，涵盖多个工业领域。
- 包含 26,000多页 文档和 3,000多个 查询。
- 查询被翻译成 6种语言。
- 数据基于真实、人工创建和人工验证的标注，而非合成数据。
- 标注信息包括相关页面、关键元素的精确边界框以及全面的参考答案。
数据构成：10个数据集中，8个已公开，2个保持私有。

数据集示例

在数据集中，可以找到以下示例（部分）：

vidore/vidore_v3_hr
vidore/vidore_v3_finance_en
vidore/vidore_v3_industrial
vidore/vidore_v3_pharmaceuticals
vidore/vidore_v3_finance_fr
vidore/vidore_v3_physics
vidore/vidore_v3_energy
vidore/vidore_v3_computer_science

引用信息

如果研究中使用此组织的任何数据集或模型，请引用以下论文：

ColPali: Efficient Document Retrieval with Vision Language Models (2024)
ViDoRe Benchmark V2: Raising the Bar for Visual Retrieval (2025)
ViDoRe V3: A Comprehensive Evaluation of Retrieval Augmented Generation in Complex Real-World Scenarios (2026)

联系方式

Quentin Macé: quentin.mace@illuin.tech

致谢

此项工作得到了 ILLUIN Technology 的部分支持。

搜集汇总

数据集介绍

构建方式

在构建ViDoRe V3数据集时，研究团队采用了一种严谨的人机协同标注流程，以模拟现实世界中复杂文档检索场景。该流程首先从政府、教育和行业来源中精心挑选了10个涵盖金融、计算机科学、能源等专业领域的公开许可文档语料库，总计包含26,000个文档页面。随后，通过结合人工标注与合成生成的方法，创建了多样化的查询：人工标注者基于文档摘要或原始页面生成查询，而合成管道则利用大型语言模型从摘要中自动生成查询，并通过模型评审确保质量。对于每个查询，团队采用视觉语言模型进行页面预过滤，再由领域专家进行多轮人工标注，评估页面相关性、绘制支持证据的边界框，并撰写经过验证的参考答案。整个标注工作耗时约12,000小时，最终产生了3,099个高质量、多语言（涵盖6种语言）的查询-答案对，并包含细粒度的视觉定位注释。

特点

ViDoRe V3数据集的核心特点在于其全面性和真实性，旨在评估多模态检索增强生成系统在复杂现实场景下的性能。数据集涵盖了广泛的查询类型，包括提取式、开放式、数值型、多跳推理和比较对比等七种类型，以及问题、关键词和指令三种格式，从而能够全面检验系统应对多样化信息需求的能力。其文档内容不仅包含文本，还大量涉及表格、图表、信息图和图像等视觉元素，要求模型具备跨模态理解和信息整合能力。此外，数据集提供了精细的人工注释，包括页面相关性评分、证据的边界框定位以及经过验证的参考答案，为评估检索、生成和视觉定位三个核心组件提供了可靠的基础。数据集的跨语言特性（支持六种欧洲语言）以及部分语料库作为私有测试集的划分，进一步增强了其评估的严谨性和泛化能力。

使用方法

ViDoRe V3数据集主要用于端到端评估多模态检索增强生成流水线的性能。研究人员可以将其集成到现有的评估框架中，例如MTEB生态系统，以系统性地测试不同模型组件。在检索阶段，可以分别评估文本检索器和视觉检索器在跨语言、跨模态查询下的页面级检索准确率，并分析不同查询类型和内容模态对性能的影响。在生成阶段，可以将检索到的页面（图像或文本形式）输入给大型语言模型或视觉语言模型，评估其生成答案的准确性和完整性，并比较不同上下文模态（纯文本、纯视觉或混合）对生成质量的影响。在视觉定位阶段，可以测试模型生成边界框以定位答案来源的能力，并与人工标注进行对比。数据集的分割策略（公开集与私有测试集）有助于防止过拟合，确保评估结果反映模型的真实泛化能力。

背景与挑战

背景概述

ViDoRe V3 是由 Illuin Technology、NVIDIA 及 CentraleSupélec 等机构的研究团队于 2026 年推出的多模态检索增强生成（RAG）基准数据集。该数据集旨在应对复杂现实场景中 RAG 系统面临的挑战，特别是针对视觉丰富文档的理解与检索。其核心研究问题聚焦于如何评估 RAG 管道在跨文档信息合成、视觉元素（如图表、表格、图像）解析及细粒度源定位等方面的综合性能。通过整合来自金融、计算机科学、能源等十个专业领域的 26,000 页文档，并辅以 3,099 条人工验证的多语言查询，ViDoRe V3 为多模态文档理解设立了新的评估标准，显著推动了检索增强生成技术在真实应用场景中的发展。

当前挑战

ViDoRe V3 所解决的领域挑战主要涉及多模态文档的端到端检索与生成，包括对非文本元素的准确解析、开放域查询的复杂推理以及跨语言检索的语义对齐。在构建过程中，研究团队面临多重困难：首先，为确保查询的多样性与真实性，需设计兼顾人类标注与合成生成的双重流程，并克服标注主观性带来的不一致；其次，视觉元素的细粒度定位要求高精度边界框标注，但不同标注者对证据区域的理解存在差异，导致标注一致性仅为中等水平；此外，多语言扩展虽提升了数据集的通用性，却加剧了跨语言检索的性能下降，凸显了模型在语言适配方面的不足。

常用场景

经典使用场景

在视觉文档理解与检索增强生成领域，ViDoRe V3数据集被广泛用于评估多模态RAG系统在复杂真实场景下的综合性能。该数据集通过整合来自金融、计算机科学、能源、制药等十个专业领域的视觉丰富文档，构建了一个包含26,000个文档页面和3,099个人工验证查询的大规模基准。其经典使用场景在于模拟用户在大型知识库中进行跨文档、跨模态的信息检索与合成，例如从包含图表、表格和图像的年度报告中提取特定数据，或对比不同文档中的技术规范。研究者利用该数据集测试模型在开放性问题、多跳推理和细粒度视觉定位等挑战性任务上的表现，从而推动多模态检索与生成技术的边界。

衍生相关工作

ViDoRe V3的发布催生了一系列围绕多模态文档检索与生成的创新研究。在检索器方面，基于该数据集的评估推动了如ColEmbed、Jina-v4等视觉检索器的优化，证明了视觉检索器在跨模态匹配上优于纯文本检索器，并促进了晚期交互模型与混合检索策略的发展。在生成与定位方面，该数据集启发了对视觉语言模型在开放域问答中利用视觉上下文能力的研究，以及针对边界框生成任务的新模型设计。同时，其构建方法——结合人工标注与VLM预过滤的流程——为后续大规模多模态基准的创建提供了可借鉴的范式。这些衍生工作共同深化了对多模态RAG管道中检索、生成与可解释性三个核心组件协同优化的理解。

数据集最近研究