ViDoSeek

github2025-03-19 更新2025-02-28 收录

下载链接：

https://github.com/Alibaba-NLP/ViDoRAG

下载链接

链接失效反馈

官方服务：

资源简介：

我们发布了ViDoSeek数据集，该数据集专为视觉丰富的文档检索-推理-回答设计。在ViDoSeek中，每个查询都有一个唯一的答案和特定的参考页面。提供的JSON结构包括一个唯一标识符（uid）以区分查询，查询内容（query），参考答案（reference_answer），以及包含原始文件名（file_name）、参考页码（reference_page）、数据源类型（source_type）和查询类型（query_type）的元数据（meta_info）。

We release the ViDoSeek dataset, which is specifically tailored for visually-rich document retrieval, reasoning, and question answering. In ViDoSeek, each query has a unique answer and a specific reference page. The provided JSON structure includes a unique identifier (uid) for differentiating queries, the query content (query), the reference answer (reference_answer), as well as meta_info containing the original file name (file_name), reference page (reference_page), data source type (source_type), and query type (query_type).

创建时间：

2025-02-25

原始信息汇总

ViDoRAG数据集概述

🔍 数据集基本信息

名称：ViDoSeek
类型：视觉丰富文档检索-推理-回答基准数据集
适用场景：大规模视觉丰富文档集合中的检索增强生成（RAG）评估
发布地址：https://huggingface.co/datasets/autumncc/ViDoSeek
论文地址：https://arxiv.org/abs/2502.18017

📊 数据集内容

数据结构：JSON格式
- 唯一标识符（uid）
- 查询内容（query）
- 参考回答（reference_answer）
- 元数据（meta_info）：
  - 原始文件名（file_name）
  - 参考页码（reference_page）
  - 数据源类型（source_type）
  - 查询类型（query_type）

🛠️ 数据处理工具

PDF转图像：./scripts/pdf2images.py
OCR识别：
- 传统OCR模型：./scripts/ocr_triditional.py
- 视觉语言模型（VLM）：./scripts/ocr_vlms.py

💡 主要特点

专为视觉丰富文档检索-推理-回答设计
支持多跳查询（Multi-Hop）
包含多模态（视觉和文本）数据

📈 评估方法

基于LLM的端到端评估
支持多种评估模式：
- 检索推理（retrieval_infer）
- 动态混合检索（dynamic_hybird_retrieval_infer）
- 完整ViDoRAG框架（vidorag）

📝 引用格式

bibtex @article{wang2025vidorag, title={ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents}, author={Wang, Qiuchen and Ding, Ruixue and Chen, Zehui and Wu, Weiqi and Wang, Shihang and Xie, Pengjun and Zhao, Feng}, journal={arXiv preprint arXiv:2502.18017}, year={2025} }

搜集汇总

数据集介绍

构建方式

ViDoSeek数据集的构建采用了视觉丰富的文档检索-推理-回答的设计思路，通过集成多模态信息检索和动态迭代推理机制，旨在全面评估大规模文档语料库中的检索增强生成（RAG）能力。数据集包含了唯一的查询标识符、查询内容、参考答案以及包含文件名、参考页码、数据源类型和查询类型的元信息。

特点

ViDoSeek数据集的特点在于其多模态混合检索策略，结合了视觉和文本信息流，以及所提出的ViDoRAG框架，采用多智能体actor-critic迭代推理范式，增强了生成模型的噪声鲁棒性。实验结果表明，ViDoRAG在ViDoSeek数据集上相较于强基线有超过10%的性能提升，确立了新的技术水平。

使用方法

使用ViDoSeek数据集首先需要通过Git LFS下载标注文件和原始文档，之后可以通过提供的脚本将原始文件转换为图像。用户可以选择使用传统的OCR模型或视觉语言模型（VLMs）进行图像中的文本识别。运行ViDoRAG框架需要构建索引数据库，运行多模态检索模块，执行多智能体生成，并通过端到端的评估方法进行性能评价。

背景与挑战

背景概述

ViDoSeek数据集是一款专为视觉丰富文档检索-推理-答案任务设计的基准，旨在评估大型文档语料库中的 Retrieval-Augmented Generation（RAG）。该数据集由阿里巴巴自然语言处理团队提出，并伴随着ViDoRAG这一创新的RAG框架，采用多智能体actor-critic迭代推理范式，增强生成模型对噪声的鲁棒性。ViDoSeek数据集的创建，为视觉文档检索领域提供了一个全新的测试平台，其设计理念与实验结果在学术界和工业界产生了广泛影响。

当前挑战

ViDoSeek数据集在构建过程中面临的挑战包括：1)如何有效地融合视觉和文本信息，为此引入了基于高斯混合模型（GMM）的多模态混合检索策略；2)如何在保持检索效率的同时，确保推理的准确性和生成模型对噪声的鲁棒性；3)如何设计一个能够处理复杂推理任务的多智能体系统。在所解决的领域问题上，ViDoSeek数据集面临的挑战是如何在视觉丰富的文档中进行有效的信息检索和推理，以准确回答查询问题。

常用场景

经典使用场景

ViDoSeek数据集专为视觉丰富文档的检索-推理-回答任务设计，其经典使用场景在于评估大型文档语料库中的检索增强生成（RAG）模型。该数据集通过多模态检索策略，结合视觉和文本信息，为推理任务提供支持，使得ViDoRAG框架在迭代推理过程中增强生成模型的噪声鲁棒性。

衍生相关工作

基于ViDoSeek数据集的研究衍生出了多种相关的工作，如改进的多模态检索算法、高效的视觉文档推理框架等。这些工作不仅推动了文档检索和生成领域的技术进步，也为视觉问答和视觉推理任务提供了新的研究方向和实验基础。

数据集最近研究