ViDoSeek

Name: ViDoSeek
Creator: 中国科学技术大学
Published: 2025-02-25 17:26:12
License: 暂无描述

arXiv2025-02-25 更新2025-02-27 收录

下载链接：

https://github.com/Alibaba-NLP/ViDoRAG

下载链接

链接失效反馈

官方服务：

资源简介：

ViDoSeek是一个专为大规模文档集合上的问题回答设计的视觉丰富文档数据集。该数据集由大约1200个问题组成，涵盖了文本、图表、表格和布局四种关键内容类型，并分为单跳和多跳两种推理类型。ViDoSeek旨在更准确地模拟现实世界场景，为评估检索增强生成系统提供更健壮和可扩展的基准。

ViDoSeek is a visually-rich document dataset specifically designed for question answering over large-scale document collections. It consists of approximately 1,200 questions covering four core content types: text, charts, tables, and layout, and is categorized into two inference types: single-hop and multi-hop reasoning. ViDoSeek aims to more accurately simulate real-world scenarios, providing a more robust and scalable benchmark for evaluating retrieval-augmented generation systems.

提供机构：

中国科学技术大学

创建时间：

2025-02-25

搜集汇总

数据集介绍

构建方式

ViDoSeek数据集的构建过程包括文档收集、查询创建、质量审查和跨模态细化四个步骤。首先，我们从经济、技术、文学和地理等12个领域收集了包含25到50页的英文幻灯片，并筛选出同时包含文本、图表、表格和二维布局的300份幻灯片。然后，我们的专家根据文档内容创建了查询，并鼓励构建各种形式和不同来源的查询，以更好地反映现实世界场景。接下来，我们使用一个自动审查模块来识别有问题的查询，以确保每个查询都有唯一的答案。最后，我们使用精心设计的视觉语言模型(VLM)代理来细化不符合标准的查询。ViDoSeek数据集由两部分组成：一部分由我们的AI研究人员从零开始标注，另一部分则从现有的开源数据集SlideVQA中提取并改进查询。

特点

ViDoSeek数据集的特点是专为评估RAG系统在大规模文档集合上的性能而设计的。它包含大约1.2k个问题，涵盖了广泛的领域，并针对四种关键内容类型：文本、图表、表格和布局。此外，查询被分为两种推理类型：单跳和多跳。ViDoSeek数据集旨在解决现有VQA数据集的局限性，这些数据集主要针对单个图像或文档，无法处理从大型集合中检索相关信息。ViDoSeek数据集更准确地反映了现实世界场景，使RAG系统的评估更加健壮和可扩展。

使用方法

ViDoSeek数据集的使用方法如下：首先，从数据集中选择相关的文档和图像，并构建查询。然后，使用ViDoRAG框架中的多模态混合检索模块来检索相关信息，该模块结合了视觉和文本特征，并使用高斯混合模型(GMM)动态调整检索结果分布。接下来，使用多尺度视图生成模块中的多代理生成框架来生成最终答案。该框架包括三个代理：寻求者代理、检查员代理和答案代理。寻求者代理快速扫描缩略图并选择相关的图像，检查员代理审查并提供初步答案，答案代理确保一致性并提供最终答案。这种方法减少了无关信息的暴露，并确保了跨多个尺度的答案一致性。

背景与挑战

背景概述

随着信息表达形式的日益多样化，传统检索增强生成（RAG）方法在理解视觉丰富文档中的信息方面面临挑战。现有的基准数据集主要关注基于图像的问题回答（QA），忽略了在密集视觉文档中进行高效检索、理解和推理的基本挑战。为了填补这一空白，我们介绍了ViDoSeek，这是一个新型数据集，旨在评估RAG在需要复杂推理的视觉丰富文档上的性能。基于此，我们确定了当前RAG方法的关键局限性：（i）纯视觉检索方法难以有效地整合文本和视觉特征，以及（ii）先前方法通常分配的推理标记不足，限制了其有效性。为了解决这些挑战，我们提出了ViDoRAG，这是一个定制的多代理RAG框架，用于在视觉文档中进行复杂推理。ViDoRAG采用基于高斯混合模型（GMM）的混合策略来有效地处理多模态检索。为了进一步激发模型的推理能力，我们引入了迭代代理工作流程，包括探索、总结和反思，为研究RAG领域的测试时间扩展提供了一个框架。在ViDoSeek上的广泛实验验证了我们的方法的有效性和泛化性。值得注意的是，ViDoRAG在具有竞争力的ViDoSeek基准测试中优于现有方法10%以上。

当前挑战

ViDoSeek数据集和相关研究面临的主要挑战包括：1)有效地整合文本和视觉特征，以进行精确的检索；2)在生成过程中激活足够的推理能力，以便进行深入的多跳推理。此外，构建数据集时也面临挑战，例如确保查询的唯一性，以及在大型文档集合中进行高效的信息检索。

常用场景

经典使用场景

ViDoSeek数据集被设计用于评估Retrieval-Augmented Generation (RAG)方法在视觉丰富文档上的性能。该数据集包含多种类型的视觉文档，如图表、表格和布局，为RAG模型提供了复杂的推理任务。ViDoSeek数据集的经典使用场景包括但不限于教育、金融和法律等领域，其中模型需要从大量的文档中检索信息并进行推理，以回答特定的问题。例如，在教育领域，ViDoSeek可以用于评估模型从教科书、讲义和演示文稿中检索和推理信息的能力，从而辅助学生学习和教师教学。

解决学术问题

ViDoSeek数据集解决了当前RAG方法在视觉丰富文档上的几个关键问题。首先，ViDoSeek数据集涵盖了多种类型的视觉文档，包括图表、表格和布局，为RAG模型提供了复杂的推理任务。这使得ViDoSeek成为评估RAG模型在处理视觉丰富文档时的性能的重要基准。其次，ViDoSeek数据集中的每个查询都有一个唯一的答案，这使得模型可以从大量的文档中检索信息并进行推理，以找到正确的答案。这有助于提高RAG模型的准确性和可靠性。此外，ViDoSeek数据集还提供了丰富的多跳推理任务，这有助于评估RAG模型的推理能力和泛化能力。

衍生相关工作

ViDoSeek数据集的引入推动了RAG领域的研究进展。基于ViDoSeek数据集，研究者们提出了ViDoRAG，这是一个多智能体RAG框架，专门用于视觉丰富文档的复杂推理。ViDoRAG引入了混合多模态检索策略，有效地整合了视觉和文本特征，并通过动态迭代推理流程提高了模型的推理能力。此外，ViDoRAG还引入了多尺度视图生成框架，通过多智能体协同工作，从多尺度视角进行推理和答案生成，从而提高了模型的准确性和可靠性。这些相关工作进一步推动了RAG领域的发展，为视觉丰富文档的RAG任务提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集