ViDoSeek

Hugging Face2025-02-27 更新2025-02-28 收录

下载链接：

https://huggingface.co/datasets/autumncc/ViDoSeek

下载链接

链接失效反馈

官方服务：

资源简介：

ViDoSeek数据集是一个针对视觉丰富文档检索-推理-回答任务设计的基准，完全适用于在大型文档语料库中评估RAG。该数据集包含单跳和多跳查询，提供了多样化的挑战。另外，还提供了经过他们管道优化的SlideVQA-Refined数据集，适用于评估检索增强生成任务。

The ViDoSeek dataset is a benchmark designed for the visually rich document retrieval, reasoning and answering task, and is fully applicable to evaluating Retrieval-Augmented Generation (RAG) over large-scale document corpora. This dataset includes both single-hop and multi-hop queries, presenting diverse challenges. Additionally, the SlideVQA-Refined dataset, optimized via their pipeline, is provided and tailored for evaluating Retrieval-Augmented Generation tasks.

创建时间：

2025-02-25

搜集汇总

数据集介绍

构建方式

ViDoSeek数据集的构建，旨在针对视觉丰富的文档检索-推理-回答任务，全面适应大规模文档语料库中RAG的评价需求。该数据集的构建依托于多文档上下文，以及内容类型尤其是布局类别的复杂性，包含单跳和多跳查询，以展现多样化的挑战。

使用方法

用户可以通过访问数据集的JSON格式注释来使用ViDoSeek。每个注释包含一个唯一标识符以区分不同的查询，查询内容，参考答案，以及元信息，如原始文件名、参考页码、数据源类型和查询类型。这些信息使得用户能够有效地进行数据集的加载、解析和应用，进而对检索增强生成模型进行评估和优化。

背景与挑战

背景概述

ViDoSeek数据集是一项针对视觉丰富文档检索-推理-回答任务而专门设计的基准，适用于评估大型文档语料库中的检索增强生成（RAG）模型。该数据集由Qiuchen Wang等研究人员于2025年创建，并在arXiv上发表了相关论文。ViDoSeek数据集的特色在于其高难度级别，这主要归因于多文档上下文和内容类型的复杂性质，尤其是布局类别。该数据集包含单跳和多跳查询，为研究提供了丰富的挑战多样性。

当前挑战

在研究领域，ViDoSeek数据集面临的挑战主要包括：1）如何处理多文档上下文中的复杂信息检索任务，尤其是当涉及到非结构化或半结构化数据时；2）如何应对布局类别中的视觉信息处理问题，这些信息通常更加复杂和难以解析；3）构建过程中遇到的挑战，如确保单跳和多跳查询的平衡，以及如何准确标注和验证参考答案。此外，该数据集还旨在评估检索增强生成任务，这本身就是一个技术挑战，需要模型具备高度的理解和推理能力。

常用场景

经典使用场景

ViDoSeek数据集专为视觉丰富文档检索-推理-回答任务设计，其核心应用场景在于评估大型文档语料库中的检索增强生成（RAG）能力。该数据集因其多文档上下文及内容类型，尤其是布局类别的复杂性质，而具备了高难度的特性。其包含单跳和多跳查询，为研究者和工程师提供了丰富多样的挑战。

解决学术问题

ViDoSeek数据集解决了学术研究中如何有效评估文档检索与内容生成结合的问题。它提供了针对视觉文档的检索增强生成任务的评价基准，对于理解文档内容、推理过程以及生成准确回答的研究具有重大意义。该数据集的引入，为信息检索和自然语言处理领域带来了新的研究方向和挑战。

实际应用

在实际应用中，ViDoSeek数据集可用于提升文献搜索系统的智能化水平，辅助专业人士快速定位文档中的关键信息，进而提高科研效率。此外，它也可被应用于构建更加智能的问答系统，为用户提供精准的答案。

数据集最近研究