DocHaystack

github2024-12-17 更新2024-12-18 收录

下载链接：

https://github.com/Vision-CAIR/dochaystacks

下载链接

链接失效反馈

官方服务：

资源简介：

DocHaystack是一个用于评估大规模视觉文档检索和理解能力的基准数据集，每个问题映射到一个包含1000多个视觉文档的集合，旨在更准确地模拟大规模文档检索场景，并提供更高的检索准确性和视觉问答挑战。

DocHaystack is a benchmark dataset for evaluating large-scale visual document retrieval and understanding capabilities. Each query maps to a corpus containing over 1,000 visual documents. It is designed to more accurately simulate real-world large-scale document retrieval scenarios, while enabling more rigorous evaluation of retrieval accuracy and presenting challenging visual question answering tasks.

创建时间：

2024-11-19

原始信息汇总

Document Haystacks: Vision-Language Reasoning Over Piles of 1000+ Documents

数据集简介

Document Haystacks 是一个用于评估大规模视觉文档检索和理解能力的基准数据集。该数据集包含两个子集：DocHaystack 和 InfoHaystack，每个问题都映射到一个包含1000多个视觉文档的集合中。与之前的基准不同，DocHaystack 和 InfoHaystack 更准确地代表了大规模文档检索场景，提供了更高的检索准确性和视觉问答挑战。

数据集结构

数据集的组织结构如下：

├── dochaystacks │ ├── data │ │ ├── Train │ │ │ ├── infographicsvqa_images │ │ │ ├── spdocvqa_images │ │ ├── Test │ │ │ ├── DocHaystack_100 │ │ │ ├── DocHaystack_200 │ │ │ ├── DocHaystack_1000 │ │ │ ├── InfoHaystack_100 │ │ │ ├── InfoHaystack_200 │ │ │ ├── InfoHaystack_1000 │ │ ├── test_docVQA.json │ │ ├── test_infoVQA.json │ │ ├── train_specific.json

数据准备

首先，从 Huggingface 🤗 下载 DocHaystack 和 InfoHaystack 基准数据集，然后将下载的数据集放置在 data/* 目录下。

评估

通过执行 scripts/* 目录中提供的脚本，可以评估 LMMs 在 DocHaystack 和 InfoHaystack 上的性能。

bash sh scripts/zero-shot/qwen2vl/.sh sh scripts/zero-shot/llava_ov/.sh sh scripts/zero-shot/gpt4o/.sh sh scripts/zero-shot/gemini/.sh

增强的多图像推理

通过视觉中心检索增强生成（V-RAG）框架，可以增强现有 LMMs 的大规模视觉文档理解能力。首先需要获取视觉中心检索结果并将其保存在 /output/retrieval/* 目录中，然后通过以下命令评估增强后的 LMMs 性能：

bash sh scripts/zero-shot-vrag/qwen2vl/eval.sh sh scripts/zero-shot-vrag/llava_ov/eval.sh sh scripts/zero-shot-vrag/gpt4o/eval.sh sh scripts/zero-shot-vrag/gemini/eval.sh

微调

使用 LLaMA-Factory 对 Qwen2-VL 进行微调，确保 infographicsvqa 和 docvqa 样本数量平衡。

引用

如果使用该数据集和代码，请引用以下论文：

bibtex @article{chen2024document, title={Document Haystacks: Vision-Language Reasoning Over Piles of 1000+ Documents}, author={Chen, Jun and Xu, Dannong and Fei, Junjie and Feng, Chun-Mei and Elhoseiny, Mohamed}, journal={arXiv preprint arXiv:2411.16740}, year={2024} }

搜集汇总

数据集介绍

构建方式

DocHaystack数据集的构建旨在填补大规模视觉文档检索与理解领域的空白。该数据集通过将每个问题映射到包含1000多个视觉文档的集合中，模拟了真实世界中的大规模文档检索场景。数据集的构建方式包括从Huggingface平台下载DocHaystack和InfoHaystack基准，并将其组织为特定的目录结构，以便于后续的训练和测试。

特点

DocHaystack数据集的主要特点在于其规模和复杂性。与传统的多图像问答基准不同，DocHaystack扩展了文档集合的规模，涵盖了从100到1000多个文档的不同子集，从而更真实地反映了大规模文档检索的挑战。此外，数据集引入了V-RAG框架，通过视觉中心检索增强生成，提升了多模态模型在大规模视觉文档理解中的表现。

使用方法

使用DocHaystack数据集时，用户首先需要从Huggingface下载数据集并按照指定格式组织。随后，可以通过运行提供的脚本进行模型评估，包括零样本测试和视觉中心检索增强的多图像推理。数据集支持多种模型的微调和评估，用户可以根据需求选择合适的模型进行实验，并通过脚本获取模型在不同规模文档集合上的性能表现。

背景与挑战

背景概述

在多模态模型（LMMs）领域，尽管视觉-语言理解取得了显著进展，但在处理大量图像的推理任务上仍显不足。DocHaystack数据集由Jun Chen、Dannong Xu、Junjie Fei、Chun-Mei Feng和Mohamed Elhoseiny等研究人员于2024年提出，旨在填补这一空白。该数据集通过引入两个基准——DocHaystack和InfoHaystack，评估LMMs在大规模视觉文档检索和理解中的表现。与以往的基准不同，DocHaystack和InfoHaystack将每个问题映射到包含1000多个视觉文档的集合，更真实地模拟了大规模文档检索场景，推动了视觉问答和检索准确性的研究前沿。

当前挑战

DocHaystack数据集面临的挑战主要集中在两个方面：一是如何在大规模文档集合中实现高效的视觉检索和问答，这要求模型具备处理海量视觉信息的强大能力；二是构建过程中，如何确保数据集的多样性和复杂性，以全面评估LMMs的性能。此外，数据集的构建还需解决图像分辨率、存储和计算资源等技术难题，以确保模型在实际应用中的可行性和稳定性。

常用场景

经典使用场景

DocHaystack数据集的经典使用场景主要集中在视觉与语言的多模态推理任务中，特别是在处理大规模文档检索和理解方面。该数据集通过提供超过1000份视觉文档的集合，模拟了现实世界中复杂的多图像问答场景。研究者可以利用DocHaystack评估大型多模态模型（LMMs）在处理大规模视觉文档时的表现，尤其是在视觉检索和视觉问答任务中的准确性和效率。

解决学术问题

DocHaystack数据集解决了现有多模态模型在大规模视觉文档推理方面的不足，填补了现有基准测试的空白。通过提供大规模的视觉文档集合，该数据集为研究者提供了一个更具挑战性的环境，以评估和提升模型在复杂视觉问答任务中的表现。这不仅推动了多模态模型的发展，还为视觉与语言推理领域的研究提供了新的基准和方法。

衍生相关工作

DocHaystack数据集的推出激发了大量相关研究工作，特别是在视觉检索增强生成（V-RAG）框架的应用上。许多研究者基于DocHaystack开发了新的模型和算法，以提升多模态模型在大规模文档处理中的表现。此外，该数据集还促进了与其他多模态基准的比较研究，进一步推动了视觉与语言推理领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集