five

DocHaystack

收藏
github2024-12-17 更新2024-12-18 收录
下载链接:
https://github.com/Vision-CAIR/dochaystacks
下载链接
链接失效反馈
官方服务:
资源简介:
DocHaystack是一个用于评估大规模视觉文档检索和理解能力的基准数据集,每个问题映射到一个包含1000多个视觉文档的集合,旨在更准确地模拟大规模文档检索场景,并提供更高的检索准确性和视觉问答挑战。

DocHaystack is a benchmark dataset for evaluating large-scale visual document retrieval and understanding capabilities. Each query maps to a corpus containing over 1,000 visual documents. It is designed to more accurately simulate real-world large-scale document retrieval scenarios, while enabling more rigorous evaluation of retrieval accuracy and presenting challenging visual question answering tasks.
创建时间:
2024-11-19
原始信息汇总

Document Haystacks: Vision-Language Reasoning Over Piles of 1000+ Documents

数据集简介

Document Haystacks 是一个用于评估大规模视觉文档检索和理解能力的基准数据集。该数据集包含两个子集:DocHaystackInfoHaystack,每个问题都映射到一个包含1000多个视觉文档的集合中。与之前的基准不同,DocHaystack 和 InfoHaystack 更准确地代表了大规模文档检索场景,提供了更高的检索准确性和视觉问答挑战。

数据集结构

数据集的组织结构如下:

├── dochaystacks │ ├── data │ │ ├── Train │ │ │ ├── infographicsvqa_images │ │ │ ├── spdocvqa_images │ │ ├── Test │ │ │ ├── DocHaystack_100 │ │ │ ├── DocHaystack_200 │ │ │ ├── DocHaystack_1000 │ │ │ ├── InfoHaystack_100 │ │ │ ├── InfoHaystack_200 │ │ │ ├── InfoHaystack_1000 │ │ ├── test_docVQA.json │ │ ├── test_infoVQA.json │ │ ├── train_specific.json

数据准备

首先,从 Huggingface 🤗 下载 DocHaystack 和 InfoHaystack 基准数据集,然后将下载的数据集放置在 data/* 目录下。

评估

通过执行 scripts/* 目录中提供的脚本,可以评估 LMMs 在 DocHaystack 和 InfoHaystack 上的性能。

bash sh scripts/zero-shot/qwen2vl/.sh sh scripts/zero-shot/llava_ov/.sh sh scripts/zero-shot/gpt4o/.sh sh scripts/zero-shot/gemini/.sh

增强的多图像推理

通过视觉中心检索增强生成(V-RAG)框架,可以增强现有 LMMs 的大规模视觉文档理解能力。首先需要获取视觉中心检索结果并将其保存在 /output/retrieval/* 目录中,然后通过以下命令评估增强后的 LMMs 性能:

bash sh scripts/zero-shot-vrag/qwen2vl/eval.sh sh scripts/zero-shot-vrag/llava_ov/eval.sh sh scripts/zero-shot-vrag/gpt4o/eval.sh sh scripts/zero-shot-vrag/gemini/eval.sh

微调

使用 LLaMA-Factory 对 Qwen2-VL 进行微调,确保 infographicsvqa 和 docvqa 样本数量平衡。

引用

如果使用该数据集和代码,请引用以下论文:

bibtex @article{chen2024document, title={Document Haystacks: Vision-Language Reasoning Over Piles of 1000+ Documents}, author={Chen, Jun and Xu, Dannong and Fei, Junjie and Feng, Chun-Mei and Elhoseiny, Mohamed}, journal={arXiv preprint arXiv:2411.16740}, year={2024} }

搜集汇总
数据集介绍
main_image_url
构建方式
DocHaystack数据集的构建旨在填补大规模视觉文档检索与理解领域的空白。该数据集通过将每个问题映射到包含1000多个视觉文档的集合中,模拟了真实世界中的大规模文档检索场景。数据集的构建方式包括从Huggingface平台下载DocHaystack和InfoHaystack基准,并将其组织为特定的目录结构,以便于后续的训练和测试。
特点
DocHaystack数据集的主要特点在于其规模和复杂性。与传统的多图像问答基准不同,DocHaystack扩展了文档集合的规模,涵盖了从100到1000多个文档的不同子集,从而更真实地反映了大规模文档检索的挑战。此外,数据集引入了V-RAG框架,通过视觉中心检索增强生成,提升了多模态模型在大规模视觉文档理解中的表现。
使用方法
使用DocHaystack数据集时,用户首先需要从Huggingface下载数据集并按照指定格式组织。随后,可以通过运行提供的脚本进行模型评估,包括零样本测试和视觉中心检索增强的多图像推理。数据集支持多种模型的微调和评估,用户可以根据需求选择合适的模型进行实验,并通过脚本获取模型在不同规模文档集合上的性能表现。
背景与挑战
背景概述
在多模态模型(LMMs)领域,尽管视觉-语言理解取得了显著进展,但在处理大量图像的推理任务上仍显不足。DocHaystack数据集由Jun Chen、Dannong Xu、Junjie Fei、Chun-Mei Feng和Mohamed Elhoseiny等研究人员于2024年提出,旨在填补这一空白。该数据集通过引入两个基准——DocHaystack和InfoHaystack,评估LMMs在大规模视觉文档检索和理解中的表现。与以往的基准不同,DocHaystack和InfoHaystack将每个问题映射到包含1000多个视觉文档的集合,更真实地模拟了大规模文档检索场景,推动了视觉问答和检索准确性的研究前沿。
当前挑战
DocHaystack数据集面临的挑战主要集中在两个方面:一是如何在大规模文档集合中实现高效的视觉检索和问答,这要求模型具备处理海量视觉信息的强大能力;二是构建过程中,如何确保数据集的多样性和复杂性,以全面评估LMMs的性能。此外,数据集的构建还需解决图像分辨率、存储和计算资源等技术难题,以确保模型在实际应用中的可行性和稳定性。
常用场景
经典使用场景
DocHaystack数据集的经典使用场景主要集中在视觉与语言的多模态推理任务中,特别是在处理大规模文档检索和理解方面。该数据集通过提供超过1000份视觉文档的集合,模拟了现实世界中复杂的多图像问答场景。研究者可以利用DocHaystack评估大型多模态模型(LMMs)在处理大规模视觉文档时的表现,尤其是在视觉检索和视觉问答任务中的准确性和效率。
解决学术问题
DocHaystack数据集解决了现有多模态模型在大规模视觉文档推理方面的不足,填补了现有基准测试的空白。通过提供大规模的视觉文档集合,该数据集为研究者提供了一个更具挑战性的环境,以评估和提升模型在复杂视觉问答任务中的表现。这不仅推动了多模态模型的发展,还为视觉与语言推理领域的研究提供了新的基准和方法。
衍生相关工作
DocHaystack数据集的推出激发了大量相关研究工作,特别是在视觉检索增强生成(V-RAG)框架的应用上。许多研究者基于DocHaystack开发了新的模型和算法,以提升多模态模型在大规模文档处理中的表现。此外,该数据集还促进了与其他多模态基准的比较研究,进一步推动了视觉与语言推理领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作