DocHaystack
收藏Document Haystacks: Vision-Language Reasoning Over Piles of 1000+ Documents
数据集简介
Document Haystacks 是一个用于评估大规模视觉文档检索和理解能力的基准数据集。该数据集包含两个子集:DocHaystack 和 InfoHaystack,每个问题都映射到一个包含1000多个视觉文档的集合中。与之前的基准不同,DocHaystack 和 InfoHaystack 更准确地代表了大规模文档检索场景,提供了更高的检索准确性和视觉问答挑战。
数据集结构
数据集的组织结构如下:
├── dochaystacks │ ├── data │ │ ├── Train │ │ │ ├── infographicsvqa_images │ │ │ ├── spdocvqa_images │ │ ├── Test │ │ │ ├── DocHaystack_100 │ │ │ ├── DocHaystack_200 │ │ │ ├── DocHaystack_1000 │ │ │ ├── InfoHaystack_100 │ │ │ ├── InfoHaystack_200 │ │ │ ├── InfoHaystack_1000 │ │ ├── test_docVQA.json │ │ ├── test_infoVQA.json │ │ ├── train_specific.json
数据准备
首先,从 Huggingface 🤗 下载 DocHaystack 和 InfoHaystack 基准数据集,然后将下载的数据集放置在 data/* 目录下。
评估
通过执行 scripts/* 目录中提供的脚本,可以评估 LMMs 在 DocHaystack 和 InfoHaystack 上的性能。
bash sh scripts/zero-shot/qwen2vl/.sh sh scripts/zero-shot/llava_ov/.sh sh scripts/zero-shot/gpt4o/.sh sh scripts/zero-shot/gemini/.sh
增强的多图像推理
通过视觉中心检索增强生成(V-RAG)框架,可以增强现有 LMMs 的大规模视觉文档理解能力。首先需要获取视觉中心检索结果并将其保存在 /output/retrieval/* 目录中,然后通过以下命令评估增强后的 LMMs 性能:
bash sh scripts/zero-shot-vrag/qwen2vl/eval.sh sh scripts/zero-shot-vrag/llava_ov/eval.sh sh scripts/zero-shot-vrag/gpt4o/eval.sh sh scripts/zero-shot-vrag/gemini/eval.sh
微调
使用 LLaMA-Factory 对 Qwen2-VL 进行微调,确保 infographicsvqa 和 docvqa 样本数量平衡。
引用
如果使用该数据集和代码,请引用以下论文:
bibtex @article{chen2024document, title={Document Haystacks: Vision-Language Reasoning Over Piles of 1000+ Documents}, author={Chen, Jun and Xu, Dannong and Fei, Junjie and Feng, Chun-Mei and Elhoseiny, Mohamed}, journal={arXiv preprint arXiv:2411.16740}, year={2024} }




