Document Haystack

Name: Document Haystack
Creator: 亚马逊 AGI
Published: 2025-07-19 03:33:15
License: 暂无描述

arXiv2025-07-19 更新2025-07-24 收录

下载链接：

https://huggingface.co/datasets/AmazonScience/document-haystack

下载链接

链接失效反馈

官方服务：

资源简介：

Document Haystack是一个全面的基准测试，旨在评估视觉语言模型(VLMs)在长篇复杂文档中检索关键多模态信息的能力。数据集包含400个文档变体，总共8250个问题，涵盖从5页到200页不等的文档，并在文档的不同深度和格式中插入纯文本或文本+图像“针”以挑战VLMs的检索能力。该数据集支持一个客观、自动化的评估框架，并提供了对VLMs在处理长篇视觉文档方面的性能的全面评估。

Document Haystack is a comprehensive benchmark designed to evaluate the ability of vision-language models (VLMs) to retrieve critical multimodal information from long-form complex documents. The dataset includes 400 document variants, with a total of 8250 questions, covering documents ranging from 5 to 200 pages in length. "Needles" of plain text or text-plus-image content are inserted at varying depths and across different document formats to challenge the retrieval capabilities of VLMs. This dataset supports an objective and automated evaluation framework, and provides a comprehensive assessment of VLMs' performance when processing long-form visual documents.

提供机构：

亚马逊 AGI

创建时间：

2025-07-19

搜集汇总

数据集介绍

构建方式

Document Haystack数据集的构建基于对多模态大语言模型在长文档理解能力上的评估需求。该数据集选用了25份超过200页的公开财务10K报告作为基础文档，通过精心裁剪生成了5至200页不等的400种文档变体。研究团队在文档中策略性地植入了纯文本或图文混合的“needles”（关键信息），这些信息以键值对形式呈现，并分布在文档的不同深度和位置。为确保评估的全面性，数据集包含了8,250个问题，并支持PDF、图像和纯文本三种格式，以适应不同模型的输入需求。

特点

Document Haystack的显著特点在于其针对长文档和多模态信息的系统性设计。数据集不仅涵盖了从5页到200页的广泛文档长度，还通过纯文本和图文混合两种needle类型，全面评估模型在不同模态下的信息检索能力。文档中的needle分布经过精心设计，确保在不同深度和位置均有覆盖，从而能够有效测试模型的长上下文处理能力。此外，数据集提供了丰富的元数据，包括needle的页面位置、坐标、颜色和尺寸等，为深入研究模型性能提供了多维度的分析基础。

使用方法

使用Document Haystack进行评估时，研究人员可通过提供的标准化问题（如“文档中的秘密运动是什么？”）测试模型在长文档中检索特定信息的能力。数据集支持三种输入格式：原始PDF、分页图像和提取的纯文本，用户可根据模型特性选择合适的格式。评估过程通过自动化框架完成，系统会比对模型输出与预设答案的一致性，并生成准确率报告。对于图文混合needle，数据集还包含了同义词列表以兼容不同的表述方式，确保评估的客观性。

背景与挑战

背景概述

Document Haystack是由Amazon AGI团队于2024年提出的长文本多模态文档理解基准测试集，旨在解决当前视觉语言模型（VLMs）在长文档处理领域的评估空白。该数据集包含400个5至200页不等的金融文档变体，通过战略性地在文档不同深度插入纯文本或图文混合的“needle”信息，构建了8,250个评估问题。其创新性体现在首次系统评估了VLMs在复杂长文档中的多模态信息检索能力，为法律、医疗、金融等依赖长文档解析的领域提供了重要的基准工具。

当前挑战

该数据集面临的核心挑战包含两个维度：在领域问题层面，需解决长文档多模态理解中信息检索准确率随文档长度显著下降的问题（如实验显示图文混合检索准确率最低降至40%）；在构建技术层面，需克服长文档结构复杂性带来的标注难题，包括跨页视觉元素关联、多模态needle的语义一致性维护，以及保持原始PDF文档结构与转换图像/文本格式间的评估等效性。

常用场景

经典使用场景

在文档理解与多模态信息检索领域，Document Haystack数据集通过模拟真实场景中的长文档处理需求，为视觉语言模型（VLMs）提供了标准化的评估框架。该数据集的核心应用场景聚焦于测试模型在5至200页金融报告等复杂文档中定位文本或图文混合“关键信息”（needles）的能力，通过系统设计的8,250个问题，量化评估模型在长上下文、多模态环境下的信息提取准确率。

解决学术问题

该数据集有效解决了当前多模态大模型研究中长文档处理评估体系缺失的痛点。通过构建包含文本与图文混合 needles 的层次化测试集，揭示了现有VLMs在长视觉文档中信息检索的性能边界（如200页文档图文检索准确率下降30%），为模型架构优化提供了明确方向。其自动化评估框架首次实现了跨文档长度、跨模态任务的标准化对比，推动了文档理解领域从短文本向长上下文、从单一模态向多模态协同的研究范式转变。

衍生相关工作

该数据集催生了长文档理解领域的系列创新研究：MM-NIAH通过扩展提示长度优化了多模态检索性能；M-LongDoc提出基于检索增强的文档处理框架；后续工作如SlideVQA进一步将评估场景细化至幻灯片等特定文档类型。这些衍生研究共同构建了从基础能力评估（Document Haystack）到垂直场景优化（如Loong的法律文档分析）的完整技术链条，持续推动VLMs在真实业务场景中的落地应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集