LongDocURL
收藏arXiv2024-12-27 更新2024-12-26 收录
下载链接:
https://github.com/dengc2023/LongDocURL
下载链接
链接失效反馈官方服务:
资源简介:
LongDocURL是一个由中国科学院自动化研究所和阿里巴巴淘宝天猫集团联合创建的多模态长文档基准数据集,旨在评估模型在处理复杂文档元素、长上下文和多样化任务中的能力。该数据集包含2325个高质量问答对,覆盖了超过33,000页的文档,涵盖了理解、推理和定位三大任务,并细分为20个子任务。数据集的构建采用了半自动化的流程,包括文档筛选、问答生成和自动化与人工验证等步骤。LongDocURL的应用领域主要集中在文档理解、数值推理和跨元素定位等任务,旨在解决现有基准在处理长文档和复杂元素时的不足,推动文档理解领域的发展。
LongDocURL is a multimodal long-document benchmark dataset jointly developed by the Institute of Automation, Chinese Academy of Sciences and Alibaba Taobao Tmall Group. It is designed to evaluate the performance of models when dealing with complex document elements, long contexts and diverse tasks. This dataset comprises 2,325 high-quality question-answer pairs, covering documents with a total of over 33,000 pages, and includes three core tasks: comprehension, reasoning and localization, which are further subdivided into 20 subtasks. The construction of LongDocURL follows a semi-automated pipeline, encompassing steps such as document screening, question-answer generation, as well as automated and manual verification. The primary application scenarios of LongDocURL concentrate on document understanding, numerical reasoning and cross-element localization tasks. This benchmark aims to mitigate the limitations of existing benchmarks in handling long documents and complex elements, thereby advancing the development of the document understanding domain.
提供机构:
中国科学院自动化研究所, 中国科学院大学人工智能学院, 阿里巴巴淘宝天猫集团
创建时间:
2024-12-24
原始信息汇总
LongDocURL 数据集概述
数据集简介
- 名称: LongDocURL
- 用途: 评估模型在长文档理解、推理和定位方面的能力。
- 数据量: 包含 2,325 个高质量的问答对,覆盖 396 个 PDF 格式的文档,总计超过 33,000 页。
- 数据格式: PDF 文件和问答对文件(.jsonl)。
数据集获取
- 数据集地址: LongDocURL
- 相关资源:
评估方法
-
下载与提取 PDF 文件:
- 从 LongDocURL 下载 PDF 和问答对文件。
- 使用 PyMuPDF 提取 PDF 文件为 png 和 json 文件,运行以下命令: bash bash utils/run_extract_ccpdf.sh
-
评估 API 模型:
- 运行以下命令进行评估: bash bash scripts/eval_api_models.sh
排行榜
| 模型 | 大小 | 理解能力 | 推理能力 | 定位能力 | 总分 |
|---|---|---|---|---|---|
| GPT-4o-24-05-13 🥇 | - | 68.6 | 59.9 | 59.6 | 64.5 |
| Gemini-1.5-Pro 🥈 | - | 55.7 | 43.4 | 46.4 | 50.9 |
| Qwen-VL-Max 🥉 | - | 58.8 | 43.9 | 36.0 | 49.5 |
| Qwen2-VL | 7B | 36.9 | 24.8 | 22.6 | 30.6 |
| LLaVA-OneVision-Chat | 7B | 30.5 | 19.0 | 18.7 | 25.0 |
| LLaVA-Next-Interleave-DPO | 7B | 21.6 | 13.9 | 7.6 | 16.2 |
| Llama-3.2 | 11B | 12.9 | 9.4 | 2.7 | 9.2 |
搜集汇总
数据集介绍

构建方式
LongDocURL数据集的构建采用了半自动化的流程,涵盖了从文档筛选到问答对生成的多个模块。首先,通过Extract & Filter模块从CommonCrawl中筛选出适合长度的文档,确保文档布局丰富且语言为英文。接着,利用GPT-4o等先进模型进行多步迭代查询,生成高质量的问答对,并通过Automated Verification和Human Verification模块确保数据的准确性和一致性。最终,生成了2,325个问答对,覆盖了超过33,000页的文档内容。
特点
LongDocURL数据集的特点在于其全面性和多样性。数据集涵盖了长文档理解、数值推理和跨元素定位三大任务,并细分为20个子任务,基于不同的任务类型和证据来源。数据集包含多种文档类型,如研究报告、用户手册、书籍等,平均每份文档长达85.6页。此外,数据集的问答对涉及单页和多页信息,且包含跨元素的复杂任务,能够有效评估模型在处理长文档和复杂布局时的能力。
使用方法
LongDocURL数据集的使用方法主要围绕三大任务展开:理解、推理和定位。用户可以通过数据集中的问答对评估模型在长文档中的信息提取能力、数值推理能力以及跨元素定位能力。数据集支持多种输入格式,包括文本和图像输入,用户可以根据需求选择合适的输入方式。此外,数据集提供了详细的证据来源和答案格式,便于用户进行自动化评估和模型性能分析。通过该数据集,用户可以全面评估模型在处理长文档和复杂布局时的表现,并发现模型在文档理解领域的潜在差距。
背景与挑战
背景概述
LongDocURL数据集由中国科学院自动化研究所和阿里巴巴集团的研究团队于2024年提出,旨在解决长文档理解、数值推理和跨元素定位等复杂任务。该数据集包含2,325个高质量问答对,覆盖超过33,000页文档,显著超越了现有的文档理解基准。LongDocURL的提出标志着文档理解领域的一个重要进展,尤其是在处理多页文档和复杂布局元素方面。该数据集不仅为大规模视觉语言模型(LVLMs)提供了新的评估标准,还推动了文档理解技术的进一步发展。
当前挑战
LongDocURL数据集面临的挑战主要体现在两个方面。首先,现有的文档理解基准大多局限于单页文档,无法全面评估模型在多页文档中的表现,尤其是在跨页信息提取和复杂布局元素理解方面。其次,数据集的构建过程中,研究人员面临如何高效生成高质量问答对的难题。尽管采用了半自动化的构建流程,但在确保问答对的准确性和多样性方面仍需大量人工干预。此外,如何有效评估模型在跨元素定位任务中的表现,尤其是在处理表格、图表等复杂元素时,仍是一个亟待解决的问题。
常用场景
经典使用场景
LongDocURL数据集在长文档理解、数值推理和跨元素定位任务中展现了其经典使用场景。通过涵盖超过33,000页文档的2,325个高质量问答对,该数据集为评估大视觉语言模型(LVLMs)在处理复杂文档元素、长上下文和多样化任务中的能力提供了基准。特别是在跨页文档理解和跨元素定位任务中,LongDocURL通过其丰富的布局元素和多页文档结构,显著提升了模型在复杂文档任务中的表现。
实际应用
在实际应用中,LongDocURL数据集可用于评估和改进大视觉语言模型在处理长文档和复杂布局元素时的性能。例如,在法律、医疗和金融等领域,文档通常包含大量跨页信息和复杂的表格、图表等元素。通过在该数据集上进行训练和评估,模型可以更好地理解这些文档的结构和内容,从而在实际应用中提供更准确的问答和推理服务。此外,LongDocURL还可用于开发智能文档处理系统,帮助用户快速定位和提取关键信息。
衍生相关工作
LongDocURL的推出催生了一系列相关研究工作,特别是在多模态长文档理解和跨元素定位任务方面。基于该数据集,研究者们开发了多种新的模型架构和训练方法,以提升模型在长文档任务中的表现。例如,一些研究提出了基于多模态检索增强生成(MM-RAG)的方法,通过动态减少多页文档中的冗余信息,提升了模型的长上下文处理能力。此外,LongDocURL还为其他文档理解基准(如DocVQA和MMLongBench)提供了新的评估标准,推动了该领域的进一步发展。
以上内容由遇见数据集搜集并总结生成



