READoc

github2024-11-14 更新2024-11-28 收录

下载链接：

https://github.com/icip-cas/READoc

下载链接

链接失效反馈

官方服务：

资源简介：

READoc是一个统一的真实文档结构化提取基准，旨在从原始文档中提取结构化内容。该数据集包含2,233个来自arXiv和GitHub的多样化真实世界文档，分为READoc-arXiv和READoc-GitHub两个子集。READoc-arXiv子集包含复杂的学术结构，如公式和表格，而READoc-GitHub子集则包含基本的段落和标题。

READoc is a unified real-world document structured extraction benchmark designed to extract structured content from raw documents. This dataset contains 2,233 diverse real-world documents sourced from arXiv and GitHub, and is divided into two subsets: READoc-arXiv and READoc-GitHub. The READoc-arXiv subset includes complex academic structures such as formulas and tables, while the READoc-GitHub subset contains basic paragraphs and headings.

创建时间：

2024-11-03

原始信息汇总

READoc 数据集概述

数据集简介

READoc 是一个用于文档结构化提取（Document Structured Extraction, DSE）的统一基准数据集。该数据集旨在评估从非结构化PDF文档中提取结构化内容的能力，并提供了一个全面的评估框架。

数据集来源

READoc 数据集包含2,233份来自arXiv和GitHub的真实世界文档，分为两个子集：

READoc-arXiv: 包含1,009份文档，主要来自arXiv，具有复杂的学术结构，如公式和表格，以及多列布局模板。
READoc-GitHub: 包含1,224份文档，主要来自GitHub，包含基本的段落和标题，采用统一的单列布局风格。

数据集特点

复杂性: READoc-arXiv 子集具有复杂的学术结构和多列布局，而 READoc-GitHub 子集则相对简单，主要包含基本的段落和标题。
多样性: 数据集涵盖了多种类型的文档，包括学术论文和项目文档，提供了广泛的评估场景。

数据集使用

数据准备

数据集尚未完全发布，当前仅提供少量示例文档供参考。
完整的数据集可在 huggingface 获取。

评估流程

数据集支持多种DSE系统的评估，包括常用的简单基线、深度学习模型组合的管道工具、专家视觉模型以及开放和封闭的大型视觉语言模型（VLMs）。
评估流程包括标准化、分段和评分三个模块，可通过以下命令进行评估： bash SYSTEM=[pymupdf4llm|marker|nougat|internvl-chat-v1-5|gpt-4o-mini] SUBSET=[arxiv|github] bash scripts/evaluation.sh

引用

如果您使用该数据集或受到该工作的启发，请考虑引用以下文献： bibtex @article{li2024readoc, title={READoc: A Unified Benchmark for Realistic Document Structured Extraction}, author={Li, Zichao and Abulaiti, Aizier and Lu, Yaojie and Chen, Xuanang and Zheng, Jia and Lin, Hongyu and Han, Xianpei and Sun, Le}, journal={arXiv preprint arXiv:2409.05137}, year={2024} }

搜集汇总

数据集介绍

构建方式

在文档结构化提取（DSE）领域，现有的评估基准存在碎片化和局部化的显著问题，阻碍了该领域的进步。为此，我们构建了READoc数据集，旨在提供一个统一的、现实的DSE任务评估平台。READoc数据集由2,233份来自arXiv和GitHub的真实世界文档组成，涵盖了学术和工程文档的多样性。通过将这些非结构化的PDF文档转换为语义丰富的Markdown格式，READoc数据集不仅提供了丰富的数据资源，还开发了一套包含标准化、分割和评分模块的DSE评估套件，以全面评估当前最先进的DSE方法。

特点

READoc数据集的显著特点在于其多样性和真实性。数据集包含来自arXiv的1,009份文档和来自GitHub的1,224份文档，分别代表了学术和工程领域的不同挑战。arXiv子集包含复杂的学术结构，如公式和表格，以及多列布局模板，而GitHub子集则以简单的段落和标题为主，采用统一的单列布局。此外，READoc数据集还提供了详细的评估套件，包括标准化、分割和评分模块，确保了对DSE系统的全面和细致评估。

使用方法

使用READoc数据集进行评估，首先需要设置环境，安装必要的工具如Pandoc，并配置相关的DSE系统环境。数据集目前仅提供部分样本文档，完整数据集可通过Hugging Face获取。用户可以通过运行特定的脚本，如`pdf_to_markdown.sh`，将PDF文档转换为Markdown格式，并使用`evaluation.sh`脚本进行评估。评估过程包括标准化、分割和评分三个模块，确保了对DSE系统的全面评估。用户还可以提交生成的Markdown文件，由数据集维护者计算评估分数并更新排行榜。

背景与挑战

背景概述

文档结构化提取（Document Structured Extraction, DSE）旨在从原始文档中提取结构化内容，尽管已有众多DSE系统（如Marker、Nougat、GPT-4）涌现，但其统一评估仍显不足，严重阻碍了该领域的进步。这一问题主要归因于现有基准范式的碎片化和局部化特征。为解决这些局限性，并提供对DSE系统的全面评估，我们引入了名为READoc的新基准，将DSE定义为将非结构化PDF转换为语义丰富的Markdown的现实任务。READoc数据集源自2,233份多样且真实的arXiv和GitHub文档。此外，我们开发了包含标准化、分段和评分模块的DSE评估套件，以对最先进的DSE方法进行统一评估。通过评估一系列管道工具、专家视觉模型和通用视觉语言模型（VLMs），我们首次识别出当前工作与统一、现实的DSE目标之间的差距。我们期望READoc能催化未来DSE研究，促进更全面和实用的解决方案。

当前挑战

READoc数据集面临的挑战包括：首先，从2,233份多样且真实的文档中提取结构化信息，这些文档来自arXiv和GitHub，具有复杂的学术结构和多列布局模板，增加了数据处理的复杂性。其次，构建一个包含标准化、分段和评分模块的DSE评估套件，以确保对不同DSE系统的统一评估，这需要精确的算法设计和实现。此外，READoc旨在解决现有基准范式的碎片化和局部化问题，这要求在评估过程中考虑多种因素，如文档的多样性、复杂性和实际应用场景，以确保评估结果的全面性和准确性。

常用场景

经典使用场景

在文档结构化提取（DSE）领域，READoc数据集的经典使用场景主要集中在评估和比较不同DSE系统的性能。通过将2,233份来自arXiv和GitHub的真实文档转换为Markdown格式，READoc提供了一个统一的基准，用于评估各种DSE方法，包括传统的流水线工具、专家视觉模型以及大型视觉语言模型（VLMs）。这一过程不仅揭示了当前技术与实际需求之间的差距，还为未来的研究提供了宝贵的参考。

解决学术问题

READoc数据集解决了文档结构化提取领域中长期存在的评估标准不统一的问题。传统方法往往依赖于碎片化和局部化的评估标准，导致研究进展受阻。通过引入READoc，研究者能够在一个统一的框架下评估不同DSE系统的性能，从而推动该领域向更加全面和实用的方向发展。这一创新不仅提升了评估的准确性和公正性，还为未来的研究提供了坚实的基础。

衍生相关工作

READoc数据集的推出催生了一系列相关的经典工作。例如，研究者基于READoc开发了新的评估框架和算法，进一步提升了文档结构化提取的准确性和效率。此外，READoc还激发了对多模态数据处理的研究，推动了视觉语言模型（VLMs）在文档处理中的应用。这些衍生工作不仅丰富了DSE领域的研究内容，还为实际应用提供了更多创新解决方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集