READOC
收藏arXiv2024-09-08 更新2024-09-11 收录
下载链接:
http://arxiv.org/abs/2409.05137v1
下载链接
链接失效反馈官方服务:
资源简介:
READOC数据集是由中国科学院软件研究所和中国信息处理实验室创建的一个统一基准,旨在评估真实文档结构化提取系统。该数据集包含2233个从arXiv和GitHub收集的多样化真实世界文档,涵盖了多种类型、年份和主题。数据集的创建过程包括自动构建PDF-Markdown对,并开发了一个包含标准化、分段和评分模块的评估套件。READOC数据集主要应用于文档结构化提取领域,旨在解决现有评估方法的碎片化和不现实性问题,推动该领域的进一步发展。
The READOC dataset is a unified benchmark developed by the Institute of Software, Chinese Academy of Sciences and the China Information Processing Laboratory, targeted at evaluating real-world document structured extraction systems. This dataset encompasses 2,233 diverse real-world documents collected from arXiv and GitHub, spanning various types, publication years, and thematic categories. The dataset construction process includes automatically generating PDF-Markdown pairs, as well as developing an evaluation suite integrated with standardization, segmentation, and scoring modules. The READOC dataset is primarily applied in the domain of document structured extraction, aiming to address the fragmentation and unrealisticness issues of existing evaluation methods and facilitate further progress in this research field.
提供机构:
中国信息处理实验室,软件研究所,中国科学院,北京,中国
创建时间:
2024-09-08
搜集汇总
数据集介绍

构建方式
READOC数据集通过从arXiv和GitHub收集的2,233份多样化的真实文档构建而成。这些文档涵盖了多种类型、年份和主题,旨在反映现实世界中的复杂性和泛化性。数据集的构建过程包括自动将PDF文档转换为语义丰富的Markdown格式,并开发了一个包含标准化、分段和评分模块的DSE评估S3uite,以进行统一评估。
特点
READOC数据集的主要特点在于其现实性和统一性。它将文档结构化提取定义为一个端到端的任务,即将完整的PDF文档转换为结构化的Markdown文本。此外,数据集涵盖了多种文档类型和主题,确保了评估的全面性和实用性。
使用方法
READOC数据集可用于评估和开发各种文档结构化提取系统。用户可以通过提供的DSE评估S3uite对系统进行统一评估,该套件包括标准化、分段和评分模块。通过评估一系列的流水线工具、专家视觉模型和通用视觉语言模型,用户可以识别当前工作与现实DSE目标之间的差距,并探索新的建模范式。
背景与挑战
背景概述
文档结构化提取(Document Structured Extraction, DSE)旨在从原始文档中提取结构化内容,尽管已有众多DSE系统涌现,但其统一评估仍显不足,严重阻碍了该领域的发展。这一问题主要归因于现有基准范式的碎片化和局部化特征。为解决这些局限性并提供对DSE系统的全面评估,我们引入了名为READOC的新基准,将DSE定义为将非结构化PDF转换为语义丰富的Markdown的现实任务。READOC数据集源自arXiv和GitHub的2,233份多样且真实的文档。此外,我们开发了包含标准化、分段和评分模块的DSE评估S3uite,以对最先进的DSE方法进行统一评估。通过评估一系列管道工具、专家视觉模型和通用视觉语言模型,我们首次识别出当前工作与统一、现实的DSE目标之间的差距。我们期望READOC将催化未来在DSE领域的研究,促进更全面和实用的解决方案。
当前挑战
READOC数据集面临的挑战主要集中在解决领域问题和构建过程中遇到的困难。首先,现有基准通常将DSE分解为不同的子任务,如文档布局分析、光学字符识别、目录提取、阅读顺序检测、表格识别和公式转换,由于其狭窄的关注点、多样化的数据源和不一致的输入输出格式,这些基准缺乏统一的视角来全面评估DSE系统的整体性能。其次,当前研究往往仅针对局部区域进行评估,例如文档布局分析仅识别单个文档页面内的布局块,表格识别将表格块转换为结构化格式,这种局部评估范式忽略了现实世界文档的复杂性,这些文档通常是多页的,具有分散的层次标题,需要长距离依赖来构建全局结构。基准仅评估单个页面或孤立块,无法提供对DSE系统的现实评估。为解决这些问题,我们引入了READOC,这是一个统一的基准,旨在量化现有工作与现实DSE目标之间的差距。
常用场景
经典使用场景
READOC数据集的经典使用场景在于评估和提升文档结构化提取系统的能力。通过将多页PDF文档转换为语义丰富的Markdown文本,READOC提供了一个统一的基准,用于评估现有系统的性能。这种转换不仅涵盖了文本和表格的提取,还包括数学公式的识别和文档结构的解析,从而全面评估系统在处理复杂文档时的表现。
解决学术问题
READOC数据集解决了文档结构化提取领域中缺乏统一评估标准的学术问题。传统的评估方法通常局限于特定的子任务,如文档布局分析或光学字符识别,导致无法全面评估系统的整体性能。READOC通过提供一个包含多种复杂文档的基准,使得研究者能够更准确地评估和比较不同系统的性能,推动该领域的进一步发展。
衍生相关工作
READOC数据集的发布催生了一系列相关研究工作,特别是在文档处理和自然语言处理领域。例如,研究者们基于READOC开发了新的文档结构化提取算法,探索了多模态数据融合的方法,以及改进了现有的视觉语言模型在文档理解中的应用。此外,READOC还激发了对文档处理系统性能评估标准的进一步探讨,推动了该领域的标准化进程。
以上内容由遇见数据集搜集并总结生成



