HRDoc

Name: HRDoc
Creator: 中国科学技术大学
Published: 2023-03-24 15:23:56
License: 暂无描述

arXiv2023-03-24 更新2024-06-21 收录

下载链接：

https://github.com/jfma-USTC/HRDoc

下载链接

链接失效反馈

官方服务：

资源简介：

HRDoc是由中国科学技术大学构建的大型数据集，专注于多页文档的细粒度和文档级结构重建任务。该数据集包含2,500个多页文档，近200万个语义单元，每份文档都有线级标注，包括类别和关系，这些信息由基于规则的提取器和人工标注者获取。HRDoc数据集的创建旨在推动文档结构重建的研究，特别是在处理多页文档时，通过提供丰富的标注数据，支持自然语言处理和计算机视觉领域的研究。数据集的应用领域包括文档自动化处理，如将PDF文件转换为可编辑格式，以及其他需要文档结构信息的场景。

HRDoc is a large-scale dataset constructed by the University of Science and Technology of China (USTC), focusing on the fine-grained and document-level structure reconstruction task for multi-page documents. This dataset contains 2,500 multi-page documents and nearly 2 million semantic units. Each document is equipped with line-level annotations including categories and relations, which are collected through rule-based extractors and human annotators. The HRDoc dataset is developed to advance research on document structure reconstruction, especially for multi-page documents, by providing rich annotated data to support studies in the fields of natural language processing (NLP) and computer vision (CV). The application scenarios of the HRDoc dataset include document automation processing such as converting PDF files into editable formats, as well as other scenarios that require document structure information.

提供机构：

中国科学技术大学

创建时间：

2023-03-24

搜集汇总

数据集介绍

构建方式

HRDoc数据集的构建旨在推动文档结构重建的研究，特别是针对多页文档的语义结构重建。数据集包含2,500份多页文档，涉及近200万个语义单元，每份文档都带有行级标注，包括类别和关系。这些标注由基于规则的提取器和人工标注者共同完成。HRDoc数据集分为两部分：HRDoc-Simple和HRDoc-Hard，分别包含1,000份和1,500份文档，布局复杂度各异。HRDoc-Simple主要包含自然语言处理领域的顶级会议论文，而HRDoc-Hard则包含来自17个研究领域的多样化布局文档。

使用方法

使用HRDoc数据集时，研究人员可以进行语义单元分类、父单元查找和关系分类的任务。首先，通过规则和OCR引擎提取文档中的基本语义单元，如文本行、图形、表格和公式区域。然后，利用深度学习技术对这些单元进行标注和关系预测。数据集的标注和模型训练代码将公开发布，方便研究人员进行进一步的研究和应用。HRDoc数据集的构建和使用方法为文档结构重建领域的研究提供了新的视角和工具，有助于推动该领域的发展。

背景与挑战

背景概述

随着商业活动的蓬勃发展，文档结构重建问题在自然语言处理和计算机视觉领域的重要性日益凸显。现有的研究主要集中在单页文档元素边界的分割，而忽略了多页文档中语义结构的重建。为了更好地评估系统在新型任务上的性能，研究人员构建了一个名为HRDoc的大规模数据集，包含约2500份多页文档，近200万个语义单元。每份文档都包含来自基于规则的提取器和人工标注者的行级注释，包括类别和关系。此外，还提出了一个基于编码器-解码器的层次文档结构解析系统（DSPS），通过采用多模态双向编码器和具有软掩码操作的感知结构GRU解码器，DSPS模型在基线方法上取得了显著的提升。

当前挑战

HRDoc数据集面临的挑战主要包括：1) 多页文档中跨页的父节点查找问题；2) 文档布局的多样性和复杂性，使得语义单元的分类和关系的预测变得更具挑战性；3) 如何有效地利用视觉信息和文本信息进行多模态融合，以提高模型的性能和鲁棒性。

常用场景

经典使用场景

HRDoc数据集主要应用于文档结构重建任务，该任务旨在将多页文档转换为相应的语义结构。通过将文档中的文本行、图像、表格和方程区域等基本元素进行语义单元分类、父节点查找和关系分类，HRDoc数据集可以帮助研究人员构建和理解文档的层次语义结构。HRDoc数据集的经典使用场景包括文档理解、文档结构分析、信息提取等。

解决学术问题

HRDoc数据集解决了现有文档结构重建任务中存在的两个主要问题：一是缺乏关注多页文档的语义结构重建的研究；二是缺乏相应的数据集来支持这一任务的研究。HRDoc数据集的建立填补了这一空白，为研究人员提供了大量的多页文档数据，并标注了文档的层次语义结构信息。这有助于推动文档结构重建任务的研究，并为相关算法的开发提供数据支持。

实际应用

HRDoc数据集的实际应用场景非常广泛，包括但不限于：文档数字化、文档理解、信息提取、文档结构分析等。通过使用HRDoc数据集训练的模型，可以实现将扫描的文档或数字文档转换为可编辑格式，例如Markdown或Word等。此外，HRDoc数据集还可以用于构建智能文档管理系统，帮助用户快速地浏览和理解文档内容。HRDoc数据集的实际应用场景还包括文本摘要、问答系统、机器翻译等领域。

数据集最近研究