National Archives Forms Dataset

github2024-05-15 更新2024-05-31 收录

下载链接：

https://github.com/herobd/NAF_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自美国国家档案馆的表格图像，这些图像被标注了文本边界框、类别、关系和转录。数据集旨在捕捉表格图像中文本/手写实体之间的关系。

This dataset comprises table images sourced from the U.S. National Archives, which have been annotated with text bounding boxes, categories, relationships, and transcriptions. The dataset is designed to capture the relationships between text/handwritten entities within table images.

创建时间：

2019-06-27

原始信息汇总

数据集概述

数据集名称

National Archives Forms Dataset

版本信息

版本3：
- 增加了打印文本转录，主要来自Tesseract OCR。
- 测试/验证集的转录进行了手工校正，训练集仅部分手工校正。
- 包含一些额外的校正。
版本2：
- 修正了多种标注错误。
- 增加了测试/验证集的转录。
- 增加了训练集的手写转录（虽有噪声）。

数据来源

由美国国家档案馆和FamilySearch提供图像。

数据用途

旨在捕捉表单图像中文本/手写实体之间的关系。
部分转录已添加（训练集中的打印文本缺失），无计划添加更多。

数据组织

表单图像按“组”组织，每组包含相同类型的表单图像。
每组目录内包含JPG和JSON文件，文件名相同（扩展名除外）。

数据内容

JSON文件包含以下信息：
- imageFilename: 图像文件名
- width & height: 原始图像尺寸
- fieldBBs & textBBs: 字段/文本边界框列表
- pairs: 文本和字段框之间的关系对
- samePairs: 文本与文本或字段与字段之间的关系对
- transcriptions: 边界框ID到字符串转录的映射
- actualPage_corners: 物理页面角落坐标
- page_corners: 假设页面为多边形的角落坐标
- horzLinks: 水平线列表，每条线由形成连续水平线的框ID组成

特殊字符

"«text»"：表示“text”有删除线
"¿"：表示转录者无法读取的字符
"§"：表示整行或单词不可读
"" (空字符串)：表示字段为空白

引用信息

若使用此数据集，请引用论文：
- B. Davis, B. Morse, S. Cohen, B. Price, C. Tensmeyer, "Deep Visual Template-Free Form Parsing," in International Conference on Document Analysis and Recognition (ICDAR), 2019.

搜集汇总

数据集介绍

构建方式

该数据集由美国国家档案馆和FamilySearch提供的图像构建而成。数据集的构建过程包括对图像进行标注，标注工具可在GitHub上找到。标注内容包括图像文件名、图像尺寸、字段和文本的边界框、字段和文本之间的关系、以及转录文本等。每个图像文件对应一个JSON文件，JSON文件中包含了详细的标注信息，如字段和文本的类型、唯一标识符、是否为空白等。此外，数据集还记录了物理页面的角点坐标和页面实际多边形的角点坐标，以及水平线的标注信息。

特点

该数据集的主要特点在于其丰富的标注信息和多样化的图像内容。数据集中的图像涵盖了多种表单类型，每种表单类型被组织成一个“组”，每个组内包含相同类型的表单图像。标注信息不仅包括字段和文本的边界框，还详细记录了它们之间的关系，如字段与文本的配对关系、文本与文本或字段与字段之间的关系等。此外，数据集还提供了部分转录文本，尽管训练集中的打印文本转录尚不完整。

使用方法

使用该数据集时，用户需先从GitHub发布页面下载`labeled_images.tar.gz`文件，并将其放置在数据集目录的根目录下。随后运行`move_images.sh`脚本，该脚本将提取图像并将其放置在正确的组目录中。数据集的配置文件期望数据集目录嵌套在`data`目录中，与代码库目录同级。用户可以通过解析JSON文件获取详细的标注信息，并利用这些信息进行表单解析和理解任务的研究与开发。

背景与挑战

背景概述

National Archives Forms Dataset（国家档案馆表格数据集）是由美国国家档案馆和FamilySearch合作创建的，旨在解决表格图像中文字与手写实体之间关系的识别问题。该数据集首次发布于2019年，与论文《Deep Visual Template-Free Form Parsing》一同推出，随后在2021年和2022年分别通过《Visual FUDGE: Form Understanding via Graph Editing》和《End-to-end Document Recognition and Understanding with Dessurt》进行了更新。数据集的核心研究问题是如何在无模板的情况下解析表格图像中的文本和手写内容，并捕捉它们之间的关系。该数据集的发布对文档分析与识别领域产生了重要影响，尤其是在自动化表格解析和理解方面。

当前挑战

该数据集在构建过程中面临了多项挑战。首先，表格图像中的文本和手写内容混杂，识别和区分这些内容具有较高的复杂性。其次，数据集的标注过程需要精确捕捉文本与字段之间的关联，这对标注工具和人工校正提出了高要求。此外，数据集的版本更新中，尽管增加了打印文本的转录，但训练集的转录质量仍然较低，且缺乏进一步改进的计划。最后，数据集中包含大量未标注的图像，如何有效利用这些未标注数据也是一个亟待解决的问题。

常用场景

经典使用场景

国家档案表格数据集（National Archives Forms Dataset）在文档分析与识别领域中，主要用于解析和理解非模板化的表格图像。该数据集通过提供包含手写和打印文本的表格图像及其对应的标注信息，使得研究者能够训练和评估模型在复杂表格结构中的文本识别与关系提取能力。其经典使用场景包括但不限于：表格图像的自动解析、文本与字段关系的识别、以及手写与打印文本的区分与转录。

衍生相关工作

基于国家档案表格数据集，研究者们开发了多种先进的文档解析算法，如“Deep Visual Template-Free Form Parsing”、“Visual FUDGE: Form Understanding via Graph Editing”和“End-to-end Document Recognition and Understanding with Dessurt”。这些工作不仅提升了表格解析的准确性，还推动了文档理解领域的技术进步。此外，该数据集还激发了对手写与打印文本混合场景下的识别与转录技术的深入研究，促进了相关领域的学术交流与合作。

数据集最近研究