Layout Datasets, Cell Datasets

github2021-06-10 更新2024-05-31 收录

下载链接：

https://github.com/project-anuvaad/layout-mt-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Layout Datasets数据集结合了prima布局数据集(双栏)和印度司法判决(单栏)，包含多种布局类型，如段落、标题、页脚、图像、表格、分隔符和数学公式。每个图像都与一个相应的XML文件(Pascal格式)同名，其中包含布局相关信息，如布局类别、坐标等。Cell Datasets数据集同样结合了prima布局数据集(双栏)和印度司法判决(单栏)，但仅包含一种布局类型——表格。通过预处理，其他布局(段落、图像、标题、页脚、分隔符、数学公式)在图像中被遮盖。每个图像也与一个相应的XML文件(Pascal格式)同名，其中包含表格单元级信息，如类别、坐标等。

The Layout Datasets integrate the prima layout dataset (double-column) and Indian judicial decisions (single-column), encompassing a variety of layout types such as paragraphs, headings, footers, images, tables, separators, and mathematical formulas. Each image is paired with a corresponding XML file (in Pascal format) of the same name, which contains layout-related information, including layout categories and coordinates. Similarly, the Cell Datasets combine the prima layout dataset (double-column) and Indian judicial decisions (single-column), but focus exclusively on one layout type—tables. Through preprocessing, other layouts (paragraphs, images, headings, footers, separators, mathematical formulas) are masked in the images. Each image is also associated with a corresponding XML file (in Pascal format) of the same name, which includes table cell-level information such as categories and coordinates.

创建时间：

2021-04-23

原始信息汇总

Layout Model Training Corpus 概述

数据集类型与版本

Layout 数据集

类型：Layout
版本：1.0
数量：3,911
下载链接：Layout Dataset

Cell 数据集

类型：Cell
版本：1.0
数量：2,609
下载链接：Cell Dataset

数据集描述

Layout 数据集

来源：https://www.primaresearch.org/datasets/Layout_Analysis 和 Indian Judicial Judgements
内容：该数据集结合了 prima layout 数据集（双栏）和印度司法判决（单栏），包含多种布局类型，如段落、标题、页脚、图像、表格、分隔符和数学公式。
格式：每个图像对应一个同名的 XML 文件（Pascal 格式），包含布局相关信息，如布局类别、坐标等。

Cell 数据集

来源：https://www.primaresearch.org/datasets/Layout_Analysis 和 Indian Judicial Judgements
内容：该数据集结合了 prima layout 数据集（双栏）和印度司法判决（单栏），仅包含表格布局。通过预处理，其他布局（段落、图像、标题、页脚、分隔符、数学公式）在图像中被遮盖。
格式：每个图像对应一个同名的 XML 文件（Pascal 格式），包含表格单元级信息，如类别、坐标等。

搜集汇总

数据集介绍

构建方式

Layout Datasets和Cell Datasets的构建基于Prima布局分析数据集和印度司法判决文档的结合。Layout Datasets整合了双栏布局的Prima数据集和单栏布局的印度司法判决文档，涵盖了段落、标题、页脚、图像、表格、分隔符及数学公式等多种布局类型。Cell Datasets则专注于表格布局，通过预处理技术屏蔽了其他布局类型，仅保留表格单元信息。每个图像均配有一个同名的XML文件，采用Pascal格式存储布局或表格单元的类别、坐标等详细信息。

特点

Layout Datasets以其多样化的布局类型为显著特点，适用于复杂的文档布局分析任务。Cell Datasets则专注于表格单元的精确识别，为表格结构分析提供了高质量的数据支持。两个数据集均通过XML文件与图像一一对应，确保了数据的完整性和可追溯性。此外，数据集的来源权威且多样，涵盖了学术研究和实际应用场景，具有较高的实用价值。

使用方法

用户可通过提供的下载链接获取Layout Datasets和Cell Datasets的压缩文件。解压后，每个图像文件与其对应的XML文件配对使用，XML文件中包含了布局或表格单元的详细信息。研究人员可利用这些数据进行文档布局识别、表格结构分析等任务。对于任何使用中的疑问或需要进一步解释，可通过邮件联系数据集提供方获取支持。

背景与挑战

背景概述

Layout Datasets和Cell Datasets是由tarento公司主导构建的，旨在解决文档布局分析和表格单元识别的研究问题。该数据集结合了Prima Research的双栏布局数据集和印度司法判决的单栏文档数据，涵盖了段落、标题、页脚、图像、表格、分隔符和数学公式等多种布局类型。每个图像均配有相应的Pascal格式XML文件，详细记录了布局类别和坐标信息。该数据集的构建为文档布局分析和表格单元识别领域提供了重要的数据支持，推动了相关算法的发展和应用。

当前挑战

该数据集在解决文档布局分析和表格单元识别问题时面临多重挑战。首先，文档布局的多样性和复杂性使得模型需要具备强大的泛化能力，以应对不同格式和结构的文档。其次，表格单元的识别要求模型能够精确区分表格与其他布局元素，这对数据预处理和标注质量提出了较高要求。此外，数据集的构建过程中，如何有效整合来自不同来源的数据并确保标注一致性也是一大挑战。这些挑战不仅影响了模型的训练效果，也对后续的应用场景提出了更高的要求。

常用场景

经典使用场景

Layout Datasets和Cell Datasets在文档布局分析和表格识别领域具有广泛的应用。这些数据集通过结合Prima布局数据集和印度司法判决文档，提供了丰富的布局类型，如段落、标题、页脚、图像、表格等。研究人员可以利用这些数据集训练和验证布局识别模型，特别是在处理多列和单列文档时，能够有效提升模型的泛化能力和准确性。

衍生相关工作

基于这些数据集，许多经典的研究工作得以展开。例如，研究人员开发了基于深度学习的文档布局分析模型，能够高效处理多列文档的复杂布局。此外，这些数据集还催生了表格识别和提取领域的新方法，如基于图像分割的表格单元格识别技术。这些工作不仅推动了相关领域的技术进步，还为后续研究提供了重要的参考和基准。

数据集最近研究