Table Recognition Set (TabRecSet)

Name: Table Recognition Set (TabRecSet)
Creator: 华南理工大学电子与信息工程学院
Published: 2023-03-27T10:48:51+08:00

arXiv2023-03-27 更新2024-06-21 收录

表格识别

文档分析

数据链接：

https://doi.org/10.6084/m9.figshare.20647788 数据链接链接失效反馈

官方服务：

资源简介：

Table Recognition Set (TabRecSet) 是一个大规模的数据集，专门为野外环境下的端到端表格识别研究设计。该数据集包含38,177个表格，其中20,415个为英文，17,762个为中文，涵盖了从扫描到相机拍摄的各种场景，如文档、Excel表格、考试试卷和财务发票等。TabRecSet的标注非常完整，包括表格主体空间标注、单元格空间与逻辑标注以及文本内容，用于表格检测、表格结构识别和表格内容识别。此外，数据集使用多边形而非传统的边界框或四边形进行空间标注，更适合野外场景中常见的非规则表格。TabRecSet还包含多种表格形式，如规则和非规则表格（旋转、扭曲等），以及完整的和不完整的边框表格。数据集的应用领域旨在解决端到端表格识别中的挑战，特别是在复杂和多变的野外环境中。

Table Recognition Set (TabRecSet) is a large-scale dataset specifically designed for end-to-end table recognition research in in-the-wild scenarios. It contains 38,177 tables, among which 20,415 are in English and 17,762 are in Chinese, covering a wide range of scenarios from scanned documents to camera-captured materials, such as documents, Excel spreadsheets, exam papers and financial invoices. TabRecSet has comprehensive annotations, including spatial annotations of table bodies, spatial and logical annotations of table cells as well as text contents, which support table detection, table structure recognition and table content recognition tasks. Moreover, the dataset adopts polygon-based spatial annotations instead of traditional bounding boxes or quadrilaterals, which is more suitable for irregular tables commonly encountered in in-the-wild scenarios. Additionally, TabRecSet includes diverse table types, such as regular and irregular tables (e.g., rotated, distorted ones) as well as tables with complete and incomplete borders. This dataset aims to address the challenges in end-to-end table recognition, especially in complex and variable in-the-wild environments.

提供机构：

华南理工大学电子与信息工程学院

创建时间：

2023-03-27

搜集汇总

数据集介绍

构建方式

TabRecSet数据集的构建始于数据收集阶段，通过搜索引擎和开源数据集获取大量表格相关图像。随后进行数据清洗，剔除不相关、版权受限、敏感信息等不符合要求的图像。数据标注阶段采用TableMe工具，该工具支持表格位置、结构、内容的标注，并具有自动标注逻辑结构的算法。此外，还设计了自动生成三线表和无线表的算法，以丰富数据集的多样性。数据集包含中文和英文表格，比例约为46.5%和53.5%，共计38.1万张表格。

特点

TabRecSet数据集具有以下特点：1. 大规模：包含超过38,100张真实表格图像，是已知最大数据集WTW的两倍多。2. 野场景：数据来自各种野外场景，包括文档、Excel表格、考试试卷、财务发票等。3. 坚固多样性：包含不同的表格形式，如规则和不规则表格、完整和不完整边框的表格。4. 完整性：每个表格样本的标注都包含其位置、结构和内容。5. 灵活性：使用多边形而非边界框或四边形进行空间标注，以适应不规则表格。6. 双语：包含中文和英文表格。

使用方法

TabRecSet数据集的使用方法如下：1. 从figshare下载数据集。2. 使用提供的Python脚本加载样本并组织成合适的数据结构。3. 根据任务需求，将不同类型或场景的表格进行混合和混合。4. 将混合数据集划分为训练集、验证集和测试集，用于模型训练、验证和测试。5. 使用TableMe工具进行数据标注和检查。

背景与挑战

背景概述

表格识别（TR）是模式识别领域的研究热点之一，旨在从图像中的表格中提取信息。表格识别任务主要包括表格检测（TD）、表格结构识别（TSR）和表格内容识别（TCR）。TD旨在定位图像中的表格，TCR识别文本内容，TSR识别空间和本体（逻辑）结构。目前，真实场景中的端到端TR任务，同时完成这三个子任务，还是一个未被充分探索的研究领域。主要阻碍研究人员的一个因素是缺乏一个基准数据集。为此，我们提出了一个新的名为Table Recognition Set (TabRecSet)的大规模数据集，它包含来自野外多种场景的多样化表格形式，为端到端TR研究提供了完整的注释。TabRecSet是迄今为止最大的端到端TR双语文本数据集，包含38.1K个表格，其中20.4K个为英文，17.7K个为中文。样本具有多种形式，例如边框完整和不完整的表格、规则和不规则的表格（旋转、扭曲等）。场景多种多样，从扫描到相机拍摄图像，从文档到Excel表格，从教育试卷到财务发票。注释完整，包括TD、TSR和TCR的表格主体空间注释、单元格空间和逻辑注释以及文本内容。空间注释使用多边形而不是大多数数据集采用的边界框或四边形。多边形空间注释更适合野外场景中常见的不规则表格。此外，我们还提出了一个名为TableMe的可视化和交互式注释工具，以提高注释的效率和准确性。

当前挑战

目前，真实场景中的端到端TR任务，同时完成这三个子任务，还是一个未被充分探索的研究领域。一个主要的因素是缺乏一个全面的基准数据集。现有的TR数据集通常只提供子任务的注释（TD、TSR和TCR），而不是完整的端到端TR任务。此外，现有数据集的规模较小或场景多样性有限。现有数据集仅使用边界框（Bbox）或四边形作为空间注释，这不能灵活适应形状变化。TabRecSet旨在填补这一研究领域中的空白。TabRecSet包含来自各种野外场景的多样化表格形式，并针对端到端TR任务提供了完整和灵活的注释。TabRecSet包含超过38,100个真实表格图像，是迄今为止最大的数据集。数据是从各种野外场景中收集的，包括文档、Excel表格、考试试卷、财务发票等。它包含了不同形式的表格，例如规则和不规则的表格（旋转、扭曲等）、边框完整（所有线条）和边框不完整的表格。TabRecSet使用多边形而不是边界框来注释表格或单元格的位置，以提供准确和精确的注释。TabRecSet包含了中文和英文表格，分别占总数的46.5%和53.5%。为了加快注释过程并确保数据质量，我们开发了一个名为TableMe的可视化和交互式注释工具。我们还设计了几个自动技术，例如自动注释表格结构和自动生成三线和无边框表格，以促进野外场景中的端到端TR任务。

常用场景

经典使用场景

在计算机视觉和模式识别领域，表格识别（TR）是一项关键的研究热点，旨在从图像中的表格中提取信息。TabRecSet数据集被广泛用于端到端表格识别研究，包括表格检测（TD）、表格结构识别（TSR）和表格内容识别（TCR）三个子任务。数据集的多样性使其适用于各种场景，如文档图像、考试试卷、财务发票等。此外，TabRecSet是首个双语文本数据集，包含英语和中文表格，为跨语言表格识别研究提供了宝贵资源。

衍生相关工作

TabRecSet数据集的发布推动了表格识别领域的研究进展，并衍生出许多相关经典工作。例如，基于TabRecSet数据集，研究者提出了许多新的端到端表格识别模型，如TableMaster、TGRNet等，这些模型在表格检测、结构识别和内容识别等任务上取得了优异的性能。此外，TabRecSet数据集还促进了表格识别领域的工具和方法的发展，如TableMe标注工具、TSR自动标注算法等，这些工具和方法极大地提高了数据标注和模型训练的效率。总之，TabRecSet数据集为表格识别领域的研究和应用提供了重要的数据基础和推动力量，为未来的研究工作指明了方向。

数据集最近研究

Table Recognition Set (TabRecSet)

资源简介：

相关数据集