Table-Generator

github2021-11-23 更新2024-05-31 收录

下载链接：

https://github.com/phantom820/Table-Generator

下载链接

链接失效反馈

官方服务：

资源简介：

Table-Generator项目旨在生成一个合成数据集，用于开发表格检测和表格结构识别方法，以便从扫描文档中提取表格数据。该数据集包含从LaTeX、HTML和Word生成的表格，重点考虑了不同结构/样式的表格，而不关注表格的实际内容。

The Table-Generator project aims to create a synthetic dataset for the development of table detection and table structure recognition methods, facilitating the extraction of table data from scanned documents. This dataset comprises tables generated from LaTeX, HTML, and Word, with a focus on tables of varying structures/styles, without regard to the actual content of the tables.

创建时间：

2021-11-16

原始信息汇总

数据集概述

数据集目的

本数据集旨在生成一个合成数据集，用于开发表检测和表结构识别方法，以便从扫描文档中提取表格数据。数据集中的表格来自LaTeX、HTML和Word格式，重点在于表格的结构和样式，而非内容。

数据集组成

Raw Image: 包含表格的实际图像（PNG格式）。
Mask: 二值图像（PNG格式），用于本地化表格。
Annotation: JSON文件，包含表格的详细信息，如表格数量、边界框和结构。

配置参数

sample_size: 生成数据点的数量。
types: 数据集中可能出现的表格类型列表。
parallel: 指定数据集是否并行生成。
img_path: 输出图像的存储路径。
mask_path: 输出掩码的存储路径。
annotation_path: 注释文件的存储路径。

生成环境

操作系统：Ubuntu 20.04.3 LTS。
处理器：Intel® Core™ i7-8750H CPU @ 2.20GHz × 12。
内存：15.5 GiB。

数据集统计

Latex:
- 图像尺寸：1700 × 2200 × 3。
- 图像数量：10,000。
- 表格数量：25,210。
- 大小：11.5 GB。
- 生成时间：2.35小时。
Html:
- 图像尺寸：1653 × 2339 × 3。
- 图像数量：10,000。
- 表格数量：25,276。
- 大小：14.2 GB。
- 生成时间：1.5小时。
Word:
- 图像尺寸：1700 × 2200 × 3。
- 图像数量：10,000。
- 表格数量：21,854。
- 大小：13.8 GB。
- 生成时间：1.15小时。

总数据集信息

总生成时间：5小时。
总存储空间：40 GB。

搜集汇总

数据集介绍

构建方式

Table-Generator数据集旨在为表格检测和表格结构识别方法提供合成数据，以支持从扫描文档中提取表格数据的研究。该数据集通过生成来自LaTeX、HTML和Word的表格，重点考虑了表格的不同结构和样式，而非具体内容。数据生成过程依赖于配置文件中定义的参数，如样本大小、表格类型以及输出路径等，通过运行主脚本实现数据集的自动生成。

特点

Table-Generator数据集的特点在于其多样化的表格结构和样式，涵盖了LaTeX、HTML和Word三种来源的表格。每个数据点包含原始图像、掩码图像和标注文件，其中标注文件以JSON格式存储了表格的数量、边界框和结构信息。数据集规模庞大，包含超过70,000个表格，总存储容量达40GB，为表格检测和结构识别任务提供了丰富的训练和测试资源。

使用方法

使用Table-Generator数据集时，首先需安装相关依赖并配置环境，包括Python 3.8及以上版本的支持。通过运行主脚本`main.py`，用户可根据配置文件中的参数生成所需的数据集。生成的数据包括原始图像、掩码图像和标注文件，分别存储于指定路径。用户可根据研究需求调整配置文件中的参数，如样本大小、表格类型等，以生成符合特定任务需求的数据集。

背景与挑战

背景概述

Table-Generator数据集诞生于数字数据爆炸式增长的时代背景下，旨在解决表格数据自动检测与结构识别的技术难题。该数据集由研究人员通过合成方法生成，主要来源于LaTeX、HTML和Word文档中的表格结构。其核心研究问题聚焦于如何从扫描文档中高效提取表格数据，进而推动文档自动化处理技术的发展。该数据集的创建时间为近期，主要研究人员或机构未明确提及，但其对文档处理、信息提取等领域具有显著影响力，特别是在发票、收据、医疗记录等日常数据的自动化处理方面。

当前挑战

Table-Generator数据集面临的挑战主要集中在两个方面。首先，在领域问题层面，尽管表格对人类而言易于识别和解释，但对机器而言却是一项复杂的任务。表格的多样性和复杂性，如不同样式、结构和布局，使得自动检测和识别技术面临巨大挑战。其次，在数据集构建过程中，研究人员需克服生成高质量合成数据的难题，包括确保表格结构的多样性和真实性，同时还需处理大规模数据生成的计算资源与时间成本。此外，如何有效标注表格数据并生成掩码图像，也是构建过程中不可忽视的技术难点。

常用场景

经典使用场景

Table-Generator数据集在表格检测和表格结构识别领域具有广泛的应用。通过生成包含不同样式和结构的表格图像及其对应的掩码和注释文件，该数据集为研究人员提供了一个标准化的测试平台。特别是在处理扫描文档中的表格数据时，该数据集能够有效模拟真实场景中的表格多样性，从而帮助开发更精确的自动化表格识别算法。

解决学术问题

Table-Generator数据集解决了表格检测和结构识别领域中的关键问题。传统方法在处理复杂表格结构时往往表现不佳，而该数据集通过提供多样化的表格样式和结构，使得研究人员能够训练和验证更鲁棒的模型。这不仅提升了表格识别的准确性，还为表格数据的自动化提取提供了技术基础，推动了文档数字化处理的进一步发展。

衍生相关工作

基于Table-Generator数据集，许多经典研究工作得以展开。例如，研究人员开发了基于深度学习的表格检测模型，显著提升了复杂表格的识别精度。此外，该数据集还催生了多模态表格识别方法，结合图像和文本信息，进一步优化了表格数据的提取效果。这些工作不仅推动了表格识别技术的发展，也为相关领域的研究提供了宝贵的参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集