TableBank

Name: TableBank
Creator: OpenDataLab
Published: 2026-05-17 04:30:10
License: 暂无描述

OpenDataLab2026-05-17 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/TableBank

下载链接

链接失效反馈

官方服务：

资源简介：

为了解决对标准开放域表基准数据集的需求，作者提出了一种新颖的弱监督方法来自动创建 TableBank，该方法比现有的用于表分析的人工标记数据集大几个数量级。与传统的弱监督训练集不同，我们的方法不仅可以获得大规模的训练数据，而且可以获得高质量的训练数据。如今，网络上有大量的电子文档，例如 Microsoft Word (.docx) 和 Latex (.tex) 文件。这些在线文档本质上在其源代码中包含表格的标记标签。直观地说，可以通过在每个文档中使用标记语言添加边界框来操作这些源代码。对于 Word 文档，可以在标识每个表格的边界的地方修改内部 Office XML 代码。对于 Latex 文档，也可以在识别表格边界框的地方修改 tex 代码。通过这种方式，可以为商业文档、官方填写、研究论文等各种领域创建高质量的标记数据，这对于大规模的表格分析任务非常有利。 TableBank 数据集总共包含 417,234 个高质量标记表及其在各个领域的原始文档。

To address the demand for standard open-domain table benchmark datasets, the authors proposed a novel weakly-supervised method to automatically create TableBank, which is several orders of magnitude larger than existing manually annotated datasets for table analysis. Unlike traditional weakly-supervised training datasets, our method can acquire not only large-scale training data but also high-quality training data. Nowadays, there are vast amounts of electronic documents on the Internet, such as Microsoft Word (.docx) and LaTeX (.tex) files. Essentially, these online documents contain markup tags for tables within their source code. Intuitively, these source codes can be manipulated by adding bounding boxes using markup languages within each document. For Word documents, the internal Office XML code can be modified at the positions where the boundaries of each table are identified. For LaTeX documents, the .tex source code can also be modified at the positions where the bounding boxes of tables are recognized. In this way, high-quality annotated data can be created for various domains such as business documents, official forms, research papers and more, which is highly beneficial for large-scale table analysis tasks. The TableBank dataset contains a total of 417,234 high-quality annotated tables along with their original source documents across various domains.

提供机构：

OpenDataLab

创建时间：

2022-05-23

搜集汇总

数据集介绍

构建方式

TableBank数据集的构建基于深度学习技术，通过从互联网上收集大量包含表格的文档，并利用OCR（光学字符识别）技术提取表格结构信息。随后，这些表格被标注为不同的类别，如表格类型、行列结构等，以形成一个结构化的数据集。这一过程确保了数据集的多样性和广泛性，为后续的表格识别和分析任务提供了丰富的训练样本。

使用方法

TableBank数据集适用于多种表格相关的机器学习任务，如表格检测、表格结构识别和表格内容提取。研究者和开发者可以利用该数据集训练模型，以提高表格处理系统的准确性和效率。具体使用时，用户可以通过加载数据集中的标注信息，结合深度学习框架进行模型训练和评估。此外，数据集的多样性也使得其适用于跨领域的表格分析任务。

背景与挑战

背景概述

TableBank数据集由阿里巴巴和新加坡国立大学联合创建，旨在推动文档图像中表格检测与识别的研究。该数据集于2019年发布，包含了超过40万张从互联网上收集的文档图像，其中涵盖了多种语言和复杂的表格结构。TableBank的推出填补了文档图像处理领域中表格数据集的空白，为研究人员提供了一个标准化的基准，以评估和改进表格检测与识别算法。其核心研究问题是如何在复杂的文档环境中准确地检测和识别表格，这对于自动化文档处理和信息提取具有重要意义。

当前挑战

TableBank数据集在构建过程中面临了多重挑战。首先，文档图像的多样性，包括不同语言、字体和布局，增加了表格检测的复杂性。其次，表格结构的复杂性，如嵌套表格和跨页表格，使得识别任务更加困难。此外，数据集的标注过程需要高度专业化的知识，以确保标注的准确性和一致性。在应用层面，TableBank解决了文档图像中表格自动提取的难题，但如何进一步提高检测和识别的精度和效率，仍然是该领域研究的重要挑战。

发展历史

创建时间与更新

TableBank数据集由腾讯和香港科技大学于2019年创建，旨在推动文档图像分析领域的发展。该数据集的最新版本于2020年发布，引入了更多的表格图像和增强的标注信息。

重要里程碑

TableBank数据集的创建标志着文档图像分析领域的一个重要里程碑。其首次大规模收集和标注了基于LaTeX和Word文档的表格图像，为表格检测和识别任务提供了丰富的训练数据。2020年的更新进一步扩展了数据集的规模和多样性，增强了其在实际应用中的适用性。此外，TableBank还推动了相关算法的研发，特别是在表格结构识别和内容提取方面，显著提升了模型的性能。

当前发展情况

TableBank数据集目前已成为文档图像分析领域的重要基准之一。其广泛应用于学术研究和工业应用中，推动了表格检测和识别技术的进步。随着深度学习技术的不断发展，TableBank数据集也在不断更新和扩展，以适应新的研究需求和挑战。该数据集的成功应用不仅提升了文档处理系统的自动化水平，还为相关领域的研究提供了宝贵的资源和参考。

发展历程

TableBank数据集首次发表，由腾讯和北京大学联合发布，旨在提供一个大规模的表格检测和识别数据集。
2019年
TableBank数据集首次应用于学术研究，特别是在文档分析和信息提取领域，推动了相关技术的进步。
2020年
TableBank数据集被广泛应用于多个国际竞赛和挑战赛，进一步验证了其在表格处理任务中的有效性。
2021年

常用场景

经典使用场景

在自然语言处理领域，TableBank数据集以其丰富的表格图像和对应的结构化文本而著称。该数据集常用于表格检测与识别任务，通过提供大量高质量的表格图像及其对应的结构化描述，为研究者提供了一个标准化的基准。研究者可以利用TableBank进行表格检测算法的训练与评估，从而推动表格识别技术的发展。

解决学术问题

TableBank数据集解决了表格识别领域中缺乏标准化数据集的问题。传统上，表格识别研究依赖于手工标注的数据，这不仅耗时且成本高昂。TableBank通过提供大规模、高质量的表格图像及其结构化描述，极大地简化了数据获取过程，使得研究者能够更专注于算法创新。这一数据集的出现，显著推动了表格识别技术的进步，并为相关研究提供了坚实的基础。

实际应用

在实际应用中，TableBank数据集被广泛应用于文档自动化处理系统。例如，在金融、法律和科研领域，大量文档包含复杂的表格结构，手动处理这些表格既费时又容易出错。利用TableBank训练的表格识别模型，可以自动提取文档中的表格信息，并将其转换为结构化数据，从而提高文档处理的效率和准确性。此外，该数据集还支持开发智能文档管理系统，进一步提升企业的工作效率。

数据集最近研究