bsmock/pubtables-1m
收藏Hugging Face2023-08-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bsmock/pubtables-1m
下载链接
链接失效反馈官方服务:
资源简介:
PubTables-1M是一个用于从非结构化文档中提取表格的综合数据集。它包含用于表格检测和结构识别的训练和评估数据,以及源PDF文件的详细注释。数据集以18个tar.gz文件形式提供,分别包含训练、验证和测试集的图像和注释文件。数据集的目标是支持表格提取任务,特别是从PubMed PDF文档中提取表格。
PubTables-1M is a comprehensive dataset for table extraction from unstructured documents. It includes training and evaluation data for table detection and structure recognition, alongside detailed annotations of the source PDF files. The dataset is provided in the form of 18 tar.gz files, which respectively contain the image and annotation files for the training, validation, and test sets. The objective of this dataset is to support table extraction tasks, particularly table extraction from PubMed PDF documents.
提供机构:
bsmock
原始信息汇总
数据集概述
数据集名称
- PubTables-1M
数据集内容
-
结构识别模型训练与评估数据
- 总计947,642个裁剪的表格实例。
- 包含以下文件:
PubTables-1M-Structure_Filelists.tar.gzPubTables-1M-Structure_Annotations_Test.tar.gz: 93,834个XML文件,包含PASCAL VOC格式的边界框。PubTables-1M-Structure_Annotations_Train.tar.gz: 758,849个XML文件,包含PASCAL VOC格式的边界框。PubTables-1M-Structure_Annotations_Val.tar.gz: 94,959个XML文件,包含PASCAL VOC格式的边界框。PubTables-1M-Structure_Images_Test.tar.gzPubTables-1M-Structure_Images_Train.tar.gzPubTables-1M-Structure_Images_Val.tar.gzPubTables-1M-Structure_Table_Words.tar.gz: 所有裁剪表格图像中的边界框和文本内容。
-
检测模型训练与评估数据
- 总计575,305个文档页面实例。
- 包含以下文件:
PubTables-1M-Detection_Filelists.tar.gzPubTables-1M-Detection_Annotations_Test.tar.gz: 57,125个XML文件,包含PASCAL VOC格式的边界框。PubTables-1M-Detection_Annotations_Train.tar.gz: 460,589个XML文件,包含PASCAL VOC格式的边界框。PubTables-1M-Detection_Annotations_Val.tar.gz: 57,591个XML文件,包含PASCAL VOC格式的边界框。PubTables-1M-Detection_Images_Test.tar.gzPubTables-1M-Detection_Images_Train_Part1.tar.gzPubTables-1M-Detection_Images_Train_Part2.tar.gzPubTables-1M-Detection_Images_Val.tar.gzPubTables-1M-Detection_Page_Words.tar.gz: 每个页面图像中的边界框和文本内容(加上一些未使用的文件)。
-
源PDF文件的完整表格注释
PubTables-1M-PDF_Annotations.tar.gz: 所有出现在源PubMed PDF中的表格的详细注释。所有注释均为PDF坐标。- 401,733个JSON文件,每个源PDF文档一个。
数据集下载与使用
- 当前仅支持以tar.gz文件格式下载数据集。
- 下载后,使用提供的脚本
extract_structure_dataset.sh提取和组织所有数据。
许可证
- CDLA-Permissive-2.0
搜集汇总
数据集介绍

构建方式
PubTables-1M数据集的构建旨在实现从非结构化文档中全面提取表格。该数据集通过采集大规模PubMed PDF文档中的表格图像,并对其进行标注,形成了结构识别模型与检测模型的训练与评估数据。数据集包含了947,642个表格实例和575,305个文档页面实例,分别用于训练和评估结构识别与检测模型。每个实例均由相应的XML文件提供精确的边界框标注,以及表格文字内容。
特点
该数据集的特点在于其规模宏大且全面,涵盖了大量的表格实例和文档页面实例。数据集不仅提供了用于结构识别的表格图像及其标注,还提供了用于检测模型的文档页面的详细标注。此外,数据集还包含了源PDF文件中表格的详细注释,为研究者在表格提取领域提供了丰富的研究资源。
使用方法
使用PubTables-1M数据集时,用户需首先从提供的tar.gz文件中下载并解压数据。解压后,用户可以通过内含的脚本文件'extract_structure_dataset.sh'来提取和组织数据。数据集的文件被分为训练集、验证集和测试集,且每个文件都包含了相应的图像和标注信息。用户可以根据自己的研究需求,选择相应的数据子集进行模型训练或评估。
背景与挑战
背景概述
在信息提取与文本挖掘领域,表格数据的抽取与分析是一项关键任务。PubTables-1M数据集,由微软团队创建于2022年,旨在推动从非结构化文档中全面抽取表格数据的研究。该数据集的核心研究问题是如何准确识别并提取文档中的表格结构,进而促进表格信息的结构化表示。数据集包含了从PubMed PDF文档中提取的超过一百万个表格实例,其详尽的标注为表格检测与结构识别研究提供了宝贵资源,对信息检索、知识图谱构建等领域产生了深远影响。
当前挑战
数据集构建过程中面临的挑战主要包括两个方面:一是如何处理非结构化文档中的复杂布局,准确检测出表格位置;二是如何在高精度保持的前提下,从表格图像中提取出结构化的数据。此外,数据集的构建还需克服标注一致性、数据规模庞大带来的处理难度以及如何有效整合多源异构数据等问题。
常用场景
经典使用场景
在信息检索与知识抽取领域,PubTables-1M数据集的一项经典应用是对科研文献中的表格数据进行自动化提取和结构化处理。该数据集提供了大量的表格实例及其标注信息,使得研究者能够训练出能够准确识别和解析表格内容的模型。
实际应用
在实际应用中,PubTables-1M数据集的应用场景广泛,如在生物医学领域,该数据集可用于快速地从海量的科研文献中提取表格数据,为研究人员提供便捷的数据整理和分析工具,加速科研成果的产出。
衍生相关工作
基于PubTables-1M数据集,学术界衍生出了一系列相关工作,包括但不限于表格检测、结构识别、内容解析等方面的研究。这些工作不仅推动了表格信息处理技术的进步,也为相关领域的应用研究提供了重要的基础数据和参考模型。
以上内容由遇见数据集搜集并总结生成



