PubTables-1M

github2024-09-18 更新2024-09-19 收录

下载链接：

https://github.com/esborisova/Awesome-Table-Understanding-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

PubTables-1M 数据集包含从PubMed学术论文中提取的947,640个表格，用于表格检测、表格结构识别和功能分析任务。

The PubTables-1M dataset comprises 947,640 tables extracted from PubMed scholarly papers, and is developed for tasks including table detection, table structure recognition and functional analysis.

创建时间：

2024-09-10

原始信息汇总

Awesome Table Understanding Datasets

数据集列表

数据集名称	来源	任务	规模	模态
PubTables-1M	Scholary papers from PubMed	Table detection, Table structure recognition, Functional analysis	947.64K tables	Image
SciGen	Scholary papers from arXiv	Table-to-text generation	1.3K table-text description pairs	Text
ComTQA	Scholary papers from PubMed, Financial reports of S&P 500 companies	Question answering	1.5K tables and 9K QA pairs	Image
DocGenom	Scholary papers from arXiv	Table-to-LaTeX generation	3K table-LaTeX pairs	Image
numericNLG	Scholary papers from ACL Anthology	Text-to-table generation	1.3K text-table pairs	Text
SEM-TAB-FACTS	Scholary papers from Elsevier	Statement fact verification, Cell evidence selection	3K tables	Text
TAT-QA	Annual reports	Question answering	2K hybrid contexts (tables and text) and 16.5K QA pairs	Text
WikiBio	Wikipedia	Biography generation	728.32K biographies	Text
ToTTo	Wikipedia	Table-to-text	120K table-text pairs	Text
TabFact	Wikipedia	Fact-checking	16K tables and 118K statements	Text
TableBench	Wikipedia, Earnings reports of S&P 500 companies	Question answering	3.6K tables and 886 QA pairs	Text
TableInstruct	Wikipedia, Earnings reports of S&P 500 companies	Question answering	3.6K tables and 20K QA pairs	Text
FinQA	Earnings reports of S&P 500 companies	Question answering	8.2K QA pairs	Text
LogicNLG	Wikipedia	Logical natural language generation	7.3K tables	Text
TabIS	Wikipedia, Statistical reports from Statistics Canada and National Science Foundation	Information seeking from tables	61K tables	Text
DataBench	Forbes, Kaggle, Graphext, City of New York, US Gov, Inside Airbnb, Data World, AEMET, INE, TrustPilot, World Happiness, Brown University, US Census, X, SBA, Spotify, BigQuery, CIS, Brandwatch, DataMarket, UCI ML, Kern et al, PNAS’20	Question answering	56K tables	Text
GitTables	GitHub	Semantic column type detection, Schema compilation	1M tables	Text
AxCell: Segmented Tables	Scholary papers from arXiv	Table segmentation, Table type classification	1.9K tables	Text
WDC Web Table Corpus 2012	Common Crawl	Data search, Table extension/completion, Knowledge base construction, Table matching, NLP tasks	147M tables	Text
WDC Web Table Corpus 2015	Common Crawl	Data search, Table extension/completion, Knowledge base construction, Table matching, NLP tasks	233M tables	Text
T2D	Common Crawl	Matching web tables to DBpedia	1.7K tables	Text
T2Dv2	Common Crawl	Matching web tables to DBpedia	779 tables	Text
WikiTables	Wikipedia	Entity linking	1.6M tables	Text
WikiTableQuestions	Wikipedia	Question answering	2.1K tables and 22K QA pairs	Text
WikiSQL	Wikipedia	Text-to-SQL/Question answering	24.2K tables	Text
Spider 1.0	College database courses, DatabaseAnswers, Wikipedia	Text-to-SQL/Question answering	N/A	Text
OTT-QA	Wikipedia	Question answering	400K tables	Text
HybridQA	Wikipedia	Question answering	13K tables and 70K QA pairs	Text
FEVEROUS	Wikipedia	Fact extraction and verification	87K claims	Text
TableBank	Word documents from the internet, LaTex documents from arXiv	Table detection and recognition	417K tables	Image
PubTabNet	Scholary papers from PubMed	Table detection and recognition	568K tables	Image
PubLayNet	Scholary papers from PubMed	Document layout recognition	94K pages with tables and 113K tables	Image
FinTabNet	Earnings reports of S&P 500 companies	Table structure recognition	89K pages and 112.8K tables	Image
WTW	Images from natural scenes, Archival document images, Printed document images	Table structure recognition	14.5K tables	Image
SciTSR	Scholary papers from arXiv	Table structure recognition	15K tables	Image
TNCR	Web	Table detection, Table classification	6.6K images and 9.4K tables	Image
DeepFigures	Scholary papers from arXiv and PubMed	Table extraction	1.4M tables	Text
WikiTableSet	Wikipedia	Table recognition	5M tables	Image
Tab2Know	Scholary papers from AAAI, ACL, Artif. Intell., arXiv, CIKM, COLING, CoNLL, EACL, ECAI, EMNLP, HLT-NAACL, IJCAI, ISWC, NeurIPS, NIPS, PVLDB, VLDB, and WWW	Table-to-knowledge base	73k tables	Image and text
Logic2Text	Wikipedia	Natural language generation	5.6K tables and 10.8k (logical form, description) pairs	Text
SQA	Wikipedia	Question answering	17.5K QA pairs	Text
FeTaQA	Wikipedia	Question answering	10.3K (table, question, answer, table cells) pairs	Text
ICDAR 2019 cTDaR	Modern and archival documents	Table detection	N/A	Image
SportsTables	Web	Semantic type detection	1.1K tables	Text
SemTab2019	T2Dv2, Wikipedia, Synthetically generated tables	Tabular data to knowledge graph matching	14.9K tables	Text
Tough Tables (2T)	N/A	N/A	N/A	N/A

备注

部分数据集仅提供元数据和注释，不包含源文件。
部分数据集的下载链接已失效，但仍包含在列表中，因为作者可能会在未来解决此问题。
该仓库将持续更新。

搜集汇总

数据集介绍

构建方式

PubTables-1M数据集的构建基于从PubMed中提取的学术论文。该数据集通过系统地扫描和解析这些论文中的表格，确保了数据的广泛性和代表性。具体而言，构建过程包括对论文的图像进行预处理，提取表格区域，并进行结构化标注，以支持多种表格理解任务。这一过程不仅保证了数据的高质量，还为后续的分析和应用提供了坚实的基础。

特点

PubTables-1M数据集的一个显著特点是其庞大的规模，包含了947,640个表格，这为大规模的机器学习模型训练提供了丰富的数据资源。此外，该数据集涵盖了多种表格理解任务，包括表格检测、结构识别和功能分析，使其成为一个多功能的资源库。数据集的多样性和复杂性也使其成为研究复杂表格处理技术的理想选择。

使用方法

使用PubTables-1M数据集时，研究者可以将其用于训练和验证各种表格理解模型。首先，用户可以通过提供的下载链接获取数据集，并根据需要进行预处理。随后，可以利用这些数据进行模型训练，特别是在表格检测和结构识别等任务上。此外，数据集的多功能性也允许研究者在不同的应用场景中进行实验和优化，从而推动表格处理技术的发展。

背景与挑战

背景概述

PubTables-1M数据集由主要研究人员或机构于2021年创建，旨在解决学术论文中表格的检测、结构识别和功能分析问题。该数据集的核心研究问题是如何从大量的学术文献中自动提取和理解表格信息，这对于提高文献检索和数据分析的效率具有重要意义。PubTables-1M数据集的构建基于PubMed中的学术论文，包含947,640个表格，为相关领域的研究提供了丰富的资源。其影响力在于推动了表格理解技术的发展，并为后续研究提供了坚实的基础。

当前挑战

PubTables-1M数据集在构建过程中面临多项挑战。首先，表格的多样性和复杂性使得检测和结构识别任务变得异常困难。其次，学术论文中的表格往往包含大量的文本和数据，如何准确地提取和解析这些信息是一个技术难题。此外，数据集的规模庞大，如何高效地处理和存储这些数据也是一个重要的挑战。最后，表格的功能分析需要结合上下文信息，这对模型的理解和推理能力提出了更高的要求。

常用场景

经典使用场景

PubTables-1M数据集在学术文献处理领域中具有广泛的应用，尤其在表格检测、表格结构识别和功能分析等任务中表现卓越。该数据集通过从PubMed中提取的学术论文，提供了丰富的表格图像和相应的标注信息，使得研究人员能够训练和评估各种表格理解模型。例如，在表格检测任务中，模型可以学习从复杂的文档图像中准确地定位和识别表格区域；在表格结构识别任务中，模型则能够解析表格的行列结构，提取出表格的逻辑结构；而在功能分析任务中，模型可以进一步分析表格的内容，识别出表格在文献中的作用和意义。

解决学术问题

PubTables-1M数据集在解决学术研究中的多个关键问题上发挥了重要作用。首先，它为表格检测和结构识别提供了大规模的标注数据，解决了传统方法在处理复杂文档时精度不足的问题。其次，通过提供丰富的表格功能分析数据，该数据集有助于研究人员开发能够自动理解表格在文献中作用的模型，从而提升文献分析的智能化水平。此外，PubTables-1M还促进了跨学科的研究，如计算机视觉与自然语言处理的结合，推动了学术界在文档理解领域的技术进步。

衍生相关工作

PubTables-1M数据集的发布催生了一系列相关研究工作，推动了表格理解领域的技术发展。例如，基于该数据集的研究工作在表格检测和结构识别方面取得了显著进展，提出了多种高效的算法和模型。同时，该数据集也激发了研究人员对表格功能分析的深入探讨，开发了能够自动识别表格在文献中作用的模型。此外，PubTables-1M还促进了跨学科的研究，如结合自然语言处理和计算机视觉的技术，推动了文档理解领域的整体进步。这些研究工作不仅提升了表格理解的精度，也为实际应用提供了强有力的技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集