five

PubTables-1M

收藏
github2024-09-18 更新2024-09-19 收录
下载链接:
https://github.com/esborisova/Awesome-Table-Understanding-Datasets
下载链接
链接失效反馈
官方服务:
资源简介:
PubTables-1M 数据集包含从PubMed学术论文中提取的947,640个表格,用于表格检测、表格结构识别和功能分析任务。

The PubTables-1M dataset comprises 947,640 tables extracted from PubMed scholarly papers, and is developed for tasks including table detection, table structure recognition and functional analysis.
创建时间:
2024-09-10
原始信息汇总

Awesome Table Understanding Datasets

数据集列表

数据集名称 来源 任务 规模 模态
PubTables-1M Scholary papers from PubMed Table detection, Table structure recognition, Functional analysis 947.64K tables Image
SciGen Scholary papers from arXiv Table-to-text generation 1.3K table-text description pairs Text
ComTQA Scholary papers from PubMed, Financial reports of S&P 500 companies Question answering 1.5K tables and 9K QA pairs Image
DocGenom Scholary papers from arXiv Table-to-LaTeX generation 3K table-LaTeX pairs Image
numericNLG Scholary papers from ACL Anthology Text-to-table generation 1.3K text-table pairs Text
SEM-TAB-FACTS Scholary papers from Elsevier Statement fact verification, Cell evidence selection 3K tables Text
TAT-QA Annual reports Question answering 2K hybrid contexts (tables and text) and 16.5K QA pairs Text
WikiBio Wikipedia Biography generation 728.32K biographies Text
ToTTo Wikipedia Table-to-text 120K table-text pairs Text
TabFact Wikipedia Fact-checking 16K tables and 118K statements Text
TableBench Wikipedia, Earnings reports of S&P 500 companies Question answering 3.6K tables and 886 QA pairs Text
TableInstruct Wikipedia, Earnings reports of S&P 500 companies Question answering 3.6K tables and 20K QA pairs Text
FinQA Earnings reports of S&P 500 companies Question answering 8.2K QA pairs Text
LogicNLG Wikipedia Logical natural language generation 7.3K tables Text
TabIS Wikipedia, Statistical reports from Statistics Canada and National Science Foundation Information seeking from tables 61K tables Text
DataBench Forbes, Kaggle, Graphext, City of New York, US Gov, Inside Airbnb, Data World, AEMET, INE, TrustPilot, World Happiness, Brown University, US Census, X, SBA, Spotify, BigQuery, CIS, Brandwatch, DataMarket, UCI ML, Kern et al, PNAS’20 Question answering 56K tables Text
GitTables GitHub Semantic column type detection, Schema compilation 1M tables Text
AxCell: Segmented Tables Scholary papers from arXiv Table segmentation, Table type classification 1.9K tables Text
WDC Web Table Corpus 2012 Common Crawl Data search, Table extension/completion, Knowledge base construction, Table matching, NLP tasks 147M tables Text
WDC Web Table Corpus 2015 Common Crawl Data search, Table extension/completion, Knowledge base construction, Table matching, NLP tasks 233M tables Text
T2D Common Crawl Matching web tables to DBpedia 1.7K tables Text
T2Dv2 Common Crawl Matching web tables to DBpedia 779 tables Text
WikiTables Wikipedia Entity linking 1.6M tables Text
WikiTableQuestions Wikipedia Question answering 2.1K tables and 22K QA pairs Text
WikiSQL Wikipedia Text-to-SQL/Question answering 24.2K tables Text
Spider 1.0 College database courses, DatabaseAnswers, Wikipedia Text-to-SQL/Question answering N/A Text
OTT-QA Wikipedia Question answering 400K tables Text
HybridQA Wikipedia Question answering 13K tables and 70K QA pairs Text
FEVEROUS Wikipedia Fact extraction and verification 87K claims Text
TableBank Word documents from the internet, LaTex documents from arXiv Table detection and recognition 417K tables Image
PubTabNet Scholary papers from PubMed Table detection and recognition 568K tables Image
PubLayNet Scholary papers from PubMed Document layout recognition 94K pages with tables and 113K tables Image
FinTabNet Earnings reports of S&P 500 companies Table structure recognition 89K pages and 112.8K tables Image
WTW Images from natural scenes, Archival document images, Printed document images Table structure recognition 14.5K tables Image
SciTSR Scholary papers from arXiv Table structure recognition 15K tables Image
TNCR Web Table detection, Table classification 6.6K images and 9.4K tables Image
DeepFigures Scholary papers from arXiv and PubMed Table extraction 1.4M tables Text
WikiTableSet Wikipedia Table recognition 5M tables Image
Tab2Know Scholary papers from AAAI, ACL, Artif. Intell., arXiv, CIKM, COLING, CoNLL, EACL, ECAI, EMNLP, HLT-NAACL, IJCAI, ISWC, NeurIPS, NIPS, PVLDB, VLDB, and WWW Table-to-knowledge base 73k tables Image and text
Logic2Text Wikipedia Natural language generation 5.6K tables and 10.8k (logical form, description) pairs Text
SQA Wikipedia Question answering 17.5K QA pairs Text
FeTaQA Wikipedia Question answering 10.3K (table, question, answer, table cells) pairs Text
ICDAR 2019 cTDaR Modern and archival documents Table detection N/A Image
SportsTables Web Semantic type detection 1.1K tables Text
SemTab2019 T2Dv2, Wikipedia, Synthetically generated tables Tabular data to knowledge graph matching 14.9K tables Text
Tough Tables (2T) N/A N/A N/A N/A

备注

  • 部分数据集仅提供元数据和注释,不包含源文件。
  • 部分数据集的下载链接已失效,但仍包含在列表中,因为作者可能会在未来解决此问题。
  • 该仓库将持续更新。
搜集汇总
数据集介绍
main_image_url
构建方式
PubTables-1M数据集的构建基于从PubMed中提取的学术论文。该数据集通过系统地扫描和解析这些论文中的表格,确保了数据的广泛性和代表性。具体而言,构建过程包括对论文的图像进行预处理,提取表格区域,并进行结构化标注,以支持多种表格理解任务。这一过程不仅保证了数据的高质量,还为后续的分析和应用提供了坚实的基础。
特点
PubTables-1M数据集的一个显著特点是其庞大的规模,包含了947,640个表格,这为大规模的机器学习模型训练提供了丰富的数据资源。此外,该数据集涵盖了多种表格理解任务,包括表格检测、结构识别和功能分析,使其成为一个多功能的资源库。数据集的多样性和复杂性也使其成为研究复杂表格处理技术的理想选择。
使用方法
使用PubTables-1M数据集时,研究者可以将其用于训练和验证各种表格理解模型。首先,用户可以通过提供的下载链接获取数据集,并根据需要进行预处理。随后,可以利用这些数据进行模型训练,特别是在表格检测和结构识别等任务上。此外,数据集的多功能性也允许研究者在不同的应用场景中进行实验和优化,从而推动表格处理技术的发展。
背景与挑战
背景概述
PubTables-1M数据集由主要研究人员或机构于2021年创建,旨在解决学术论文中表格的检测、结构识别和功能分析问题。该数据集的核心研究问题是如何从大量的学术文献中自动提取和理解表格信息,这对于提高文献检索和数据分析的效率具有重要意义。PubTables-1M数据集的构建基于PubMed中的学术论文,包含947,640个表格,为相关领域的研究提供了丰富的资源。其影响力在于推动了表格理解技术的发展,并为后续研究提供了坚实的基础。
当前挑战
PubTables-1M数据集在构建过程中面临多项挑战。首先,表格的多样性和复杂性使得检测和结构识别任务变得异常困难。其次,学术论文中的表格往往包含大量的文本和数据,如何准确地提取和解析这些信息是一个技术难题。此外,数据集的规模庞大,如何高效地处理和存储这些数据也是一个重要的挑战。最后,表格的功能分析需要结合上下文信息,这对模型的理解和推理能力提出了更高的要求。
常用场景
经典使用场景
PubTables-1M数据集在学术文献处理领域中具有广泛的应用,尤其在表格检测、表格结构识别和功能分析等任务中表现卓越。该数据集通过从PubMed中提取的学术论文,提供了丰富的表格图像和相应的标注信息,使得研究人员能够训练和评估各种表格理解模型。例如,在表格检测任务中,模型可以学习从复杂的文档图像中准确地定位和识别表格区域;在表格结构识别任务中,模型则能够解析表格的行列结构,提取出表格的逻辑结构;而在功能分析任务中,模型可以进一步分析表格的内容,识别出表格在文献中的作用和意义。
解决学术问题
PubTables-1M数据集在解决学术研究中的多个关键问题上发挥了重要作用。首先,它为表格检测和结构识别提供了大规模的标注数据,解决了传统方法在处理复杂文档时精度不足的问题。其次,通过提供丰富的表格功能分析数据,该数据集有助于研究人员开发能够自动理解表格在文献中作用的模型,从而提升文献分析的智能化水平。此外,PubTables-1M还促进了跨学科的研究,如计算机视觉与自然语言处理的结合,推动了学术界在文档理解领域的技术进步。
衍生相关工作
PubTables-1M数据集的发布催生了一系列相关研究工作,推动了表格理解领域的技术发展。例如,基于该数据集的研究工作在表格检测和结构识别方面取得了显著进展,提出了多种高效的算法和模型。同时,该数据集也激发了研究人员对表格功能分析的深入探讨,开发了能够自动识别表格在文献中作用的模型。此外,PubTables-1M还促进了跨学科的研究,如结合自然语言处理和计算机视觉的技术,推动了文档理解领域的整体进步。这些研究工作不仅提升了表格理解的精度,也为实际应用提供了强有力的技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作