TabLib
收藏arXiv2023-10-12 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2310.07875v1
下载链接
链接失效反馈官方服务:
资源简介:
TabLib是由近似实验室创建的大型数据集,包含627000000个表格,总计69 TiB的数据量,涵盖多种文件格式如CSV, HTML, SQLite, PDF, Excel等,数据来源于GitHub和Common Crawl。该数据集旨在通过其规模和多样性,推动表格数据模式下的AI系统发展,解决现有数据集在大小和多样性上的不足,加速表格AI系统的进步。
TabLib is a large-scale dataset created by Approximate Laboratory, which contains 627 million tables with a total data volume of 69 TiB. It covers multiple file formats including CSV, HTML, SQLite, PDF, Excel and others, with its data sourced from GitHub and Common Crawl. This dataset aims to promote the development of AI systems for tabular data by leveraging its scale and diversity, addressing the shortcomings of existing datasets in terms of size and diversity, and accelerating the progress of tabular AI systems.
提供机构:
Approximate Labs
创建时间:
2023-10-12
搜集汇总
数据集介绍

构建方式
在表格数据模态领域,TabLib的构建体现了大规模数据采集与处理的系统性工程。该数据集通过整合GitHub和Common Crawl两大公开数据源,覆盖了CSV、HTML、PDF、Excel、SQLite等多种文件格式。构建过程采用分布式处理框架Ray设计流水线,将原始文件解析为Pandas数据框后序列化为Arrow格式存储,并通过Parquet文件组织元数据。解析阶段针对不同格式适配了相应开源工具,如使用BeautifulSoup处理HTML、pdfplumber提取PDF表格,并排除了单行单列等无效结构,最终形成包含6.27亿个表格、总量达69 TiB的规范化集合。
特点
TabLib的显著特征在于其规模与多样性的深度融合。数据集囊括6.27亿个独立表格,并附有8670亿标记的上下文元数据,涵盖文件名、URL、前后文文本及OpenGraph信息等多维描述。其多样性体现在语言分布、主题类别、表格规模及来源格式的广泛覆盖,其中英语内容占比约69%,同时包含西班牙语、日语等数十种语言样本。数据呈现典型的幂律分布特征,少数表格占据大部分数据量,而多数表格规模较小,这种长尾分布为模型训练带来了独特挑战与机遇。
使用方法
该数据集为表格理解任务提供了多层次的研究接口。用户可通过Parquet格式的清单文件访问表格元数据,利用存储键模式直接提取序列化的Arrow表格内容。典型应用场景包括表格语义理解、数据集检索、数据集成及知识提取等方向,例如基于上下文元数据训练表格分类模型,或利用内容哈希进行重复数据检测。研究时需注意数据包含公开来源的个人可识别信息,建议遵循原始许可协议并主要用于学术探索,同时可结合其类别标注与语言分析功能开展跨模态模型预训练实验。
背景与挑战
背景概述
在人工智能领域,大规模、多样化的数据集对模型性能具有决定性影响,这一趋势在文本和图像模态中已得到充分验证。然而,在表格数据领域,长期以来缺乏与之相匹敌的规模与多样性的数据集。为此,Approximate Labs的研究团队于2023年10月发布了TabLib数据集,该数据集汇集了来自GitHub和Common Crawl的6.27亿张表格,总计69 TiB,并附有8670亿标记的上下文信息。TabLib的创建旨在解决表格数据理解与处理的瓶颈,其核心研究问题聚焦于如何为表格模态的AI模型提供类似于文本和图像领域的奠基性训练资源,从而推动表格数据搜索、语义理解、数据集成及知识提取等关键应用的发展。该数据集的问世标志着表格数据研究进入新阶段,有望成为训练大规模数据模型的重要基石。
当前挑战
TabLib数据集所解决的领域问题在于表格数据的多模态理解与处理,其挑战主要体现在表格结构的复杂性、语义的隐含性以及跨格式的异构性上。例如,表格数据的列类型推断、行列分隔符识别以及嵌套表头解析等任务均比文本解析更为困难,易导致错误累积。在构建过程中,研究团队面临多重挑战:首先,数据源的多样性与规模带来了解析难题,如PDF表格跨页识别、HTML中JavaScript与CSS引入的噪声干扰,以及图像内表格的提取缺失;其次,数据去重与元数据完整性保障亦非易事,需应对内容哈希重复而上下文各异的复杂场景;此外,数据分布呈现幂律特征,长尾效应显著,这对模型训练的均衡性与泛化能力提出了更高要求。
常用场景
经典使用场景
在表格数据理解与处理的学术探索中,TabLib数据集凭借其庞大的规模和多样性,为表格表示学习提供了理想的预训练资源。该数据集汇集了来自GitHub和Common Crawl的6.27亿张表格,覆盖HTML、CSV、PDF等多种格式,其丰富的上下文元数据使得研究者能够训练模型深入理解表格结构、语义关联及跨模态信息。这一场景类似于文本领域的The Pile或图像领域的LAION数据集,为表格模态的基础模型研发奠定了数据基石。
实际应用
在实际应用层面,TabLib为智能数据管理系统和自动化分析工具的开发提供了强大支撑。基于该数据集训练的模型可广泛应用于企业数据湖中的表格检索与归类,辅助用户快速定位所需信息;在商业智能领域,它能驱动自然语言交互式查询系统,让非技术用户通过简单提问即可从复杂表格中提取洞察。此外,TabLib还可用于增强数据清洗与元数据预测流程,提升数据治理效率,为金融、科研、电子商务等依赖表格数据的行业带来切实的自动化解决方案。
衍生相关工作
TabLib的发布催生了一系列围绕表格智能的创新研究。例如,基于其大规模预训练的模型在表格语义解析任务上展现了卓越性能,推动了类似TableGPT等统一表格与自然语言交互框架的发展。同时,该数据集也为表格表示学习算法如TaBERT和TURL提供了更丰富的训练素材,促进了表格嵌入技术的进步。在数据集成领域,TabLib支撑了关于表格连接与模式映射的新方法探索,相关研究如WarpGate和Pylon系统均受益于其多样化的表格语料,进一步拓展了表格数据融合的边界。
以上内容由遇见数据集搜集并总结生成



