TABLET-tables
收藏Hugging Face2025-10-24 更新2025-10-25 收录
下载链接:
https://huggingface.co/datasets/alonsoapp/TABLET-tables
下载链接
链接失效反馈官方服务:
资源简介:
TABLET数据集包含不同大小和任务的多个子集,每个子集都包含表格的图像和HTML文件。数据集适用于列类型注释、实体链接和关系抽取等任务。README文件解释了数据集的结构、如何下载和验证数据,以及如何将子集合并成一个数据集。数据集还包括使用GitHub代码开发与TABLET数据集的说明。
创建时间:
2025-10-22
原始信息汇总
TABLET数据集概述
数据集简介
TABLET-tables数据集包含TABLET数据集中所有表格的图像和HTML文件。这些文件已包含在所有TABLET数据集中,如果仅需使用数据集则无需下载此资源。该资源为开发人员提供了集中访问完整表格图像和HTML文件的途径。
TABLET数据集子集
训练集
- TABLET-Small:最小子集,包含776,602个示例,涵盖14个任务
- TABLET-Medium:包含TABLET-Small所有示例,增加列类型标注、实体链接和关系抽取任务,每个任务上限140,000个示例,总计1,117,217个训练示例,涵盖17个任务
- TABLET-Large:包含TABLET-Medium所有示例且无任务大小限制,总计3,505,311个训练示例,涵盖17个任务
评估集
- TABLET-dev:开发集
- TABLET-test:测试集
文件下载说明
下载规模
- TABLET-Small:483GB(包含TABLET-Small、TABLET-test和TABLET-dev)
- TABLET-Medium:+146GB
- TABLET-Large:+907GB
下载流程
- 使用wget命令下载各子集的分块文件
- 可选验证校验和文件
- 流式解压分块文件
- 使用rsync合并到同一目录
- 设置资源路径环境变量
文件目录结构
解压后的resources/tables目录包含:
- html目录:
- highlighted子目录(包含ToTTo和TURL的高亮HTML文件)
- raw子目录(包含HybridQA、InfoTabs、NSF等原始HTML文件)
- img目录:
- highlighted子目录(包含ToTTo和TURL的高亮图像文件)
- raw子目录(包含HybridQA、InfoTabs、NSF等原始图像文件)
各子目录按数据集和划分(dev/test/train)进一步组织。
搜集汇总
数据集介绍

构建方式
在表格数据处理领域,TABLET-tables数据集通过系统化整合多个知名表格数据集构建而成。该数据集采用分层递进的结构设计,从小型子集逐步扩展至大型子集,每个子集都包含完整的表格图像和HTML文件。构建过程中严格遵循数据完整性原则,确保各子集之间存在明确的包含关系,小型子集完全嵌入中型子集,中型子集又完整包含于大型子集之中。这种构建方式既保证了数据的一致性,又为用户提供了灵活的选择空间。
特点
该数据集最显著的特征在于其全面覆盖了表格理解领域的多种任务类型,包括列类型标注、实体链接和关系抽取等核心任务。数据集采用自包含的设计理念,每个示例都完整包含表格图像和HTML源码,无需额外下载辅助文件。其规模层次分明,从包含77万示例的小型子集到350万示例的大型子集,形成了完整的数据谱系。数据集还特别提供了开发集和测试集,为模型评估提供了标准化基准。
使用方法
使用该数据集时,用户可通过分段下载机制灵活获取所需数据规模。下载过程采用分块压缩技术,支持校验和验证确保数据完整性。解压后通过目录合并操作形成统一资源结构,包含原始表格和高亮标注两种形式的HTML文件及对应图像。数据集与配套GitHub代码库深度集成,支持环境变量配置自定义资源路径。这种设计使得研究人员能够快速部署实验环境,专注于表格理解任务的算法开发与验证。
背景与挑战
背景概述
在自然语言处理与表格理解交叉领域蓬勃发展的背景下,TABLET数据集由AlonsoApp研究团队构建,旨在系统整合多模态表格数据以支撑复杂语义任务。该数据集通过融合图像与HTML双重视角,覆盖列类型标注、实体链接及关系抽取等17项核心任务,其大规模训练样本达350万余条,显著推进了表格结构解析与语义推理的技术边界。
当前挑战
表格理解领域需应对视觉布局与结构化数据融合的复杂性,TABLET在解决多任务联合建模时面临跨模态对齐的精度挑战。构建过程中,数据采集需协调十余种异构表格来源,而超1.5TB的原始文件规模导致分布式存储与校验流程设计成为关键瓶颈,同时保持不同子集间样本一致性与任务扩展性亦需精细权衡。
常用场景
经典使用场景
在表格理解与多模态数据处理领域,TABLET-tables数据集通过整合图像与HTML格式的表格数据,为自然语言处理任务提供了丰富的结构化信息。其经典应用体现在训练模型执行表格问答、内容摘要和关系提取等任务,其中TABLET-Small、Medium和Large子集分别覆盖14至17种任务类型,支持从基础到复杂的多场景实验设计。
解决学术问题
该数据集有效应对了表格数据多模态融合的学术挑战,通过统一图像与代码表征解决了传统方法中视觉与结构信息割裂的问题。其在列类型标注、实体链接和关系抽取等任务上的大规模标注数据,显著提升了模型对表格语义的理解能力,推动了结构化知识抽取与跨模态推理研究的发展。
衍生相关工作
基于该数据集衍生的经典工作包括多模态表格问答模型架构优化、跨任务联合训练框架设计等研究方向。其资源结构直接支持了GitHub开源项目TABLET的工具链开发,并催生了在TURL、ToTTo等基准上的改进方法,持续推动着文档智能与知识图谱构建领域的创新。
以上内容由遇见数据集搜集并总结生成



