tabula-pretraining-corpus-v2

Hugging Face2026-03-15 更新2026-03-16 收录

下载链接：

https://huggingface.co/datasets/avewright/tabula-pretraining-corpus-v2

下载链接

链接失效反馈

官方服务：

资源简介：

Tabula Pretraining Corpus v2 是一个大规模合成的表格数据集，旨在用于基于Transformer的上下文学习模型的预训练，类似于TabPFN。数据集包含272,271,776行数据，分布在10,867个数据集中，分为135个分片。每个分片是一个Parquet文件，具有固定的模式：64个特征列（feat_0到feat_63，未使用的槽位为NaN）、一个目标变量（target，用于分类标签或回归目标）和一个包含元数据的JSON字符串（_source_meta）。元数据包括生成器类型、任务类型（二元分类、多类分类或回归）、活动特征数量、目标类别数量、原始数据集的行数、语义领域（如金融、健康等）和领域特定的列名。数据集通过了多种质量门控，如无常量列、无全空列、少数类比例≥5%等。数据增强技术包括缺失值注入和概念漂移。适用于表格分类和回归任务。

创建时间：

2026-03-15

5,000+

优质数据集

54 个

任务类型

进入经典数据集