tabula-pretraining-corpus-v2
收藏Hugging Face2026-03-15 更新2026-03-16 收录
下载链接:
https://huggingface.co/datasets/avewright/tabula-pretraining-corpus-v2
下载链接
链接失效反馈官方服务:
资源简介:
Tabula Pretraining Corpus v2 是一个大规模合成的表格数据集,旨在用于基于Transformer的上下文学习模型的预训练,类似于TabPFN。数据集包含272,271,776行数据,分布在10,867个数据集中,分为135个分片。每个分片是一个Parquet文件,具有固定的模式:64个特征列(feat_0到feat_63,未使用的槽位为NaN)、一个目标变量(target,用于分类标签或回归目标)和一个包含元数据的JSON字符串(_source_meta)。元数据包括生成器类型、任务类型(二元分类、多类分类或回归)、活动特征数量、目标类别数量、原始数据集的行数、语义领域(如金融、健康等)和领域特定的列名。数据集通过了多种质量门控,如无常量列、无全空列、少数类比例≥5%等。数据增强技术包括缺失值注入和概念漂移。适用于表格分类和回归任务。
创建时间:
2026-03-15



