five

tabula-pretraining-corpus-v2

收藏
Hugging Face2026-03-15 更新2026-03-16 收录
下载链接:
https://huggingface.co/datasets/avewright/tabula-pretraining-corpus-v2
下载链接
链接失效反馈
官方服务:
资源简介:
Tabula Pretraining Corpus v2 是一个大规模合成的表格数据集,旨在用于基于Transformer的上下文学习模型的预训练,类似于TabPFN。数据集包含272,271,776行数据,分布在10,867个数据集中,分为135个分片。每个分片是一个Parquet文件,具有固定的模式:64个特征列(feat_0到feat_63,未使用的槽位为NaN)、一个目标变量(target,用于分类标签或回归目标)和一个包含元数据的JSON字符串(_source_meta)。元数据包括生成器类型、任务类型(二元分类、多类分类或回归)、活动特征数量、目标类别数量、原始数据集的行数、语义领域(如金融、健康等)和领域特定的列名。数据集通过了多种质量门控,如无常量列、无全空列、少数类比例≥5%等。数据增强技术包括缺失值注入和概念漂移。适用于表格分类和回归任务。
创建时间:
2026-03-15
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作