BeyondArena
收藏Data Foundry: 表格机器学习数据集的结构化规范与工具包
概述
Data Foundry 是下一代 TabArena 数据集的数据层,提供了一套用于管理表格机器学习数据集的完整框架。它包含一个轻量级的数据集模式定义、一个数据整理工具包、一个集合管理 API 以及一个基于 Git 的数据整理日志与仪表盘系统。
核心组件
1. 数据集模式 (Schema)
- DatasetMetadata: 定义数据集的基本元信息,包括唯一名称、年份、领域、来源、许可证等。
- PredictiveMLTaskMetadata: 定义预测任务元数据,包括目标列、问题类型(如二分类)、评估指标、分层策略等。
- PredictiveMLSplitsMetadata: 定义外层交叉验证的分割信息,支持不同分割策略的注释。
2. 数据集分割机制
支持三种分割模式,由 task_metadata.split_regime 标识:
- IID: 数据行独立,使用随机或分层分割。
- Temporal Non-IID: 数据按时间顺序排列,未来数据不能泄漏到过去。
- Grouped Non-IID: 同一组的所有数据必须一起留在同一折中。
3. 数据整理工具包 (Curation Toolkit)
dataset_checks.run_all_checks(): 提供数据完整性检查(基础统计、数值统计、类别统计等)。curation_recommendations: 提供推荐的分割辅助函数(IID、分组、时间序列)。CuratedContainer: 核心容器类,支持保存、加载、描述与校验功能。
4. 集合管理 API
- BEYOND_ARENA: 一个预定义的集合,对应 BeyondArena Datasets。
- DatasetCollection: 通过
(unique_name, uuid)定位数据集,自动从本地缓存或 Hugging Face 解析。 - 支持缓存管理、批量预下载和校验和验证。
5. 数据整理日志与仪表盘
- 数据集待办清单以 Markdown 文件形式存储在
curation/records/目录下。 - 提供本地仪表盘(
data-foundry-curation serve),支持类似电子表格的编辑体验。 - 仪表盘内置指南标签页,说明数据集筛选标准和加工规范。
- 仪表盘可发布静态站点至 GitHub Pages (tabarena.github.io/data-foundry),支持浏览器内搜索、排序、筛选。
安装要求
- Python 3.10+
- 从 PyPI 安装:
pip install data-foundry - 从源码安装:
git clone https://github.com/TabArena/data-foundry.git后执行uv pip install -e . - 开发安装:
uv pip install -e ".[dev,tests]"
数据集贡献流程
- 将
datasets/_template/_template.ipynb复制到datasets/_dev/<topic>/<unique_name>/<unique_name>.ipynb。 - 端到端运行笔记本,确保生成的单元格包含填充好的检查表和最终的
uuid/checksum。 - 提交 Pull Request,审查者会将笔记本移动到正确的
beyond_iid/子文件夹并更新最终的 UUID 列表。
引用
bibtex @misc{purucker2026iidgeneraltabularfoundation, title={Beyond IID: How General Are Tabular Foundation Models, Really?}, author={Lennart Purucker and Andrej Tschalzev and Nick Erickson and Gioia Blayer and David Holzmüller and Alan Arazi and Alexander Pfefferle and Mustafa Tajjar and Gaël Varoquaux and Frank Hutter}, year={2026}, eprint={2606.30410}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2606.30410}, }
仓库结构
data-foundry/ ├── src/data_foundry/ # 核心包 — 模式、容器、集合、检查、分割 ├── curation/ # 数据整理日志(git 跟踪)— records/*.md + vocabularies.yaml ├── datasets/ # 数据整理笔记本 │ ├── _template/ # 标准笔记本模板 │ ├── _dev/ # 贡献初稿存放 │ ├── _maintenance/ # 已发布数据集的修正/重跑 │ └── beyond_iid/ # 已发布数据集 — 由 final_uuid_list.py 固定 ├── examples/ # 可运行示例 ├── scripts/ # 一次性工具脚本 ├── tests/ # pytest 测试套件 └── local-data-warehouse/ # git 忽略 — 数据整理者存放原始数据和容器

- 1Beyond IID: How General Are Tabular Foundation Models, Really?Prior Labs; 弗莱堡大学; 曼海姆大学; 法国国家信息与自动化研究所·萨克雷; 以色列理工学院; 欧洲学习与智能系统研究所·蒂宾根; 祖泽·伊丽莎学校 · 2026年



