five

BeyondArena

收藏
arXiv2026-06-29 更新2026-07-01 收录
下载链接:
https://github.com/TabArena/data-foundry
下载链接
链接失效反馈
官方服务:
资源简介:
BeyondArena是由Prior Labs、弗莱堡大学等多家研究机构联合创建的首个统一化表格数据基准测试集,旨在系统评估表格基础模型在多样化任务中的泛化能力。该数据集包含142个经过严格人工筛选的高质量表格数据集,覆盖从微小规模(100样本)到大规模(100万样本)的数据量级,并包含独立同分布、时序和分组三种任务类型,数据来源整合了21个现有基准测试和公共数据仓库。数据集通过DataFoundry框架进行标准化处理,采用可复现的元数据模式进行管理,主要应用于推动表格机器学习模型在非独立同分布场景下的性能研究,解决传统基准测试在现实应用场景代表性不足的问题。

BeyondArena is the first unified tabular data benchmark jointly created by Prior Labs, University of Freiburg and multiple other research institutions. It aims to systematically evaluate the generalization capabilities of tabular foundation models across diverse tasks. This dataset includes 142 high-quality tabular datasets that have been rigorously manually curated, covering data scales ranging from tiny-scale (100 samples) to large-scale (1 million samples), and encompasses three task types: independent and identically distributed (IID), temporal, and grouped. Its data sources integrate 21 existing benchmarks and public data repositories. The dataset is standardized via the DataFoundry framework and managed using a reproducible metadata paradigm. It is primarily applied to advance performance research of tabular machine learning models in non-independent and identically distributed (non-IID) scenarios, addressing the issue that traditional benchmarks lack sufficient representativeness in real-world application scenarios.
提供机构:
Prior Labs; 弗莱堡大学; 曼海姆大学; 法国国家信息与自动化研究所·萨克雷; 以色列理工学院; 欧洲学习与智能系统研究所·蒂宾根; 祖泽·伊丽莎学校
创建时间:
2026-06-29
原始信息汇总

Data Foundry: 表格机器学习数据集的结构化规范与工具包

概述

Data Foundry 是下一代 TabArena 数据集的数据层,提供了一套用于管理表格机器学习数据集的完整框架。它包含一个轻量级的数据集模式定义、一个数据整理工具包、一个集合管理 API 以及一个基于 Git 的数据整理日志与仪表盘系统。

核心组件

1. 数据集模式 (Schema)

  • DatasetMetadata: 定义数据集的基本元信息,包括唯一名称、年份、领域、来源、许可证等。
  • PredictiveMLTaskMetadata: 定义预测任务元数据,包括目标列、问题类型(如二分类)、评估指标、分层策略等。
  • PredictiveMLSplitsMetadata: 定义外层交叉验证的分割信息,支持不同分割策略的注释。

2. 数据集分割机制

支持三种分割模式,由 task_metadata.split_regime 标识:

  • IID: 数据行独立,使用随机或分层分割。
  • Temporal Non-IID: 数据按时间顺序排列,未来数据不能泄漏到过去。
  • Grouped Non-IID: 同一组的所有数据必须一起留在同一折中。

3. 数据整理工具包 (Curation Toolkit)

  • dataset_checks.run_all_checks(): 提供数据完整性检查(基础统计、数值统计、类别统计等)。
  • curation_recommendations: 提供推荐的分割辅助函数(IID、分组、时间序列)。
  • CuratedContainer: 核心容器类,支持保存、加载、描述与校验功能。

4. 集合管理 API

  • BEYOND_ARENA: 一个预定义的集合,对应 BeyondArena Datasets
  • DatasetCollection: 通过 (unique_name, uuid) 定位数据集,自动从本地缓存或 Hugging Face 解析。
  • 支持缓存管理、批量预下载和校验和验证。

5. 数据整理日志与仪表盘

  • 数据集待办清单以 Markdown 文件形式存储在 curation/records/ 目录下。
  • 提供本地仪表盘(data-foundry-curation serve),支持类似电子表格的编辑体验。
  • 仪表盘内置指南标签页,说明数据集筛选标准和加工规范。
  • 仪表盘可发布静态站点至 GitHub Pages (tabarena.github.io/data-foundry),支持浏览器内搜索、排序、筛选。

安装要求

  • Python 3.10+
  • 从 PyPI 安装:pip install data-foundry
  • 从源码安装:git clone https://github.com/TabArena/data-foundry.git 后执行 uv pip install -e .
  • 开发安装:uv pip install -e ".[dev,tests]"

数据集贡献流程

  1. datasets/_template/_template.ipynb 复制到 datasets/_dev/<topic>/<unique_name>/<unique_name>.ipynb
  2. 端到端运行笔记本,确保生成的单元格包含填充好的检查表和最终的 uuid / checksum
  3. 提交 Pull Request,审查者会将笔记本移动到正确的 beyond_iid/ 子文件夹并更新最终的 UUID 列表。

引用

bibtex @misc{purucker2026iidgeneraltabularfoundation, title={Beyond IID: How General Are Tabular Foundation Models, Really?}, author={Lennart Purucker and Andrej Tschalzev and Nick Erickson and Gioia Blayer and David Holzmüller and Alan Arazi and Alexander Pfefferle and Mustafa Tajjar and Gaël Varoquaux and Frank Hutter}, year={2026}, eprint={2606.30410}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2606.30410}, }

仓库结构

data-foundry/ ├── src/data_foundry/ # 核心包 — 模式、容器、集合、检查、分割 ├── curation/ # 数据整理日志(git 跟踪)— records/*.md + vocabularies.yaml ├── datasets/ # 数据整理笔记本 │ ├── _template/ # 标准笔记本模板 │ ├── _dev/ # 贡献初稿存放 │ ├── _maintenance/ # 已发布数据集的修正/重跑 │ └── beyond_iid/ # 已发布数据集 — 由 final_uuid_list.py 固定 ├── examples/ # 可运行示例 ├── scripts/ # 一次性工具脚本 ├── tests/ # pytest 测试套件 └── local-data-warehouse/ # git 忽略 — 数据整理者存放原始数据和容器

搜集汇总
数据集介绍
main_image_url
构建方式
BeyondArena 的构建源于对现有表格基础模型评估碎片化现状的深刻反思。研究团队从 21 个基准研究和公共数据仓库中搜集了 1128 个数据集,并遵循严格的筛选协议进行人工精选。数据集需满足无重复、非小样本、源自真实预测任务、代表实际应用场景且无伦理争议等标准。最终,142 个高质量数据集入选,覆盖 IID、时序和分组三种任务类型,样本规模横跨百级至百万级,特征维度从低到高,并包含文本和高基数类别等复杂特征类型。所有数据集均通过新引入的 DataFoundry 框架进行统一处理与元数据标注,确保了数据集的标准化与可复现性。
特点
BeyondArena 的核心特点在于其全面性与挑战性。作为首个统一的全景式基准,它首次将 IID 与非 IID(时序、分组)任务整合在同一评估框架下,打破了以往基准的碎片化格局。数据集在样本规模、特征维度、特征类型和应用领域上均展现出极高的多样性,从医疗健康到金融营销,跨度广泛。尤为关键的是,该基准专门纳入了传统基准常被忽视的艰巨场景,如大规模数据、高维特征、高基数类别和时序依赖等,从而能够精准地揭示现有模型在真实世界应用中的优势与短板,推动领域从追求 IID 数据边际改进转向攻克更具挑战性的难题。
使用方法
使用 BeyondArena 进行模型评估需遵循其标准化的实验流程。用户可从其开放生态系统(TabArena)中获取所有代码与数据。首先,根据任务类型(IID、时序、分组)选择相应的外层数据划分策略,确保评估协议贴近实际应用。其次,采用基于交叉验证的内层验证与超参数调优协议,并针对小样本数据使用重复交叉验证以避免过拟合。最后,通过 ROC AUC(二分类)、对数损失(多分类)和 RMSE(回归)等鲁棒指标量化模型性能,并利用 Elo 评分和可改进性等聚合指标进行综合比较。基准已集成 11 种先进模型(包括树模型、深度学习模型及三种开源表格基础模型)的标准化实现,用户可直接运行并复现结果。
背景与挑战
背景概述
BeyondArena 诞生于2026年,由来自Prior Labs、弗莱堡大学、曼海姆大学、INRIA Saclay等多所顶尖机构的研究人员联合创建,旨在应对表格基础模型评估碎片化的严峻挑战。随着表格基础模型在学术与工业界迅速兴起,不同学科对其进行了多样化评估,但这些评估因基准软件和协议的分裂而彼此孤立,导致模型研究者过度聚焦于独立同分布数据上的边际改进,忽略了更具挑战性的场景。该数据集的核心研究问题是:现有表格基础模型在超越独立同分布的真实世界应用中的泛化能力究竟如何?通过统合142个涵盖不同任务类型、样本规模和特征类型的数据集,BeyondArena为领域带来了前所未有的评估广度,首次揭示了基础模型在非独立同分布、大规模和高维数据上的局限性,有力推动了表格机器学习从封闭测试走向真实场景的范式转变。
当前挑战
BeyondArena所面临的挑战首先体现在领域问题的复杂性上:现有表格基础模型在微小至中等规模的独立同分布数据上表现优异,但在非独立同分布(如时序数据、分组数据)、大规模和高维数据集上,传统基于树和深度学习的模型依然占据主导地位。这种性能倒挂凸显出当前基础模型在真实世界部署中的泛化瓶颈,亟待更强大的模型架构与训练策略来解决。其次,数据集构建过程亦充满了艰辛挑战:研究团队从1128个候选数据集中遵循严格的手工遴选协议,逐一排除重复、非预测任务、质量问题及伦理争议,最终仅保留142个高质量数据集,甄选率约12.6%。此外,为支持非独立同分布任务,团队创新性地引入了DataFoundry框架与元数据模式,统一了不同源数据格式、特征类型与验证协议,这一大规模数据治理与标准化工程耗费了巨大的计算与人力成本。
常用场景
经典使用场景
在表格数据机器学习的学术研究中,BeyondArena被广泛用于评估模型在多样化任务类型上的泛化能力。该基准涵盖了独立同分布(IID)、时间序列和分组数据等多种任务,并跨越从小型到大型的样本规模与特征维度。研究者常利用BeyondArena系统性地比较表格基础模型与传统树模型及深度学习的性能优劣,特别是在非独立同分布、高维度和高基数类别特征等最具挑战性的场景下,以揭示现有模型的真正局限与优势所在。
衍生相关工作
BeyondArena的提出催生了一系列重要的后续研究工作。其整合的DataFoundry框架与标准化元数据模式为表格数据策展树立了新标杆,促进了可复现研究的开展。基于BeyondArena的发现,研究者们开始深入探究表格基础模型在时间序列预测、图节点分类、贝叶斯优化及各类应用科学领域中的表现与适应性问题。此外,该基准启发了对模型调优策略、概率校准方法以及预处理流程的进一步改进,推动了针对分组数据、文本特征等特殊场景的专用模型与策略的研发。
数据集最近研究
最新研究方向
BeyondArena基准的提出标志着表格基础模型评估范式的重大转型。该数据集构建了一个涵盖独立同分布与非独立同分布任务、跨样本量与特征维度尺度的统一评估平台,其核心洞察在于:现有表格基础模型在小规模独立同分布数据上占据优势,但在非独立同分布、大规模及高维场景中仍被传统树模型与深度学习模型超越。这一发现揭示了当前研究过度聚焦于独立同分布边际改进的局限性,为领域指明了向泛化性更强、挑战性更高的方向演进的关键路径,推动了真正通用表格基础模型的研发进程。
相关研究论文
  • 1
    Beyond IID: How General Are Tabular Foundation Models, Really?Prior Labs; 弗莱堡大学; 曼海姆大学; 法国国家信息与自动化研究所·萨克雷; 以色列理工学院; 欧洲学习与智能系统研究所·蒂宾根; 祖泽·伊丽莎学校 · 2026年
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务