CalArena

Name: CalArena
Creator: 法国国家信息与自动化研究所; 法国国家信息与自动化研究所·高等师范学院; 法国国家信息与自动化研究所; 法国国家信息与自动化研究所·高等师范学院; 法国国家信息与自动化研究所
Published: 2026-05-29 00:31:36
License: 暂无描述

arXiv2026-05-29 更新2026-05-30 收录

下载链接：

https://huggingface.co/datasets/probkit/CalArena

下载链接

链接失效反馈

官方服务：

资源简介：

CalArena是由法国国家信息与自动化研究所等机构构建的大规模后验校准基准数据集，旨在系统评估机器学习模型的概率校准性能。该数据集整合了来自TabRepo、TabArena及多个计算机视觉数据源的预测结果，涵盖表格数据和图像分类任务，包含二分类、多分类及大规模分类场景，总计约2000个实验条目，数据量达1.71GB，以HDF5格式封装提供。数据集通过标准化处理统一了不同模型架构（包括经典机器学习模型、深度学习模型及基础模型）的预测输出，并配套完整的评估工具链。该数据集主要应用于机器学习不确定性量化领域，为解决模型概率预测与真实频率失准的校准问题提供权威评估框架，推动可靠概率估计方法的发展。

CalArena is a large-scale posterior calibration benchmark dataset developed by institutions including the French National Institute for Research in Computer Science and Automation (INRIA) and other relevant organizations, aiming to systematically evaluate the probabilistic calibration performance of machine learning models. This dataset aggregates prediction results from TabRepo, TabArena and multiple computer vision data sources, covering tabular data and image classification tasks across binary classification, multi-classification and large-scale classification scenarios. It contains approximately 2,000 experimental entries in total, with a total data size of 1.71 GB, and is distributed in HDF5 format. The dataset unifies the prediction outputs of diverse model architectures, including classical machine learning models, deep learning models and foundation models, via standardized processing, and is paired with a comprehensive evaluation toolchain. Primarily applied in the field of machine learning uncertainty quantification, this dataset provides an authoritative evaluation framework for addressing the calibration issue where model probabilistic predictions deviate from real-world frequencies, and facilitates the advancement of reliable probability estimation methodologies.

提供机构：

法国国家信息与自动化研究所; 法国国家信息与自动化研究所·高等师范学院; 法国国家信息与自动化研究所; 法国国家信息与自动化研究所·高等师范学院; 法国国家信息与自动化研究所

创建时间：

2026-05-29

原始信息汇总

数据集概述

CalArena 是一个用于评估分类模型后验校准方法的大规模基准数据集。它涵盖了表格数据和计算机视觉领域的 7 个基准测试，包含数百个（数据集，模型）对，以及三种问题类型（二分类、多分类和大规模多分类）。

核心数据格式

每个基准条目是一个 (p_cal, y_cal, p_test, y_test) 元组，代表一个（数据集，模型）对的校准集和测试集的预测概率及真实标签。校准方法在校准集上拟合，在测试集上评估。

基准测试概览

基准测试	问题类型	基础模型	数据集数量	实验数量
`tabrepo-binary`	二分类	8 种经典表格模型	104	832
`tabarena-binary`	二分类	11 种先进表格模型	30	314
`cv-binary`	二分类	9 种深度视觉模型	3	13
`tabrepo-multiclass`	多分类	8 种经典表格模型	65	520
`tabarena-multiclass`	多分类	11 种现代表格模型	8	84
`cv-multiclass`	多分类	10 种深度视觉模型	5	20
`imagenet-multiclass`	大规模多分类	8 种深度视觉模型	1	8

文件说明

文件	描述	大小
`Licenses.zip`	各数据源许可证文件	< 1 MB
`tabrepo-binary.h5`	二分类，经典表格模型	~36 MB
`tabrepo-binary-experiments.csv`	`tabrepo-binary` 的实验索引	< 1 MB
`tabarena-binary.h5`	二分类，现代表格基础模型	~26 MB
`tabarena-binary-experiments.csv`	`tabarena-binary` 的实验索引	< 1 MB
`cv-binary.h5`	二分类，计算机视觉模型	< 1 MB
`cv-binary-experiments.csv`	`cv-binary` 的实验索引	< 1 MB
`tabrepo-multiclass.h5`	多分类，经典表格模型	~115 MB
`tabrepo-multiclass-experiments.csv`	`tabrepo-multiclass` 的实验索引	< 1 MB
`tabarena-multiclass.h5`	多分类，现代表格基础模型	~11 MB
`tabarena-multiclass-experiments.csv`	`tabarena-multiclass` 的实验索引	< 1 MB
`cv-multiclass.h5`	多分类，计算机视觉模型	~39 MB
`cv-multiclass-experiments.csv`	`cv-multiclass` 的实验索引	< 1 MB
`imagenet-multiclass.h5`	1000 类 ImageNet，计算机视觉模型	~1.5 GB
`imagenet-multiclass-experiments.csv`	`imagenet-multiclass` 的实验索引	< 1 MB

HDF5 数据格式

每个 .h5 文件的结构如下：

顶层为数据集名称（如 {dataset}/）
下一层为模型名称（如 {model}/）
每个模型组包含以下数据集：
- probas_cal (float32)：校准集概率（二分类为 (n_cal,)，多分类为 (n_cal, n_classes)）
- labels_cal (int32)：校准集标签，形状为 (n_cal,)
- probas_test (float32)：测试集概率，形状约定同上
- labels_test (int32)：测试集标签，形状为 (n_test,)
文件级属性：source（"tabrepo", "tabarena", "cv", "imagenet"）和 problem_type（"binary", "multiclass"）

实验 CSV 文件格式

每个 {benchmark}-experiments.csv 文件每行对应一个（数据集，模型）对，包含以下列：dataset、model、cal_size、test_size、n_classes（仅多分类基准）、tabrepo_fold / tabarena_fold（折索引）、tabrepo_config / tabarena_config（最佳超参数配置）。

基础模型来源

TabRepo（经典表格模型）：CatBoost, ExtraTrees, LightGBM, LinearModel, NeuralNetFastAI, NeuralNetTorch, RandomForest, XGBoost。
TabArena（现代表格模型）：TabPFN-v2.6, TabICLv2, RealTabPFN-v2.5, TabICL_GPU, LimiX_GPU, TabM_GPU, RealMLP_GPU, BetaTabPFN_GPU, ModernNCA_GPU, Mitra_GPU, TabDPT_GPU。
计算机视觉模型：ResNet, DenseNet, WideResNet, ViT, BEiT, ConvNeXt, Swin, EVA 等，具体因数据集而异。

数据集构建

校准/测试集划分：对于 TabRepo 和 TabArena，校准集对应于验证折，测试集为保留的测试集；对于计算机视觉数据集，使用原始数据源提供的固定划分。
排除的数据集：TabRepo 二分类排除 MiniBooNE；TabRepo 多分类排除 jannis, kropt, shuttle。

许可证

基准数据采用 CC BY 4.0 许可证。下游模型预测的来源保留其原始许可证。

引用

bibtex @article{calarena2026, title = {CalArena: A Large-Scale Post-Hoc Calibration Benchmark}, author = {Eug{`e}ne Berta and David Holzm{"u}ller and Francis Bach and Michael I. Jordan}, journal = {arXiv preprint arXiv:2605.30188}, year = {2026}, url = {https://arxiv.org/abs/2605.30188}, }

搜集汇总

数据集介绍

构建方式

在机器学习领域，分类器的概率校准质量对于高可靠性应用至关重要。CalArena基准数据集基于对近2000个实验的聚合构建，涵盖了表格数据与计算机视觉两大模态，涉及二分类、多分类以及大规模多分类任务。数据集的预测结果来自多样化的经典模型、现代深度学习架构以及基础模型。研究团队从TabRepo、TabArena及CV公开资源中系统收集并标准化模型预测，将其整合为七个独立的HDF5文件，并附有详尽的CSV表格以透明化每个实验的组成。为降低复现门槛，数据已在Hugging Face平台以1.71GB的总量重新发布，用户无需下载数百GB的原始数据即可直接使用，从而为事后校准方法提供了统一的、可复现的评估框架。

特点

CalArena数据集的一大鲜明特征在于其无与伦比的规模与系统性。它汇集了约2000个跨领域的分类实验，覆盖表格数据上的传统机器学习与先进架构、计算机视觉中的卷积网络与视觉变换器，以及像ImageNet这样高达1000类的复杂场景。数据集创新性地提出了基于恰当评分规则的事后改进指标，替代传统校准误差估计量，既能捕捉校准质量的提升，又能反映对模型预测性能的潜在损害。此外，该基准对数十种事后校准方法提供了统一、可重复的实现，并揭示了平滑校准函数优于分箱方法、专用多类方法在高维设置中不可或缺等关键模式，为社区提供了深刻的洞见与方向。

使用方法

使用CalArena数据集评估新校准方法的过程极为流畅。用户首先从Hugging Face下载基准的HDF5文件，然后仅需实现fit(p_cal, y_cal)和predict_proba(p_test)两个核心接口，并在专用配置文件中注册校准器。通过运行单一命令行指令，评估脚本便会自动完成所有实验的数据加载、校准器应用、指标计算及结果汇总。基准还提供了SLURM批处理脚本以支持大规模并行评估，以及用于统计分析的实用工具，涵盖自助法置信区间、Bradley-Terry Elo评分和可视化函数。这一即插即用的设计极大地降低了研究者的使用门槛，推动了事后校准研究的标准化与可重复性。

背景与挑战

背景概述

在机器学习领域，概率预测的可靠性对于高风险决策至关重要，然而现代分类器常常存在校准不良的问题。为应对这一挑战，后验校准（Post-hoc Calibration）作为一种轻量级、模型无关的解决方案被广泛采用。然而，现有研究因评估基准规模小、方法评估不一致、缺乏可复现的实现等问题，导致难以确定何种校准方法在实践中最为有效。CalArena数据集由Eugène Berta、David Holzmüller、Francis Bach、Michael I. Jordan等研究人员于2026年创建，旨在填补这一空白。该基准涵盖近2000个实验，涉及表格数据与计算机视觉任务，包括二分类、多分类及大规模分类场景，集成了从经典模型到现代深度学习及基础模型的多样化预测，并统一实现了数十种后验校准方法。CalArena的提出为后验校准方法的公平、全面比较提供了标准化平台，推动了该领域的可靠评估与进展。

当前挑战

CalArena数据集旨在解决的领域问题包括：后验校准方法众多但缺乏系统性比较，传统校准误差估计量（如ECE）存在设计敏感性导致比较不可靠，以及现有评估常忽略校准对模型预测性能（精炼误差）的潜在损害。构建过程中面临的挑战包括：收集并标准化来自TabRepo、TabArena等多个大型外部仓库的预测数据，需处理数百GB的数据，资源消耗巨大；确保涵盖不同模态（表格、视觉）、任务类型（二分类、多分类）及模型架构（经典模型、深度学习、基础模型）的多样性；统一不同校准方法的实现并保证可复现性；设计合理的评估指标（如后验改进PHI）以平衡校准质量与对预测性能的影响；以及建立高效、用户友好的基准运行与分析框架，降低新方法的评估门槛。

常用场景

经典使用场景

在机器学习的诸多高风险应用领域，如医疗诊断、自动驾驶和金融风控中，模型输出的概率校准质量直接决定了决策的可靠性。CalArena作为一个大规模、标准化的后处理校准基准，被广泛应用于评估和比较数十种校准方法在二分类、多分类及大规模多分类任务上的表现。研究者只需实现fit和predict_proba两个接口，即可在涵盖近2000个实验的基准上对新方法进行系统评测，涵盖经典机器学习模型、现代深度学习架构及基础模型。该基准通过统一的评估框架和即插即用的工具链，为后处理校准方法的公平比较提供了坚实平台。

衍生相关工作

CalArena的发布催生了多项重要后续研究工作。基于其揭示的平滑校准函数优于分箱方法的规律，研究者进一步探索了单调性约束和正则化结构在校准中的价值，例如在CatBoost等梯度提升模型中引入轻量化和单调性约束后，校准性能获得显著提升（如图3所示）。该基准还推动了对原生多分类方法在高维设定中必要性的深入分析，促使研究者开发了结构化向量缩放（SVS）和结构化矩阵缩放（SMS）等带有层次化正则化的新方法。此外，该基准的开放式架构和定期更新的排行榜机制，正逐步成为社区共同维护的校准方法评估基础设施，有力促进了可重复研究和标准化比较的普及。

数据集最近研究