CalArena
收藏数据集概述
CalArena 是一个用于评估分类模型后验校准方法的大规模基准数据集。它涵盖了表格数据和计算机视觉领域的 7 个基准测试,包含数百个(数据集,模型)对,以及三种问题类型(二分类、多分类和大规模多分类)。
核心数据格式
每个基准条目是一个 (p_cal, y_cal, p_test, y_test) 元组,代表一个(数据集,模型)对的校准集和测试集的预测概率及真实标签。校准方法在校准集上拟合,在测试集上评估。
基准测试概览
| 基准测试 | 问题类型 | 基础模型 | 数据集数量 | 实验数量 |
|---|---|---|---|---|
tabrepo-binary |
二分类 | 8 种经典表格模型 | 104 | 832 |
tabarena-binary |
二分类 | 11 种先进表格模型 | 30 | 314 |
cv-binary |
二分类 | 9 种深度视觉模型 | 3 | 13 |
tabrepo-multiclass |
多分类 | 8 种经典表格模型 | 65 | 520 |
tabarena-multiclass |
多分类 | 11 种现代表格模型 | 8 | 84 |
cv-multiclass |
多分类 | 10 种深度视觉模型 | 5 | 20 |
imagenet-multiclass |
大规模多分类 | 8 种深度视觉模型 | 1 | 8 |
文件说明
| 文件 | 描述 | 大小 |
|---|---|---|
Licenses.zip |
各数据源许可证文件 | < 1 MB |
tabrepo-binary.h5 |
二分类,经典表格模型 | ~36 MB |
tabrepo-binary-experiments.csv |
tabrepo-binary 的实验索引 |
< 1 MB |
tabarena-binary.h5 |
二分类,现代表格基础模型 | ~26 MB |
tabarena-binary-experiments.csv |
tabarena-binary 的实验索引 |
< 1 MB |
cv-binary.h5 |
二分类,计算机视觉模型 | < 1 MB |
cv-binary-experiments.csv |
cv-binary 的实验索引 |
< 1 MB |
tabrepo-multiclass.h5 |
多分类,经典表格模型 | ~115 MB |
tabrepo-multiclass-experiments.csv |
tabrepo-multiclass 的实验索引 |
< 1 MB |
tabarena-multiclass.h5 |
多分类,现代表格基础模型 | ~11 MB |
tabarena-multiclass-experiments.csv |
tabarena-multiclass 的实验索引 |
< 1 MB |
cv-multiclass.h5 |
多分类,计算机视觉模型 | ~39 MB |
cv-multiclass-experiments.csv |
cv-multiclass 的实验索引 |
< 1 MB |
imagenet-multiclass.h5 |
1000 类 ImageNet,计算机视觉模型 | ~1.5 GB |
imagenet-multiclass-experiments.csv |
imagenet-multiclass 的实验索引 |
< 1 MB |
HDF5 数据格式
每个 .h5 文件的结构如下:
- 顶层为数据集名称(如
{dataset}/) - 下一层为模型名称(如
{model}/) - 每个模型组包含以下数据集:
probas_cal(float32):校准集概率(二分类为 (n_cal,),多分类为 (n_cal, n_classes))labels_cal(int32):校准集标签,形状为 (n_cal,)probas_test(float32):测试集概率,形状约定同上labels_test(int32):测试集标签,形状为 (n_test,)
- 文件级属性:
source("tabrepo", "tabarena", "cv", "imagenet")和problem_type("binary", "multiclass")
实验 CSV 文件格式
每个 {benchmark}-experiments.csv 文件每行对应一个(数据集,模型)对,包含以下列:dataset、model、cal_size、test_size、n_classes(仅多分类基准)、tabrepo_fold / tabarena_fold(折索引)、tabrepo_config / tabarena_config(最佳超参数配置)。
基础模型来源
- TabRepo(经典表格模型):CatBoost, ExtraTrees, LightGBM, LinearModel, NeuralNetFastAI, NeuralNetTorch, RandomForest, XGBoost。
- TabArena(现代表格模型):TabPFN-v2.6, TabICLv2, RealTabPFN-v2.5, TabICL_GPU, LimiX_GPU, TabM_GPU, RealMLP_GPU, BetaTabPFN_GPU, ModernNCA_GPU, Mitra_GPU, TabDPT_GPU。
- 计算机视觉模型:ResNet, DenseNet, WideResNet, ViT, BEiT, ConvNeXt, Swin, EVA 等,具体因数据集而异。
数据集构建
- 校准/测试集划分:对于 TabRepo 和 TabArena,校准集对应于验证折,测试集为保留的测试集;对于计算机视觉数据集,使用原始数据源提供的固定划分。
- 排除的数据集:TabRepo 二分类排除 MiniBooNE;TabRepo 多分类排除 jannis, kropt, shuttle。
许可证
基准数据采用 CC BY 4.0 许可证。下游模型预测的来源保留其原始许可证。
引用
bibtex @article{calarena2026, title = {CalArena: A Large-Scale Post-Hoc Calibration Benchmark}, author = {Eug{`e}ne Berta and David Holzm{"u}ller and Francis Bach and Michael I. Jordan}, journal = {arXiv preprint arXiv:2605.30188}, year = {2026}, url = {https://arxiv.org/abs/2605.30188}, }

- 1CalArena: A Large-Scale Post-Hoc Calibration Benchmark法国国家信息与自动化研究所; 法国国家信息与自动化研究所·高等师范学院; 法国国家信息与自动化研究所; 法国国家信息与自动化研究所·高等师范学院; 法国国家信息与自动化研究所 · 2026年



