CalArena

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/super-anonymous-researcher/CalArena

下载链接

链接失效反馈

官方服务：

资源简介：

CalArena是一个用于评估分类模型后验校准方法的大规模基准数据集。该数据集覆盖了表格数据和计算机视觉领域的7个基准测试，包含数百个（数据集，模型）对，涵盖三种问题类型（二分类、多分类和大规模多分类）。每个基准条目为一个`(p_cal, y_cal, p_test, y_test)`元组，包含校准集和测试集的预测概率及真实标签。数据集文件包括多个HDF5和CSV文件，分别存储不同任务类型（二分类、多分类）的数据和实验索引。数据集适用于后验校准算法的基准测试、研究模型类型与校准难度之间的关系，以及开发新的校准方法。数据集采用CC BY 4.0许可，并包含来自多个上游数据源的模型预测结果。

CalArena is a large-scale benchmark dataset for evaluating posterior calibration methods for classification models. The dataset covers 7 benchmarks in tabular data and computer vision fields, containing hundreds of (dataset, model) pairs across three problem types (binary classification, multi-class classification, and large-scale multi-class classification). Each benchmark entry is a `(p_cal, y_cal, p_test, y_test)` tuple, containing predicted probabilities and true labels for the calibration set and test set. The dataset files include multiple HDF5 and CSV files, storing data and experiment indices for different task types (binary classification, multi-class classification). The dataset is suitable for benchmarking posterior calibration algorithms, studying the relationship between model types and calibration difficulty, and developing new calibration methods. The dataset is licensed under CC BY 4.0 and includes model predictions from multiple upstream data sources.

创建时间：

2026-05-03

原始信息汇总

CalArena 数据集详情

数据集概述

CalArena 是一个用于评估分类模型事后校准（post-hoc calibration）方法的大规模基准测试数据集。它覆盖了7个基准测试，涵盖表格数据和计算机视觉领域，包含数百个（数据集，模型）对以及三种问题类型（二分类、多分类和大规模多分类）。

数据集的每个条目是一个 (p_cal, y_cal, p_test, y_test) 元组，即一个（数据集，模型）对的校准集和测试集的预测概率与真实标签。校准方法在校准集上拟合，在测试集上评估。

文件结构

文件	描述	大小
`Licenses.zip`	每个数据源的许可证文件	< 1 MB
`tabrepo-binary.h5`	二分类，经典表格模型	~36 MB
`tabrepo-binary-experiments.csv`	`tabrepo-binary` 的实验索引	< 1 MB
`tabarena-binary.h5`	二分类，现代表格基础模型	~26 MB
`tabarena-binary-experiments.csv`	`tabarena-binary` 的实验索引	< 1 MB
`cv-binary.h5`	二分类，计算机视觉模型	< 1 MB
`cv-binary-experiments.csv`	`cv-binary` 的实验索引	< 1 MB
`tabrepo-multiclass.h5`	多分类，经典表格模型	~115 MB
`tabrepo-multiclass-experiments.csv`	`tabrepo-multiclass` 的实验索引	< 1 MB
`tabarena-multiclass.h5`	多分类，现代表格基础模型	~11 MB
`tabarena-multiclass-experiments.csv`	`tabarena-multiclass` 的实验索引	< 1 MB
`cv-multiclass.h5`	多分类，计算机视觉模型	~39 MB
`cv-multiclass-experiments.csv`	`cv-multiclass` 的实验索引	< 1 MB
`imagenet-multiclass.h5`	1000类 ImageNet，计算机视觉模型	~1.5 GB
`imagenet-multiclass-experiments.csv`	`imagenet-multiclass` 的实验索引	< 1 MB

基准测试概览

基准测试	问题类型	基础模型数量	数据集数量	实验数量
`tabrepo-binary`	二分类	8	104 个表格数据集	832
`tabarena-binary`	二分类	11	30 个表格数据集	314
`cv-binary`	二分类	9	3 个 (CIFAR-10†, Breast, Pneumonia)	13
`tabrepo-multiclass`	多分类	8	65 个表格数据集	520
`tabarena-multiclass`	多分类	11	8 个表格数据集	84
`cv-multiclass`	多分类	10	6 个 (CIFAR-10, CIFAR-100, Birds, SVHN, Derma, OCT)	20
`imagenet-multiclass`	大规模多分类	8	1 个 (ImageNet)	8

† CIFAR-10 被转换为二分类（动物 vs 机器）。

基础模型

TabRepo（经典表格模型）：CatBoost, ExtraTrees, LightGBM, LinearModel, NeuralNetFastAI, NeuralNetTorch, RandomForest, XGBoost。
TabArena（现代表格模型）：TabPFN-v2.6, TabICLv2, RealTabPFN-v2.5, TabICL_GPU, LimiX_GPU, TabM_GPU, RealMLP_GPU, BetaTabPFN_GPU, ModernNCA_GPU, Mitra_GPU, TabDPT_GPU。
计算机视觉模型：ResNet, DenseNet, WideResNet, ViT, BEiT, ConvNeXt, Swin, EVA 等。

数据格式

HDF5 文件

每个 .h5 文件结构如下：

{dataset}/ {model}/ probas_cal float32 (n_cal,) # 二分类：正类概率；多分类：(n_cal, n_classes) labels_cal int32 (n_cal,) probas_test float32 (n_test,) # 形状约定同上 labels_test int32 (n_test,)

文件级属性：

source — "tabrepo", "tabarena", "cv", 或 "imagenet"
problem_type — "binary" 或 "multiclass"

所有概率均为有效值（非负，多分类概率和为1）。标签为从0开始的整数。

实验 CSV 文件

每个 {benchmark}-experiments.csv 列出每个（数据集，模型）对的一行数据：

列名	描述
`dataset`	数据集名称（匹配 HDF5 组键）
`model`	模型名称（匹配 HDF5 组键）
`cal_size`	校准样本数量
`test_size`	测试样本数量
`n_classes`	类别数量（仅多分类基准）
`tabrepo_fold` / `tabarena_fold`	使用的折索引
`tabrepo_config` / `tabarena_config`	选定的最佳超参数配置

数据集构建

校准/测试集划分

对于 TabRepo 和 TabArena，校准集对应各自仓库的验证折，测试集是保留的测试集，确保基础模型在训练期间未见过校准集。
对于计算机视觉数据集，校准和测试集是原始数据源提供的固定划分。

排除的数据集

由于上游仓库中的错误，以下数据集被排除：

TabRepo 二分类：MiniBooNE
TabRepo 多分类：jannis, kropt, shuttle

预期用途

在各种分类任务上对事后校准算法进行基准测试
研究模型类型、数据集特征和校准难度之间的关系
利用预先计算的概率估计开发新的校准方法

许可证

基准数据以 CC BY 4.0 发布。下游模型预测来源保留其原始许可证。

搜集汇总

数据集介绍

构建方式

CalArena数据集是为评估分类模型事后校准方法而构建的大规模基准。其核心在于收集了涵盖表格数据与计算机视觉领域的七大基准测试，涉及数百个（数据集，模型）配对，横跨二分类、多分类及大规模多分类三种问题类型。每个基准条目以（p_cal, y_cal, p_test, y_test）四元组形式存储，即来自某一（数据集，模型）配对的校准集与测试集的预测概率及真实标签。校准方法在校准集上拟合，并在测试集上评估性能。对于表格数据，校准集源自上游仓库的验证集，测试集为留出集，确保模型在训练过程中从未见过校准数据；计算机视觉数据集则沿用原始数据源的固定划分。数据集的生成脚本均存放于CalArena代码仓库中。

特点

该数据集最显著的特点在于其规模宏大且覆盖全面。数据总量在100万至1000万之间，包含七个专门设计的基准子集，如tabrepo-binary和cv-multiclass等，分别对应经典表格模型、现代表格基础模型以及视觉模型。每个子集内汇集了多个数据集（例如表格领域多达104个）以及多种基础模型（如CatBoost、XGBoost、ViT等），形成了数千个独立的实验场景。数据以HDF5文件格式高效存储，结构清晰，每个（数据集，模型）组内包含校准和测试阶段的概率与标签。此外，配套的CSV文件提供了每次实验的元信息，如校准集大小、类别数及超参数配置，极大便利了多维度分析。

使用方法

使用者可通过两种途径轻松加载与利用CalArena。其一，直接使用Python的h5py库读取HDF5文件，例如通过循环遍历文件中的数据集与模型组，获取概率与标签数组，从而进行自定义校准方法的评估。其二，推荐使用CalArena官方代码仓库中的run_benchmark.py脚本，只需将HDF5及CSV文件置于指定目录，即可一键运行所有内置校准器，并自动汇总基准测试结果。该数据集专为事后校准算法的基准测试、模型类型与数据集特性对校准难度影响的研究，以及基于预计算概率估计的新型校准方法开发而设计，为不确定性量化领域提供了标准化的评估平台。

背景与挑战

背景概述

随着机器学习模型在关键决策场景中的广泛应用，模型输出的概率校准性（calibration）已成为评估模型可靠性的核心指标之一。CalArena数据集诞生于2025年，由匿名研究团队构建，旨在系统性地评估后验校准方法（post-hoc calibration）在大规模分类任务中的表现。该数据集覆盖了表格数据与计算机视觉两大领域，整合了7个基准测试集，包含数百个（数据集，模型）组合，涵盖二分类、多分类以及大规模多分类（如ImageNet的1000类）三类问题。通过提供统一的校准分割与测试分割的概率及标签数据，CalArena为研究者提供了一个标准化的评估平台，推动了后验校准方法的可重复性与公平比较，对不确定性量化与模型可靠性领域产生了深远影响。

当前挑战

CalArena所解决的领域问题在于，现有校准方法评估缺乏统一的大规模基准，导致不同方法间的比较结果难以复现且缺乏统计效力。构建过程中面临的挑战包括：第一，需要从多个异构数据源（如TabRepo、TabArena、NN_calibration等）整合模型预测概率，确保数据格式一致且无泄漏，例如校准集与测试集的严格分离；第二，处理不同模型类型（从传统树模型到现代基础模型）与数据集规模差异带来的计算与存储负担，如ImageNet多分类数据达1.5GB；第三，排除上游仓库中存在错误的数据集（如MiniBooNE、jannis等），以保证基准的干净与可靠性。这些挑战共同塑造了CalArena作为大型校准基准的独特价值与构建难度。

常用场景

经典使用场景

在不确定性量化与概率预测的研究领域中，模型校准——即确保预测置信度与真实正确率相匹配——始终是评估分类器可靠性的核心议题。CalArena作为一个大规模、系统化的校准基准数据集，为研究者提供了覆盖表格数据与计算机视觉领域的七个成熟基准，囊括数百个（数据集，模型）组合的三类分类问题（二分类、多分类及大规模多分类）。该数据集的经典使用场景在于，研究者可利用其统一格式的校准与测试概率对，对各类事后校准方法（如温度缩放、保序回归、贝叶斯分箱等）进行公平、可复现的性能评估，从而在统一的评价体系下揭示不同校准器的优势与局限性。

衍生相关工作

CalArena的发布极大地激发了事后校准方法研究领域的创新活力，催生了多项具有深远影响的衍生工作。研究者基于该基准提出了多种自适应温度缩放方法，引入类别不平衡条件下的校准损失函数设计；同时，也有工作利用该数据集的丰富实验配置，系统分析了深度网络过拟合与校准性能的权衡关系，推动了对预训练模型内在校准特性的理论解释。此外，CalArena所提供的标准化评估框架还被广泛用作新校准算法报告中的对比基准，成为验证校准方法有效性的权威参考，间接促进了如贝叶斯校准集成、基于最优传输的校准技术等前沿方向的探索与发展。

数据集最近研究