Benchmarking Suite for Active Model Selection

Name: Benchmarking Suite for Active Model Selection
Creator: 麻省理工学院
Published: 2025-08-01 01:56:28
License: 暂无描述

arXiv2025-08-01 更新2025-08-02 收录

下载链接：

https://github.com/justinkay/coda

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个由26个基准任务组成的集合，旨在捕捉各种模型选择场景。这些任务涉及计算机视觉和自然语言处理领域的实际用例，为未来模型选择研究提供了支持。数据集的创建过程是通过收集和标注候选模型的预测结果来进行的，这些预测结果被用来指导对测试数据点的标注，从而有效地区分出最佳候选模型。CODA方法通过在概率框架内建立分类器、类别和数据点之间的关系，实现了基于共识的主动模型选择。该数据集的应用领域是模型选择，旨在解决如何从众多可用的机器学习模型中选择最佳模型的问题。

This dataset is a collection of 26 benchmark tasks intended to capture a wide range of model selection scenarios. These tasks encompass real-world use cases in the fields of computer vision and natural language processing, supporting future research on model selection. The dataset is constructed by collecting and annotating the prediction results of candidate models, which are employed to guide the annotation of test data points, thus effectively identifying the optimal candidate model. The CODA method realizes consensus-based active model selection by establishing relationships among classifiers, categories, and data points within a probabilistic framework. The application domain of this dataset is model selection, aiming to solve the problem of selecting the optimal model from a vast array of available machine learning models.

提供机构：

麻省理工学院

创建时间：

2025-08-01

原始信息汇总

数据集概述：Consensus-Driven Active Model Selection (CODA)

数据集简介

名称：CODA（共识驱动的主动模型选择）
用途：用于解决从大量候选机器学习模型中选择最适合特定数据分析任务的模型的问题。
特点：通过候选模型之间的共识和分歧来指导标签获取过程，并使用贝叶斯推断更新对最佳模型的信念。

数据集内容

数据下载：数据下载链接 (3.25GB)
数据格式：未明确说明，但包含在下载链接中。

安装与运行

安装PyTorch和torchvision：根据官方安装指南安装适合的版本。
安装CODA： bash pip install -e .
运行实验： python main.py --task cifar10_5592 --method coda

结果查看

结果保存：结果保存在由MLFlow管理的SQLite数据库中。
结果可视化：使用mlflow ui --backend-store-uri sqlite:///coda.sqlite可视化结果。
结果聚合：运行python scripts/aggregate_results.py聚合不同种子结果。

性能表现

优势：CODA显著优于现有方法，减少发现最佳模型所需的标注工作量高达70%以上。

参考文献

标题：Consensus-Driven Active Model Selection
作者：Justin Kay, Grant Van Horn, Subhransu Maji, Daniel Sheldon, Sara Beery
会议：ICCV 2025 Highlight

搜集汇总

数据集介绍

构建方式

在机器学习模型日益普及的背景下，Benchmarking Suite for Active Model Selection数据集的构建旨在解决模型选择的核心挑战。该数据集通过整合26个基准任务，涵盖了计算机视觉和自然语言处理领域的多样化场景。构建过程中，研究者首先收集了来自HuggingFace Models等平台的预训练模型，并在多个测试集上生成预测结果。随后，采用主动学习策略，利用CODA（共识驱动的主动模型选择）方法，通过模型间的共识与分歧信息指导标签获取过程，显著降低了传统验证集标注所需的人力成本。数据集最终形式为元组(p, y)，其中p包含所有模型在未标注测试集上的预测，y为对应的真实标签。

特点

该数据集的核心特点体现在三个方面：首先，其覆盖范围广泛，包含从简单分类到复杂领域自适应任务的26个基准，涉及2至182个类别不等的多类分类问题；其次，数据集创新性地采用主动学习范式，通过CODA方法将标注需求降低了70%以上，在部分任务中仅需25个标注样本即可识别最优模型；最后，数据集特别关注模型间的关联性，通过概率框架建模分类器、类别和数据点之间的复杂关系，突破了传统方法将模型视为独立个体的局限，为研究模型共识机制提供了宝贵资源。

使用方法

使用该数据集时，研究者可通过CODA框架实现高效的模型选择。具体流程分为三步：初始化阶段利用模型预测共识构建混淆矩阵的狄利克雷先验；主动学习阶段基于PBest分布计算每个数据点的期望信息增益，选择最具区分性的样本进行标注；更新阶段根据新获取的标签调整模型性能评估。基准评估采用后悔值（regret）指标，对比当前选择模型与真实最优模型的性能差距。数据集特别适用于研究标签效率、跨域模型选择等场景，使用者可通过提供的预测文件和真实标签，复现论文中的主动学习策略或开发新算法。

背景与挑战

背景概述

Benchmarking Suite for Active Model Selection数据集由MIT和UMass Amherst的研究团队于2025年创建，旨在解决预训练模型激增带来的模型选择难题。该数据集包含26个跨计算机视觉和自然语言处理的基准任务，涵盖野生动物监测、医学影像等多样化场景。核心创新点在于提出的CODA方法，通过贝叶斯框架建模分类器间的共识与分歧，将发现最优模型所需的标注量减少70%以上，显著提升了传统基于验证集的模型选择效率。该数据集已成为测试时间模型选择领域的重要基准，为无监督域适应等研究方向提供了标准化评估平台。

当前挑战

该数据集主要挑战体现在两方面：领域层面，传统模型选择方法依赖大量标注验证数据，而现实场景中标注成本高昂且分布偏移问题严重；构建层面，需解决模型间独立假设导致的低效问题，以及类别相关性建模的复杂性。具体挑战包括：1) 在模型预测存在系统性偏差时（如CivilComments任务）准确评估性能，2) 处理极端类别不平衡场景（如iWildCam的182类分类），3) 跨模态任务（视觉与文本）的统一评估框架设计，4) 在初始无标注阶段通过共识先验有效初始化模型置信度。

常用场景

经典使用场景

Benchmarking Suite for Active Model Selection 数据集在机器学习模型选择领域具有广泛的应用。该数据集通过整合26个不同的模型选择任务，涵盖了计算机视觉和自然语言处理等多个领域，为研究者提供了一个标准化的评估平台。其经典使用场景包括在有限的标注预算下，通过主动学习策略从候选模型池中高效识别最优模型。数据集特别适用于评估模型在跨域分布变化下的泛化能力，例如在野生动物监测图像分类与医学影像分析中比较预训练模型的迁移性能。

衍生相关工作

该数据集催生了多个重要研究方向：1) 基于共识的无监督模型选择方法（如EnsV），利用模型预测一致性替代标注验证；2) 概率标注聚合框架的改进工作，将DS模型扩展到多模态场景；3) 混合式评估范式，如同时进行主动学习与模型选择的联合优化。相关经典工作包括ModelSelector的标签效率优化、VMA的方差最小化方法，以及Active Testing的损失估计框架，这些方法均在CODA构建的26任务基准上进行了系统性对比验证。

数据集最近研究