carps

Name: carps
Creator: Leibniz University Hannover, Albert-Ludwigs University Freiburg, University of St Andrews, Sorbonne Université Paris, LMU Munich, University of Tübingen, ELLIS Institute Tübingen, L3S Research Center, Munich Center for Machine Learning
Published: 2025-06-06 23:01:39
License: 暂无描述

arXiv2025-06-06 更新2025-06-10 收录

下载链接：

https://www.github.com/automl/CARP-S

下载链接

链接失效反馈

官方服务：

资源简介：

carps是一个用于比较N个超参数优化器在M个基准任务上性能的基准框架。该框架提供了5个社区基准集合中的3336个任务和9个优化器家族的28个变体，是目前为止最大的用于评估和比较超参数优化方法的库。carps框架依赖于一个定制的轻量级接口，将优化器和基准任务连接起来，并具有一个分析管道，以促进在基准上评估优化器。为了解决开发和新方法比较时难以处理大量任务的问题，通过最小化子集在完整集合空间中的星形不一致性，获取一个具有代表性的任务子集。作为结果，提出了每个任务类型的10到30个多样化的任务子集，并包括重新计算子集的功能，以实现高效的评估。

CarPS is a benchmark framework for comparing the performance of N hyperparameter optimizers across M benchmark tasks. This framework provides 3,336 tasks from 5 community benchmark collections and 28 variants across 9 optimizer families, making it the largest library to date for evaluating and comparing hyperparameter optimization methods. The CarPS framework relies on a custom lightweight interface to connect optimizers and benchmark tasks, and includes an analysis pipeline to facilitate optimizer evaluation across benchmarks. To address the challenge of handling large volumes of tasks during development and new method comparison, a representative task subset is acquired by minimizing the star discrepancy of the subset within the full collection space. As a result, 10 to 30 diverse task subsets are proposed for each task type, alongside functionality to recompute subsets to enable efficient evaluation.

提供机构：

Leibniz University Hannover, Albert-Ludwigs University Freiburg, University of St Andrews, Sorbonne Université Paris, LMU Munich, University of Tübingen, ELLIS Institute Tübingen, L3S Research Center, Munich Center for Machine Learning

创建时间：

2025-06-06

搜集汇总

数据集介绍

构建方式

carps数据集是一个专注于超参数优化（HPO）的基准测试框架，旨在评估和比较不同优化器在多种基准任务上的性能。该数据集通过集成来自5个社区基准集合的3,336个任务和9个优化器家族的28种变体，构建了一个全面的HPO评估库。其构建过程采用了轻量级接口设计，将优化器和基准任务无缝连接，并引入了基于星差异（star discrepancy）的任务子集选择方法，以确保所选任务具有代表性和多样性。

特点

carps数据集的特点在于其覆盖了四种主要的HPO任务类型：黑盒优化（BB）、多保真度优化（MF）、多目标优化（MO）以及多保真度多目标优化（MOMF）。数据集通过星差异最小化方法，为每种任务类型提供了10至30个具有代表性的任务子集，显著降低了计算负担。此外，carps还提供了分析管道，便于对优化器的性能进行统计评估和可视化，支持高效的实验复现和大规模并行计算。

使用方法

使用carps数据集时，研究人员可以通过其统一的接口轻松集成新的优化器和基准任务。数据集支持通过Hydra工具在SLURM、Ray、RQ和Joblib等平台上无缝部署实验。用户可以选择开发子集进行快速原型设计，或使用测试子集进行无偏性能评估。分析管道提供了基于统计测试的排名和关键差异图，帮助用户直观比较不同优化器的性能。此外，数据集还支持通过Singularity容器实现实验的高度复现性。

背景与挑战

背景概述

carps（Comprehensive Automated Research Performance Studies）是一个专注于超参数优化（HPO）的基准测试框架，由Leibniz University Hannover等机构的研究团队于2025年提出。该框架旨在简化和标准化HPO方法的原型设计和性能评估，支持四种主要的HPO任务类型：黑盒优化（BB）、多保真度优化（MF）、多目标优化（MO）以及多保真度多目标优化（MOMF）。carps集成了来自5个社区基准集合的3,336个任务和9个优化器家族的28种变体，成为目前最全面的HPO评估库之一。其轻量级接口设计使得优化器和基准任务的集成更加便捷，同时提供了分析流水线以简化结果评估。

当前挑战

carps面临的挑战主要包括：1) 领域问题的挑战：HPO方法在多样化的任务类型（如高维黑盒优化或多目标场景）中的泛化能力不足，现有方法往往针对特定任务过拟合；2) 构建过程的挑战：处理大规模任务集合（3,336个任务）导致计算资源需求极高，且不同基准集合的任务分布不均衡可能引入评估偏差。为解决这些问题，carps提出通过星差异（star discrepancy）最小化来选取代表性任务子集，并划分开发集和测试集以确保评估效率和无偏性。此外，框架需要持续扩展以支持更多优化器和任务类型，同时保持接口的轻量化和易用性。

常用场景

经典使用场景

carps数据集作为超参数优化（HPO）领域的基准框架，其经典使用场景主要聚焦于评估和比较不同优化算法在多样化任务上的性能表现。该数据集通过整合来自5个社区基准集合的3,336个任务和9个优化器家族的28种变体，为研究者提供了全面的实验平台。在典型应用场景中，研究人员可利用carps对黑盒优化（BB）、多保真度（MF）、多目标（MO）以及多保真度多目标（MOMF）四种核心HPO任务类型进行系统化测试，尤其适用于验证新型优化算法在跨任务泛化性、计算效率及多目标权衡等方面的能力。

解决学术问题

carps数据集有效解决了超参数优化领域三个关键学术问题：一是通过标准化的轻量级接口消除了不同优化器与基准任务间的技术壁垒，显著提升了实验复现性；二是提出的基于星差异（star discrepancy）的任务子集选择方法，克服了传统全量评估计算成本过高的问题，为算法开发提供了具有统计代表性的精简任务集；三是建立了涵盖多模态优化场景的基准测试体系，填补了现有HPO评估中多保真度与多目标联合优化任务缺乏的空白。其创新性的评估管线设计为超参数优化方法的科学比较提供了规范化框架，推动了领域研究从经验驱动向数据驱动的范式转变。

衍生相关工作

carps数据集已衍生出多个具有影响力的研究方向：基于其任务选择方法论，后续研究提出了改进的多样性度量指标用于基准构建；部分工作将星差异选择策略扩展至神经架构搜索（NAS）领域；其标准化接口设计启发了AutoML工具链的模块化开发范式。关键衍生成果包括：1）将多目标优化基准应用于生态学模型校准；2）基于carps任务特征开发的元学习优化器选择系统；3）利用其多保真度任务验证的新型异步超参数优化框架。这些工作共同推动了超参数优化从孤立算法研究向系统化评估体系的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集