YAHPO Gym

arXiv2022-07-30 更新2024-07-30 收录

下载链接：

https://github.com/slds-lmu/yahpo_gym

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含14个场景，总计超过700个多保真度超参数优化问题的基于代理的新基准集合，支持多目标超参数优化。

A novel proxy-based benchmark suite for hyperparameter optimization, encompassing 14 scenarios and a total of over 700 multi-fidelity hyperparameter optimization problems, and supporting multi-objective hyperparameter optimization.

创建时间：

2021-09-08

原始信息汇总

YAHPO Gym 数据集概述

数据集简介

YAHPO Gym（Yet Another Hyperparameter Optimization Gym）是一个用于基准超参数优化/黑盒优化方法的问题集合。该数据集基于高保真度的代理模型，提供了快速且内存友好的函数评估，适用于快速基准测试。

数据集特点

问题多样性：包含来自不同超参数优化场景的问题，涉及表格数据和图像数据。
多保真度：支持模拟低保真度近似真实目标值，以模拟多保真度HPO。
多目标：通常包含多个目标，如性能指标、运行时间和内存消耗，支持多目标和资源感知的HPO。

数据集结构

YAHPO Gym 区分 scenarios 和 instances。一个 scenario 是共享相同超参数空间的 instances 集合。实践中，一个 scenario 通常由一个算法在多个数据集（即 instances）上进行拟合。

模块/包

yahpo_gym（Python）：核心包，用于代理模型的推理。
yahpo_train（Python）：用于训练 yahpo_gym 中使用的代理模型的模块。
yahpo_gym_r（R）：yahpo_gym 的R语言封装。

基准实例概览

以下是部分基准实例的概览：

Scenario	Search Space	# Instances	Target Metrics	Fidelity	H	Source
rbv2_super	38D: Mixed	103	9: perf(6) + rt(2) + mem	fraction	✓	[1]
rbv2_svm	6D: Mixed	106	9: perf(6) + rt(2) + mem	fraction	✓	[1]
rbv2_rpart	5D: Mixed	117	9: perf(6) + rt(2) + mem	fraction		[1]
rbv2_aknn	6D: Mixed	118	9: perf(6) + rt(2) + mem	fraction		[1]
rbv2_glmnet	3D: Mixed	115	9: perf(6) + rt(2) + mem	fraction		[1]
rbv2_ranger	8D: Mixed	119	9: perf(6) + rt(2) + mem	fraction	✓	[1]
rbv2_xgboost	14D: Mixed	119	9: perf(6) + rt(2) + mem	fraction	✓	[1]
nb301	34D: Categorical	1	2: perf(1) + rt(1)	epoch	✓	[2], [3]
lcbench	7D: Numeric	34	6: perf(5) + rt(1)	epoch		[4], [5]
iaml_super	28D: Mixed	4	12: perf(4) + inp(3) + rt(2) + mem(3)	fraction	✓	[6]
iaml_rpart	4D: Numeric	4	12: perf(4) + inp(3) + rt(2) + mem(3)	fraction		[6]
iaml_glmnet	2D: Numeric	4	12: perf(4) + inp(3) + rt(2) + mem(3)	fraction		[6]
iaml_ranger	8D: Mixed	4	12: perf(4) + inp(3) + rt(2) + mem(3)	fraction	✓	[6]
iaml_xgboost	13D: Mixed	4	12: perf(4) + inp(3) + rt(2) + mem(3)	fraction	✓	[6]

数据来源

[1] Binder M., Pfisterer F. & Bischl B. (2020). Collecting Empirical Data About Hyperparameters for Data Driven AutoML. 7th ICML Workshop on Automated Machine Learning.
[2] Siems, J., Zimmer, L., Zela, A., Lukasik, J., Keuper, M., & Hutter, F. (2020). NAS-Bench-301 and the Case for Surrogate Benchmarks for Neural Architecture Search. arXiv preprint arXiv:2008.09777, 11.
[3] Zimmer, L. (2020). nasbench301_full_data. figshare. Dataset. https://doi.org/10.6084/m9.figshare.13286105.v1, Apache License, Version 2.0.
[4] Zimmer, L., Lindauer, M., & Hutter, F. (2021). Auto-Pytorch: Multi-Fidelity Metalearning for Efficient and Robust AutoDL. IEEE Transactions on Pattern Analysis and Machine Intelligence, 43(9), 3079-3090.
[5] Zimmer, L. (2020). data_2k_lw.zip. figshare. Dataset. https://doi.org/10.6084/m9.figshare.11662422.v1, Apache License, Version 2.0.
[6] Pfisterer, F., Schneider, L., Moosbauer, J., Binder, M., & Bischl, B. (2022). YAHPO Gym - An Efficient Multi-Objective Multi-Fidelity Benchmark for Hyperparameter Optimization. In International Conference on Automated Machine Learning.

请确保在使用YAHPO Gym时也引用原始数据源，因为YAHPO Gym没有它们是不可能实现的！

搜集汇总

数据集介绍

构建方式

在超参数优化领域，构建高效且可靠的基准测试集对于评估算法性能至关重要。YAHPO Gym 数据集的构建采用了基于代理模型的创新方法，通过训练高质量的神经网络代理模型来近似真实超参数配置与性能指标之间的复杂映射关系。该数据集整合了来自多个公开数据源的大规模实验元数据，包括随机森林、支持向量机、XGBoost 等经典机器学习算法在百余个数据集上的超参数调优结果。构建过程中，研究团队利用 ResNet 架构的神经网络对每个场景进行独立训练，并通过 ONNX 格式压缩模型以确保跨平台兼容性，最终形成了覆盖 14 个场景、超过 700 个基准实例的综合性基准测试库。

特点

YAHPO Gym 数据集在超参数优化基准测试领域展现出多方面的显著特点。该数据集全面支持多保真度与多目标优化评估，允许研究者在不同预算层级和多个性能指标间进行灵活权衡。其包含的基准实例覆盖了从简单线性模型到复杂集成方法的多样化算法，并涉及混合型与层次化搜索空间，真实反映了实际超参数优化问题的复杂性。数据集通过高度优化的代理模型实现了极低的评估开销，单次预测仅需 10-100 毫秒，内存占用约 100MB，为大规模基准实验提供了可行性。此外，数据集还提供了预测训练时间、内存消耗等资源指标，支持对计算效率导向优化方法的评估。

使用方法

使用 YAHPO Gym 数据集进行基准测试遵循系统化的评估流程。研究者首先通过数据集提供的标准化 API 加载特定场景和实例，获取对应的配置空间对象。优化算法在该配置空间内进行搜索，通过调用 objective_function 方法评估候选超参数配置的性能。数据集支持自定义评估预算，建议采用与搜索空间维度相关的公式确定总评估次数。对于单目标优化，通常以最小化分类误差或最大化准确率为目标；多目标优化则需同时考虑多个性能指标与资源消耗指标。评估结果建议以标准化遗憾度或超体积指标进行量化，并通过多次随机重复实验计算统计显著性。数据集还支持超参数迁移学习研究，允许在同一场景的不同实例间进行知识迁移。

背景与挑战

背景概述

在机器学习领域，超参数优化（HPO）是提升模型预测性能的关键环节，而可靠的基准测试集对于评估和比较不同HPO方法至关重要。YAHPO Gym数据集由慕尼黑路德维希-马克西米利安大学统计学习与数据科学团队于2022年创建，旨在解决现有基准测试在效率、多样性和真实性方面的不足。该数据集基于代理模型构建，涵盖14种场景、超过700个多保真度超参数优化问题，并支持多目标优化，首次模拟了自动化机器学习流水线的高维分层搜索空间。其通过神经网络代理模型实现毫秒级评估，显著降低了实验计算成本，为超参数优化方法的公平比较与元学习研究提供了标准化测试平台。

当前挑战

YAHPO Gym面临的挑战主要体现在两个方面：在领域问题层面，超参数优化本身属于高维、混合空间的黑箱优化问题，且需兼顾多保真度与多目标权衡，传统表格基准因离散化搜索空间可能导致算法排名偏差；在构建过程中，代理模型的保真度至关重要，需确保其预测性能与真实评估高度一致，同时需处理大规模元数据的采集、噪声建模以及跨场景搜索空间的统一表示。此外，数据集的构建还需克服异步优化支持、运行时预测集成以及跨平台可复现性等技术难题，以维持其在超参数优化基准测试领域的权威性与实用性。

常用场景

经典使用场景

在超参数优化领域，YAHPO Gym 作为高效的基准测试套件，其经典应用场景在于为多保真度与多目标优化算法提供标准化的评估平台。该数据集通过构建基于神经网络的代理模型，模拟了超过700个真实机器学习任务中的超参数配置与性能指标之间的复杂映射关系。研究者可利用其统一的API接口，快速对比不同优化算法在异构搜索空间上的收敛速度与最终解质量，尤其适用于评估贝叶斯优化、进化算法及多保真度调度策略在混合型超参数空间中的综合表现。

衍生相关工作

基于YAHPO Gym 的基准框架，学术界衍生出多项重要研究工作。在算法层面，研究者利用其多目标优化场景开发了改进的帕累托前沿搜索算法，如结合代理模型的不确定性估计的贝叶斯多目标优化器。在元学习领域，该数据集支持的大规模任务实例为超参数初始化策略的跨任务迁移研究提供了实验基础。此外，其开源生态催生了如异步优化基准扩展、分层搜索空间泛化性分析等方向的研究，推动了超参数优化基准从单一评估向生态系统化发展。

数据集最近研究