基于数据聚类的连续黑盒优化算法评估标准化基准集

Name: 基于数据聚类的连续黑盒优化算法评估标准化基准集
Creator: 法国巴黎第六大学、法国国家科学研究中心、昆士兰大学电气与计算机工程系
Published: 2025-05-14 17:16:19
License: 暂无描述

arXiv2025-05-14 更新2025-05-16 收录

下载链接：

https://marcusgal.github.io/ess_clustering.html

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集是基于数据聚类问题的连续黑盒优化算法评估标准化基准集，旨在为优化算法提供代表性的基准问题。数据集包含40个聚类问题实例，数据维度经过PCA降维处理，数据范围经过归一化处理。数据集通过IOHClustering Python包集成到IOHprofiler框架中，方便用户使用和扩展。

This dataset is a standardized benchmark suite for evaluating continuous black-box optimization algorithms focused on data clustering problems, intended to provide representative benchmark instances for such optimization algorithms. The dataset consists of 40 clustering problem instances, with the data dimensions reduced via PCA and the data ranges normalized. It is integrated into the IOHprofiler framework through the IOHClustering Python package, enabling convenient utilization and extensibility for users.

提供机构：

法国巴黎第六大学、法国国家科学研究中心、昆士兰大学电气与计算机工程系

创建时间：

2025-05-14

搜集汇总

数据集介绍

构建方式

该数据集基于数据聚类问题构建，旨在为连续黑盒优化算法的评估提供标准化基准。通过选取10个常用的机器学习数据集，并利用主成分分析（PCA）将所有数据空间降维至2维，确保问题维度的一致性。每个数据集通过设定不同的聚类中心数量（k ∈ {2, 3, 5, 10}），生成不同维度（d ∈ {4, 6, 10, 20}）的优化问题。数据空间经过最小-最大归一化处理，以确保搜索域的一致性。此外，数据集还集成了IOHprofiler框架，便于性能分析和可视化。

特点

该数据集的特点在于其固有的对称性和中性区域，这些特性在传统的连续优化基准问题中较为罕见。对称性源于聚类中心的无序性，导致搜索空间中存在多个对称区域。中性区域则出现在某些聚类中心未被任何数据点选为最近邻时，形成平坦的搜索区域。此外，数据集的优化景观通常是非线性和非凸的，具有大量局部最优解，为优化算法提供了丰富的挑战。

使用方法

该数据集的使用方法包括通过IOHclustering Python包加载和实例化聚类问题，支持自定义数据集和聚类中心数量。用户可以利用IOHprofiler框架进行算法性能的日志记录和分析。此外，数据集提供了基于K-Means++的基线性能值，便于算法性能的比较。用户还可以通过修改距离度量和误差度量，生成具有不同优化景观的自定义问题实例。

背景与挑战

背景概述

基于数据聚类的连续黑盒优化算法评估标准化基准集由Diederick Vermetten、Catalin-Viorel Dinu和Marcus Gallagher于2025年提出，旨在解决优化算法评估中缺乏具有置换不变性问题特性的标准化基准集的问题。该数据集通过聚类问题实例构建，特别关注了搜索空间中的对称性和中性区域，为优化算法的性能评估提供了新的挑战维度。其核心研究问题在于如何创建能够代表一类实际优化问题的基准函数，以确保算法在基准集上的表现能够有效迁移到实际问题领域。该数据集的提出填补了现有基准集在置换不变性问题特性上的空白，对优化算法的评估和研究产生了重要影响。

当前挑战

该数据集主要解决了优化算法在具有置换不变性问题特性上的评估挑战，包括搜索空间中对称区域的处理和中性区域对优化算法的影响。在构建过程中，研究人员面临了多个挑战：1) 如何选择具有代表性的聚类问题实例以确保基准集的多样性和代表性；2) 如何处理聚类问题中固有的对称性，这导致了搜索空间中存在多个等价的最优解区域；3) 如何应对由中性区域带来的优化挑战，这些区域对算法的局部搜索能力提出了更高要求；4) 如何将数据集与现有评估框架（如IOHprofiler）集成以实现标准化评估。此外，确保不同维度的聚类问题具有一致的评估标准也是一个重要挑战。

常用场景

经典使用场景

在连续黑盒优化算法的评估中，该数据集通过聚类问题实例提供了一个标准化的基准集，特别适用于研究具有置换不变性和中性区域的优化问题。这类问题在机器学习中的数据聚类、设施布局和神经网络训练等多个领域具有广泛的应用。数据集通过集成IOHprofiler框架，使得研究者能够方便地进行算法性能的对比和分析。

衍生相关工作

该数据集衍生了一系列相关研究，包括对CMA-ES算法的配置优化、置换不变性问题的深入分析以及中性区域对优化算法性能的影响研究。此外，数据集还促进了探索性景观分析（ELA）在优化问题中的应用，为后续研究提供了丰富的实验数据和理论基础。

数据集最近研究