Straight line, 4D AND, 5D XOR, Hypersphere, Cone, Trigonometric, Double Spiral, Yin-yang, 5 multi-cut, 10 multi-cut

github2024-05-23 更新2024-05-31 收录

下载链接：

https://github.com/ro1406/SynthSelect

下载链接

链接失效反馈

官方服务：

资源简介：

用于基准测试特征选择算法的合成数据集，包括多种类型的数据集，如直线、4D AND、5D XOR等，每个数据集都有其特定的特征和目标变量方程。

A synthetic dataset for benchmarking feature selection algorithms, encompassing various types of datasets such as linear, 4D AND, 5D XOR, etc. Each dataset is characterized by its specific features and target variable equations.

创建时间：

2023-07-19

原始信息汇总

数据集概述

数据集列表

数据集名称	相关特征数	冗余特征数	无关特征数	实例数	目标变量方程
Straight line	2	20	100	200	F2 < F1
4D AND	4	8	100	100	x1 · x2 + x3 · x4
5D XOR	5	10	100	100	x1 ⊕ x2 ⊕ x3 ⊕ x4 ⊕ x5
Hypersphere	3	20	100	400	30^2 > F1^2 + F2^2 + F3^2
Cone	3	20	100	400	F12 + F22 > F32
Trigonometric	2	5	50	200	F2 < 5 sin(F1)
Double Spiral	3	30	120	200	详见README
Yin-yang	2	10	75	600	-
5 multi-cut	6	20	100	500	详见README
10 multi-cut	6	20	100	500	详见README

数据集加载方法

python from Synth_Select import load_dataset df = load_dataset(name)

可用数据集名称包括：

10_class_multicut
4D_AND
5_class_multicut
5D_XOR
cone
double_spiral
hypersphere_3D
trig
y=x
yinyang

数据集扩展方法

添加数值型无关特征

python from Synth_Select import addIrrelevant df = addIrrelevant(df, numIrrelevantCols=5, distributions=[normal, gamma, exponential])

添加数值型冗余特征

python from Synth_Select import addRedundant df = addRedundant(df, numRedFeats=5)

添加类别型无关特征

python from Synth_Select import addIrrelevantCat df = addIrrelevantCat(df, numIrrelevantCols=5, distributions=[normal, gamma, exponential])

添加类别型冗余特征

python from Synth_Select import addRedundantCat df = addRedundantCat(df, numRedFeats=5)

分布类型包括：

"normal"
"gamma"
"exponential"

搜集汇总

数据集介绍

构建方式

该数据集通过精心设计的数学方程生成，旨在模拟不同类型的特征选择问题。每个数据集均包含相关特征、冗余特征和无关特征，并通过特定的目标变量方程进行定义。例如，'Straight line'数据集通过F2 < F1的方程生成，而'4D AND'数据集则通过x1 · x2 + x3 · x4的逻辑运算生成。这些数据集的生成方式确保了其在特征选择算法基准测试中的有效性和多样性。

使用方法

使用该数据集时，用户可以通过Synth_Select库中的load_dataset函数加载特定数据集，如'4D_AND'或'5D_XOR'。此外，用户还可以通过addIrrelevant和addRedundant函数添加额外的无关和冗余特征，进一步扩展数据集的复杂性。对于分类变量，用户可以使用addIrrelevantCat和addRedundantCat函数进行类似操作。这些功能使得数据集的使用灵活且适应性强，能够满足不同研究需求。

背景与挑战

背景概述

在特征选择算法评估领域，合成数据集的开发与应用已成为关键研究方向。SynthSelect数据集由Mitra, Rohan等人于2024年创建，旨在为特征选择算法的基准测试提供高质量的合成数据。该数据集涵盖了多种复杂的数据结构，如直线、超球体、锥体等，每种数据结构均包含相关特征、冗余特征和无关特征，以及特定的目标变量方程。通过这些精心设计的合成数据，研究人员能够更有效地评估和比较不同特征选择算法的性能，从而推动该领域的技术进步。

当前挑战

尽管SynthSelect数据集为特征选择算法的评估提供了丰富的资源，但其构建过程中仍面临诸多挑战。首先，如何生成既符合实际数据分布又具有足够复杂性的合成数据是一个关键问题。其次，确保数据集中相关特征、冗余特征和无关特征的比例合理，以真实反映实际应用场景，也是一大挑战。此外，随着数据维度的增加，如何有效管理和处理高维数据，以及如何确保算法的可扩展性和计算效率，都是需要深入研究的问题。

常用场景

经典使用场景

在特征选择算法的基准测试中，SynthSelect数据集展现了其独特的价值。通过模拟多种复杂的数据结构，如4D AND、5D XOR和Hypersphere，该数据集为研究人员提供了一个理想的环境，以评估和比较不同特征选择方法的性能。例如，4D AND数据集通过其特定的逻辑运算公式，能够有效测试算法在处理高维数据时的准确性和效率。

解决学术问题

SynthSelect数据集在解决特征选择领域的学术问题方面具有显著意义。它通过提供多样化的合成数据，帮助研究人员识别和优化特征选择算法中的关键参数。例如，通过对比不同算法在5D XOR数据集上的表现，研究者可以深入理解各算法在处理异或逻辑时的优缺点，从而推动特征选择技术的理论发展。

实际应用

在实际应用中，SynthSelect数据集为机器学习和数据挖掘领域提供了宝贵的资源。例如，在金融风险评估中，通过使用该数据集训练的特征选择模型，可以更精确地识别和筛选出与风险相关的关键变量，从而提高风险预测的准确性。此外，在医疗诊断中，该数据集也有助于筛选出与疾病相关的生物标志物，提升诊断的效率和精度。

数据集最近研究