Straight line, 4D AND, 5D XOR, Hypersphere, Cone, Trigonometric, Double Spiral, Yin-yang, 5 multi-cut, 10 multi-cut
收藏github2024-05-23 更新2024-05-31 收录
下载链接:
https://github.com/ro1406/SynthSelect
下载链接
链接失效反馈官方服务:
资源简介:
用于基准测试特征选择算法的合成数据集,包括多种类型的数据集,如直线、4D AND、5D XOR等,每个数据集都有其特定的特征和目标变量方程。
A synthetic dataset for benchmarking feature selection algorithms, encompassing various types of datasets such as linear, 4D AND, 5D XOR, etc. Each dataset is characterized by its specific features and target variable equations.
创建时间:
2023-07-19
原始信息汇总
数据集概述
数据集列表
| 数据集名称 | 相关特征数 | 冗余特征数 | 无关特征数 | 实例数 | 目标变量方程 |
|---|---|---|---|---|---|
| Straight line | 2 | 20 | 100 | 200 | F2 < F1 |
| 4D AND | 4 | 8 | 100 | 100 | x1 · x2 + x3 · x4 |
| 5D XOR | 5 | 10 | 100 | 100 | x1 ⊕ x2 ⊕ x3 ⊕ x4 ⊕ x5 |
| Hypersphere | 3 | 20 | 100 | 400 | 30^2 > F1^2 + F2^2 + F3^2 |
| Cone | 3 | 20 | 100 | 400 | F12 + F22 > F32 |
| Trigonometric | 2 | 5 | 50 | 200 | F2 < 5 sin(F1) |
| Double Spiral | 3 | 30 | 120 | 200 | 详见README |
| Yin-yang | 2 | 10 | 75 | 600 | - |
| 5 multi-cut | 6 | 20 | 100 | 500 | 详见README |
| 10 multi-cut | 6 | 20 | 100 | 500 | 详见README |
数据集加载方法
python from Synth_Select import load_dataset df = load_dataset(name)
可用数据集名称包括:
- 10_class_multicut
- 4D_AND
- 5_class_multicut
- 5D_XOR
- cone
- double_spiral
- hypersphere_3D
- trig
- y=x
- yinyang
数据集扩展方法
添加数值型无关特征
python from Synth_Select import addIrrelevant df = addIrrelevant(df, numIrrelevantCols=5, distributions=[normal, gamma, exponential])
添加数值型冗余特征
python from Synth_Select import addRedundant df = addRedundant(df, numRedFeats=5)
添加类别型无关特征
python from Synth_Select import addIrrelevantCat df = addIrrelevantCat(df, numIrrelevantCols=5, distributions=[normal, gamma, exponential])
添加类别型冗余特征
python from Synth_Select import addRedundantCat df = addRedundantCat(df, numRedFeats=5)
分布类型包括:
- "normal"
- "gamma"
- "exponential"
搜集汇总
数据集介绍

构建方式
该数据集通过精心设计的数学方程生成,旨在模拟不同类型的特征选择问题。每个数据集均包含相关特征、冗余特征和无关特征,并通过特定的目标变量方程进行定义。例如,'Straight line'数据集通过F2 < F1的方程生成,而'4D AND'数据集则通过x1 · x2 + x3 · x4的逻辑运算生成。这些数据集的生成方式确保了其在特征选择算法基准测试中的有效性和多样性。
使用方法
使用该数据集时,用户可以通过Synth_Select库中的load_dataset函数加载特定数据集,如'4D_AND'或'5D_XOR'。此外,用户还可以通过addIrrelevant和addRedundant函数添加额外的无关和冗余特征,进一步扩展数据集的复杂性。对于分类变量,用户可以使用addIrrelevantCat和addRedundantCat函数进行类似操作。这些功能使得数据集的使用灵活且适应性强,能够满足不同研究需求。
背景与挑战
背景概述
在特征选择算法评估领域,合成数据集的开发与应用已成为关键研究方向。SynthSelect数据集由Mitra, Rohan等人于2024年创建,旨在为特征选择算法的基准测试提供高质量的合成数据。该数据集涵盖了多种复杂的数据结构,如直线、超球体、锥体等,每种数据结构均包含相关特征、冗余特征和无关特征,以及特定的目标变量方程。通过这些精心设计的合成数据,研究人员能够更有效地评估和比较不同特征选择算法的性能,从而推动该领域的技术进步。
当前挑战
尽管SynthSelect数据集为特征选择算法的评估提供了丰富的资源,但其构建过程中仍面临诸多挑战。首先,如何生成既符合实际数据分布又具有足够复杂性的合成数据是一个关键问题。其次,确保数据集中相关特征、冗余特征和无关特征的比例合理,以真实反映实际应用场景,也是一大挑战。此外,随着数据维度的增加,如何有效管理和处理高维数据,以及如何确保算法的可扩展性和计算效率,都是需要深入研究的问题。
常用场景
经典使用场景
在特征选择算法的基准测试中,SynthSelect数据集展现了其独特的价值。通过模拟多种复杂的数据结构,如4D AND、5D XOR和Hypersphere,该数据集为研究人员提供了一个理想的环境,以评估和比较不同特征选择方法的性能。例如,4D AND数据集通过其特定的逻辑运算公式,能够有效测试算法在处理高维数据时的准确性和效率。
解决学术问题
SynthSelect数据集在解决特征选择领域的学术问题方面具有显著意义。它通过提供多样化的合成数据,帮助研究人员识别和优化特征选择算法中的关键参数。例如,通过对比不同算法在5D XOR数据集上的表现,研究者可以深入理解各算法在处理异或逻辑时的优缺点,从而推动特征选择技术的理论发展。
实际应用
在实际应用中,SynthSelect数据集为机器学习和数据挖掘领域提供了宝贵的资源。例如,在金融风险评估中,通过使用该数据集训练的特征选择模型,可以更精确地识别和筛选出与风险相关的关键变量,从而提高风险预测的准确性。此外,在医疗诊断中,该数据集也有助于筛选出与疾病相关的生物标志物,提升诊断的效率和精度。
数据集最近研究
最新研究方向
在特征选择算法评估领域,SynthSelect数据集的最新研究方向主要集中在提升合成数据的多样性和复杂性,以更全面地测试和优化特征选择算法。通过引入多维逻辑运算、几何形状和复杂函数等元素,研究者们致力于创建更具挑战性的数据集,从而推动算法在实际应用中的鲁棒性和准确性。此外,随着机器学习模型的日益复杂,如何有效筛选和利用这些合成数据集中的相关特征,成为当前研究的热点。这一方向不仅有助于提升算法的性能,还为跨领域的数据分析提供了新的工具和方法。
以上内容由遇见数据集搜集并总结生成



