Imbalanced-Regression-DataSets
收藏github2021-08-23 更新2024-05-31 收录
下载链接:
https://github.com/paobranco/Imbalanced-Regression-DataSets
下载链接
链接失效反馈官方服务:
资源简介:
本仓库包含15个来自不同领域的不平衡回归数据集,用于研究不平衡分布的回归问题。
This repository contains 15 imbalanced regression datasets from various domains, designed for studying regression problems with imbalanced distributions.
创建时间:
2017-10-10
原始信息汇总
数据集概述
数据集信息
本数据集包含15个用于不平衡回归学习的数据集,来自不同领域。这些数据集用于论文:
- 作者:Paula Branco, Luis Torgo, Rita P. Ribeiro
- 论文标题:"Pre-processing Approaches for Imbalanced Distributions in Regression"
- 期刊:Neurocomputing Journal
数据集格式
数据集提供三种格式:
- Rdata
- csv
- arff
数据集详细信息
下表列出了15个数据集的主要特征:
| ID | Data Set | N | tpred | p.nom | p.num | nRare | % Rare |
|---|---|---|---|---|---|---|---|
| DS1 | a6 | 198 | 11 | 3 | 8 | 33 | 16.7 |
| DS2 | Abalone | 4177 | 8 | 1 | 7 | 679 | 16.3 |
| DS3 | a3 | 198 | 11 | 3 | 8 | 32 | 16.2 |
| DS4 | a4 | 198 | 11 | 3 | 8 | 31 | 15.7 |
| DS5 | a1 | 198 | 11 | 3 | 8 | 28 | 14.1 |
| DS6 | a7 | 198 | 11 | 3 | 8 | 27 | 13.6 |
| DS7 | boston | 506 | 13 | 0 | 13 | 65 | 12.8 |
| DS8 | a2 | 198 | 11 | 3 | 8 | 22 | 11.1 |
| DS9 | fuelCons | 1764 | 37 | 12 | 25 | 164 | 9.3 |
| DS10 | heat | 7400 | 12 | 4 | 8 | 664 | 9.0 |
| DS11 | availPwr | 1802 | 15 | 7 | 8 | 157 | 8.7 |
| DS12 | cpuSm | 8192 | 12 | 0 | 12 | 713 | 8.7 |
| DS13 | maxTorque | 1802 | 32 | 13 | 19 | 129 | 7.2 |
| DS14 | bank8FM | 4499 | 8 | 0 | 8 | 288 | 6.4 |
| DS15 | Accel | 1732 | 14 | 3 | 11 | 89 | 5.1 |
- N:总案例数
- tpred:预测变量数
- p.nom:名义预测变量数
- p.num:数值预测变量数
- nRare:目标变量相关性高于0.8的案例数
- % Rare:nRare/N
数据集导入R
使用R导入.Rdata文件需要安装repmis和DMwR包,并使用source_data函数。
搜集汇总
数据集介绍

构建方式
该数据集由Paula Branco、Luis Torgo和Rita P. Ribeiro在《Neurocomputing Journal》上发表的论文中提出,旨在解决回归任务中数据分布不平衡的问题。数据集包含了来自不同领域的15个回归数据集,涵盖了从198到8192个样本不等的规模。每个数据集均包含多个预测变量,包括名义变量和数值变量,且每个数据集均标注了目标变量的稀有性,即目标变量相关性高于0.8的样本比例。
特点
该数据集的特点在于其多样性和广泛的应用领域。每个数据集均经过精心挑选,涵盖了从能源消耗到机械性能等多个领域的数据。数据集的规模从198个样本到8192个样本不等,预测变量的数量也从8到37个不等。此外,每个数据集均标注了稀有样本的比例,这为研究者在处理不平衡回归问题时提供了重要的参考信息。
使用方法
该数据集提供了Rdata、csv和arff三种格式,用户可以根据需求选择合适的格式进行下载。对于R用户,可以通过`repmis`和`DMwR`包直接导入数据。使用`source_data`函数可以从GitHub加载数据,加载后的数据以`DSs`对象形式存在,用户可以通过索引访问每个数据集,并查看其名称、任务公式以及数据的前几行。这种灵活的数据访问方式使得研究者能够快速探索和分析数据。
背景与挑战
背景概述
Imbalanced-Regression-DataSets数据集由Paula Branco、Luis Torgo和Rita P. Ribeiro等研究人员创建,旨在解决回归任务中数据分布不平衡的问题。该数据集收录了15个来自不同领域的回归数据集,涵盖了从生物信息学到工程学的广泛应用场景。这些数据集最初用于支持发表在《Neurocomputing》期刊上的研究论文《Pre-processing Approaches for Imbalanced Distributions in Regression》,该论文探讨了针对不平衡分布的回归问题的预处理方法。数据集的创建时间为论文提交期间,其核心研究问题是如何在不平衡数据分布下提升回归模型的性能。该数据集为相关领域的研究提供了重要的基准数据,推动了不平衡回归问题的研究进展。
当前挑战
Imbalanced-Regression-DataSets数据集面临的挑战主要体现在两个方面。首先,在领域问题层面,回归任务中的不平衡数据分布问题具有显著的复杂性,尤其是在目标变量分布高度偏斜的情况下,传统回归模型往往难以捕捉稀有事件的特征,导致模型性能下降。其次,在数据集构建过程中,研究人员需要从多个领域收集数据,并确保数据的多样性和代表性,同时还需对数据进行标准化处理以支持跨领域研究。此外,数据集的格式转换(如Rdata、csv和arff格式)也增加了数据处理的复杂性,要求研究人员具备跨平台数据处理的能力。这些挑战共同构成了该数据集在实际应用中的主要难点。
常用场景
经典使用场景
在回归分析领域,数据分布的不平衡性是一个常见且具有挑战性的问题。Imbalanced-Regression-DataSets 数据集通过提供15个来自不同领域的回归数据集,为研究者提供了一个标准化的平台,用于测试和验证针对不平衡数据分布的预处理方法。这些数据集广泛应用于机器学习模型的训练和评估,特别是在处理目标变量分布不均的情况下,帮助研究者开发出更为鲁棒的回归模型。
实际应用
在实际应用中,Imbalanced-Regression-DataSets 数据集被广泛应用于金融、医疗、工业等多个领域。例如,在金融领域,该数据集可用于预测罕见但高影响的事件,如信用违约或市场崩盘;在医疗领域,可用于预测罕见疾病的发病率。通过使用这些数据集,企业和研究机构能够开发出更为精准的预测模型,从而在实际决策中提供有力支持。
衍生相关工作
基于 Imbalanced-Regression-DataSets 数据集,研究者们已经开发了多种经典的不平衡回归处理方法。例如,Paula Branco 等人提出的预处理方法在该数据集上得到了广泛验证,并发表在 Neurocomputing 期刊上。此外,该数据集还激发了其他研究者开发新的算法和技术,如基于重采样和集成学习的方法,进一步推动了不平衡回归领域的研究进展。
以上内容由遇见数据集搜集并总结生成



