Imbalanced-Regression-DataSets

github2021-08-23 更新2024-05-31 收录

下载链接：

https://github.com/paobranco/Imbalanced-Regression-DataSets

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库包含15个来自不同领域的不平衡回归数据集，用于研究不平衡分布的回归问题。

This repository contains 15 imbalanced regression datasets from various domains, designed for studying regression problems with imbalanced distributions.

创建时间：

2017-10-10

原始信息汇总

数据集概述

数据集信息

本数据集包含15个用于不平衡回归学习的数据集，来自不同领域。这些数据集用于论文：

作者：Paula Branco, Luis Torgo, Rita P. Ribeiro
论文标题："Pre-processing Approaches for Imbalanced Distributions in Regression"
期刊：Neurocomputing Journal

数据集格式

数据集提供三种格式：

Rdata
csv
arff

数据集详细信息

下表列出了15个数据集的主要特征：

ID	Data Set	N	tpred	p.nom	p.num	nRare	% Rare
DS1	a6	198	11	3	8	33	16.7
DS2	Abalone	4177	8	1	7	679	16.3
DS3	a3	198	11	3	8	32	16.2
DS4	a4	198	11	3	8	31	15.7
DS5	a1	198	11	3	8	28	14.1
DS6	a7	198	11	3	8	27	13.6
DS7	boston	506	13	0	13	65	12.8
DS8	a2	198	11	3	8	22	11.1
DS9	fuelCons	1764	37	12	25	164	9.3
DS10	heat	7400	12	4	8	664	9.0
DS11	availPwr	1802	15	7	8	157	8.7
DS12	cpuSm	8192	12	0	12	713	8.7
DS13	maxTorque	1802	32	13	19	129	7.2
DS14	bank8FM	4499	8	0	8	288	6.4
DS15	Accel	1732	14	3	11	89	5.1

N：总案例数
tpred：预测变量数
p.nom：名义预测变量数
p.num：数值预测变量数
nRare：目标变量相关性高于0.8的案例数
% Rare：nRare/N

数据集导入R

使用R导入.Rdata文件需要安装repmis和DMwR包，并使用source_data函数。

搜集汇总

数据集介绍

构建方式

该数据集由Paula Branco、Luis Torgo和Rita P. Ribeiro在《Neurocomputing Journal》上发表的论文中提出，旨在解决回归任务中数据分布不平衡的问题。数据集包含了来自不同领域的15个回归数据集，涵盖了从198到8192个样本不等的规模。每个数据集均包含多个预测变量，包括名义变量和数值变量，且每个数据集均标注了目标变量的稀有性，即目标变量相关性高于0.8的样本比例。

特点

该数据集的特点在于其多样性和广泛的应用领域。每个数据集均经过精心挑选，涵盖了从能源消耗到机械性能等多个领域的数据。数据集的规模从198个样本到8192个样本不等，预测变量的数量也从8到37个不等。此外，每个数据集均标注了稀有样本的比例，这为研究者在处理不平衡回归问题时提供了重要的参考信息。

使用方法

该数据集提供了Rdata、csv和arff三种格式，用户可以根据需求选择合适的格式进行下载。对于R用户，可以通过`repmis`和`DMwR`包直接导入数据。使用`source_data`函数可以从GitHub加载数据，加载后的数据以`DSs`对象形式存在，用户可以通过索引访问每个数据集，并查看其名称、任务公式以及数据的前几行。这种灵活的数据访问方式使得研究者能够快速探索和分析数据。

背景与挑战

背景概述

Imbalanced-Regression-DataSets数据集由Paula Branco、Luis Torgo和Rita P. Ribeiro等研究人员创建，旨在解决回归任务中数据分布不平衡的问题。该数据集收录了15个来自不同领域的回归数据集，涵盖了从生物信息学到工程学的广泛应用场景。这些数据集最初用于支持发表在《Neurocomputing》期刊上的研究论文《Pre-processing Approaches for Imbalanced Distributions in Regression》，该论文探讨了针对不平衡分布的回归问题的预处理方法。数据集的创建时间为论文提交期间，其核心研究问题是如何在不平衡数据分布下提升回归模型的性能。该数据集为相关领域的研究提供了重要的基准数据，推动了不平衡回归问题的研究进展。

当前挑战

Imbalanced-Regression-DataSets数据集面临的挑战主要体现在两个方面。首先，在领域问题层面，回归任务中的不平衡数据分布问题具有显著的复杂性，尤其是在目标变量分布高度偏斜的情况下，传统回归模型往往难以捕捉稀有事件的特征，导致模型性能下降。其次，在数据集构建过程中，研究人员需要从多个领域收集数据，并确保数据的多样性和代表性，同时还需对数据进行标准化处理以支持跨领域研究。此外，数据集的格式转换（如Rdata、csv和arff格式）也增加了数据处理的复杂性，要求研究人员具备跨平台数据处理的能力。这些挑战共同构成了该数据集在实际应用中的主要难点。

常用场景

经典使用场景

在回归分析领域，数据分布的不平衡性是一个常见且具有挑战性的问题。Imbalanced-Regression-DataSets 数据集通过提供15个来自不同领域的回归数据集，为研究者提供了一个标准化的平台，用于测试和验证针对不平衡数据分布的预处理方法。这些数据集广泛应用于机器学习模型的训练和评估，特别是在处理目标变量分布不均的情况下，帮助研究者开发出更为鲁棒的回归模型。

实际应用

在实际应用中，Imbalanced-Regression-DataSets 数据集被广泛应用于金融、医疗、工业等多个领域。例如，在金融领域，该数据集可用于预测罕见但高影响的事件，如信用违约或市场崩盘；在医疗领域，可用于预测罕见疾病的发病率。通过使用这些数据集，企业和研究机构能够开发出更为精准的预测模型，从而在实际决策中提供有力支持。

衍生相关工作

基于 Imbalanced-Regression-DataSets 数据集，研究者们已经开发了多种经典的不平衡回归处理方法。例如，Paula Branco 等人提出的预处理方法在该数据集上得到了广泛验证，并发表在 Neurocomputing 期刊上。此外，该数据集还激发了其他研究者开发新的算法和技术，如基于重采样和集成学习的方法，进一步推动了不平衡回归领域的研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集