five

Imbalanced-Regression-DataSets

收藏
github2021-08-23 更新2024-05-31 收录
下载链接:
https://github.com/paobranco/Imbalanced-Regression-DataSets
下载链接
链接失效反馈
官方服务:
资源简介:
本仓库包含15个来自不同领域的不平衡回归数据集,用于研究不平衡分布的回归问题。

This repository contains 15 imbalanced regression datasets from various domains, designed for studying regression problems with imbalanced distributions.
创建时间:
2017-10-10
原始信息汇总

数据集概述

数据集信息

本数据集包含15个用于不平衡回归学习的数据集,来自不同领域。这些数据集用于论文:

  • 作者:Paula Branco, Luis Torgo, Rita P. Ribeiro
  • 论文标题:"Pre-processing Approaches for Imbalanced Distributions in Regression"
  • 期刊:Neurocomputing Journal

数据集格式

数据集提供三种格式:

  • Rdata
  • csv
  • arff

数据集详细信息

下表列出了15个数据集的主要特征:

ID Data Set N tpred p.nom p.num nRare % Rare
DS1 a6 198 11 3 8 33 16.7
DS2 Abalone 4177 8 1 7 679 16.3
DS3 a3 198 11 3 8 32 16.2
DS4 a4 198 11 3 8 31 15.7
DS5 a1 198 11 3 8 28 14.1
DS6 a7 198 11 3 8 27 13.6
DS7 boston 506 13 0 13 65 12.8
DS8 a2 198 11 3 8 22 11.1
DS9 fuelCons 1764 37 12 25 164 9.3
DS10 heat 7400 12 4 8 664 9.0
DS11 availPwr 1802 15 7 8 157 8.7
DS12 cpuSm 8192 12 0 12 713 8.7
DS13 maxTorque 1802 32 13 19 129 7.2
DS14 bank8FM 4499 8 0 8 288 6.4
DS15 Accel 1732 14 3 11 89 5.1
  • N:总案例数
  • tpred:预测变量数
  • p.nom:名义预测变量数
  • p.num:数值预测变量数
  • nRare:目标变量相关性高于0.8的案例数
  • % Rare:nRare/N

数据集导入R

使用R导入.Rdata文件需要安装repmisDMwR包,并使用source_data函数。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由Paula Branco、Luis Torgo和Rita P. Ribeiro在《Neurocomputing Journal》上发表的论文中提出,旨在解决回归任务中数据分布不平衡的问题。数据集包含了来自不同领域的15个回归数据集,涵盖了从198到8192个样本不等的规模。每个数据集均包含多个预测变量,包括名义变量和数值变量,且每个数据集均标注了目标变量的稀有性,即目标变量相关性高于0.8的样本比例。
特点
该数据集的特点在于其多样性和广泛的应用领域。每个数据集均经过精心挑选,涵盖了从能源消耗到机械性能等多个领域的数据。数据集的规模从198个样本到8192个样本不等,预测变量的数量也从8到37个不等。此外,每个数据集均标注了稀有样本的比例,这为研究者在处理不平衡回归问题时提供了重要的参考信息。
使用方法
该数据集提供了Rdata、csv和arff三种格式,用户可以根据需求选择合适的格式进行下载。对于R用户,可以通过`repmis`和`DMwR`包直接导入数据。使用`source_data`函数可以从GitHub加载数据,加载后的数据以`DSs`对象形式存在,用户可以通过索引访问每个数据集,并查看其名称、任务公式以及数据的前几行。这种灵活的数据访问方式使得研究者能够快速探索和分析数据。
背景与挑战
背景概述
Imbalanced-Regression-DataSets数据集由Paula Branco、Luis Torgo和Rita P. Ribeiro等研究人员创建,旨在解决回归任务中数据分布不平衡的问题。该数据集收录了15个来自不同领域的回归数据集,涵盖了从生物信息学到工程学的广泛应用场景。这些数据集最初用于支持发表在《Neurocomputing》期刊上的研究论文《Pre-processing Approaches for Imbalanced Distributions in Regression》,该论文探讨了针对不平衡分布的回归问题的预处理方法。数据集的创建时间为论文提交期间,其核心研究问题是如何在不平衡数据分布下提升回归模型的性能。该数据集为相关领域的研究提供了重要的基准数据,推动了不平衡回归问题的研究进展。
当前挑战
Imbalanced-Regression-DataSets数据集面临的挑战主要体现在两个方面。首先,在领域问题层面,回归任务中的不平衡数据分布问题具有显著的复杂性,尤其是在目标变量分布高度偏斜的情况下,传统回归模型往往难以捕捉稀有事件的特征,导致模型性能下降。其次,在数据集构建过程中,研究人员需要从多个领域收集数据,并确保数据的多样性和代表性,同时还需对数据进行标准化处理以支持跨领域研究。此外,数据集的格式转换(如Rdata、csv和arff格式)也增加了数据处理的复杂性,要求研究人员具备跨平台数据处理的能力。这些挑战共同构成了该数据集在实际应用中的主要难点。
常用场景
经典使用场景
在回归分析领域,数据分布的不平衡性是一个常见且具有挑战性的问题。Imbalanced-Regression-DataSets 数据集通过提供15个来自不同领域的回归数据集,为研究者提供了一个标准化的平台,用于测试和验证针对不平衡数据分布的预处理方法。这些数据集广泛应用于机器学习模型的训练和评估,特别是在处理目标变量分布不均的情况下,帮助研究者开发出更为鲁棒的回归模型。
实际应用
在实际应用中,Imbalanced-Regression-DataSets 数据集被广泛应用于金融、医疗、工业等多个领域。例如,在金融领域,该数据集可用于预测罕见但高影响的事件,如信用违约或市场崩盘;在医疗领域,可用于预测罕见疾病的发病率。通过使用这些数据集,企业和研究机构能够开发出更为精准的预测模型,从而在实际决策中提供有力支持。
衍生相关工作
基于 Imbalanced-Regression-DataSets 数据集,研究者们已经开发了多种经典的不平衡回归处理方法。例如,Paula Branco 等人提出的预处理方法在该数据集上得到了广泛验证,并发表在 Neurocomputing 期刊上。此外,该数据集还激发了其他研究者开发新的算法和技术,如基于重采样和集成学习的方法,进一步推动了不平衡回归领域的研究进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作