Tabular_Imbalanced_Regression

Hugging Face2025-08-08 更新2025-08-09 收录

下载链接：

https://huggingface.co/datasets/samgohan/Tabular_Imbalanced_Regression

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含81个表格数据集的集合，专门用于研究表格不平衡回归问题。数据集来自不同的研究，旨在为未来在该领域的工作提供参考。数据集经过预处理，以确保一致性，并将目标变量作为第一列。存储库还包含用于计算不平衡系数的Python工具和一个包含每个数据集元数据的表格。此外，README还提供了如何在研究中引用存储库的信息，并列出了调查中分析的文章以及每篇文章使用的数据集。

创建时间：

2025-08-03

原始信息汇总

Tabular Imbalanced Regression Datasets 数据集概述

数据集基本信息

数据集名称: Tabular Imbalanced Regression Datasets
数据集类型: 表格型数据
任务类型: 不平衡回归问题
数据集数量: 81个
数据来源: UCI、Kaggle、Github
语言: 英文
许可证: CC-BY-4.0

数据集特点

目标变量: 所有数据集已预处理，目标变量位于第一列
特征类型: 包含数值型和类别型特征
预处理: 提供统一的元数据描述，便于比较和分析

数据集元数据

每个数据集包含以下元数据：

n_obs: 观测值数量
p_var: 总特征数
p_num: 数值型特征数
p_cat: 类别型特征数
Type: 目标变量类型
Skew: 目标分布偏度
Imb. Coef.: 不平衡系数
mIR: 平均不平衡比率
Miss.: 缺失值比例
Used: 在已发表论文中的使用次数

数据集示例

部分数据集示例：

数据集	观测数	特征数	数值特征	目标类型	偏度	不平衡系数	mIR	使用次数
abalone	4177	11	11	int64	1.11	54.23	345.73	32
boston	506	14	14	float64	1.1	36.0	218.31	30
accel	1732	23	23	float64	0.77	51.58	292.14	23

实用工具

不平衡系数计算: 提供Python脚本imbalance_coefficient.py计算连续和离散目标的不平衡系数
演示笔记本: 包含使用示例的Jupyter笔记本

相关研究

数据集已被多篇论文使用，具体使用情况见数据集详情页面的论文列表。

搜集汇总

数据集介绍

构建方式

在机器学习和数据科学领域，处理不平衡回归问题一直是一个重要挑战。Tabular_Imbalanced_Regression数据集通过系统性地整合81个来自UCI、Kaggle和Github等权威来源的表格数据集，为这一领域的研究提供了标准化基准。每个数据集都经过精心预处理，确保目标变量统一位于首列，并附带详细的元数据描述，包括观测数量、特征类型、目标变量分布偏度以及不平衡系数等关键指标。这种集中化、标准化的构建方式显著提升了数据集的科研价值和使用效率。

特点

该数据集最突出的特点在于其全面覆盖了不平衡回归问题的多样性。从目标变量类型来看，既包含连续型也包含离散型数据；从特征构成来看，既有纯数值型特征，也包含混合型特征。特别值得注意的是，每个数据集都标注了精确的不平衡系数（Imb. Coef）和平均不平衡比（mIR），这两个专业指标为研究者量化数据不平衡程度提供了可靠依据。此外，数据集还记录了各特征缺失值比例和被引频次，这些元数据极大地方便了研究者的数据集筛选和对比分析工作。

使用方法

使用该数据集时，研究者可通过提供的Python工具包快速计算目标变量的不平衡系数，配套的demo笔记本详细演示了分析方法。数据集采用标准的表格格式存储，可直接与主流机器学习框架（如scikit-learn、PyTorch）对接。针对不同研究需求，用户可根据元数据表筛选特定特征类型、不平衡程度或引用热度的子集。值得注意的是，该数据集特别适合用于开发新型不平衡回归算法，或评估现有算法在不同不平衡场景下的鲁棒性。所有数据集均采用CC-BY-4.0许可，确保了学术使用的合规性。

背景与挑战

背景概述

Tabular_Imbalanced_Regression数据集由多个研究机构联合构建，旨在解决表格数据中不平衡回归问题的研究需求。该数据集汇集了81个经过预处理的表格数据集，覆盖了从UCI、Kaggle到Github等多个公开数据源，目标变量统一置于首列以便于模型训练与评估。其核心研究问题聚焦于如何有效处理回归任务中目标变量分布不平衡的挑战，为机器学习领域提供了重要的基准测试平台。该数据集的建立显著推动了不平衡回归方法的发展，成为相关研究的重要参考。

当前挑战

该数据集面临两大核心挑战：在领域问题层面，传统回归模型难以有效处理目标变量分布高度偏斜的场景，尤其当极端值或罕见事件对预测精度产生关键影响时；在构建过程中，数据来源的异构性导致特征表示与缺失值处理复杂度激增，且不同数据集间目标变量的偏态程度差异（如森林火灾数据集的偏度达12.81）要求开发者设计统一的标准化预处理流程。此外，连续型与离散型目标变量的共存，使得单一的不平衡度量指标难以全面评估数据特性。

常用场景

经典使用场景

在机器学习和数据科学领域，Tabular_Imbalanced_Regression数据集被广泛用于研究表格数据中的不平衡回归问题。该数据集包含81个经过预处理的表格数据集，目标变量统一置于首列，便于模型训练和评估。研究者通常利用这些数据集开发新的算法，以解决目标变量分布不均带来的预测偏差问题。特别是在金融风险评估、医疗诊断和工业质量控制等领域，该数据集为模型性能的标准化比较提供了坚实基础。

衍生相关工作

围绕Tabular_Imbalanced_Regression数据集，学术界已衍生出多项经典研究。例如Wibbeke等人提出的平均不平衡比率（mIR）指标被广泛应用于评估数据集难度，而多篇论文基于该数据集开发了针对极端值预测的规则算法。这些工作不仅丰富了不平衡回归的方法论，还促进了跨领域知识的融合，如将金融风控模型迁移到医疗异常检测中。

数据集最近研究