five

CLIMB

收藏
arXiv2025-05-23 更新2025-05-27 收录
下载链接:
https://github.com/ZhiningLiu1998/imbalanced-ensemble
下载链接
链接失效反馈
官方服务:
资源简介:
CLIMB是一个针对表格数据上的类别不平衡学习的综合基准,包含73个真实世界的表格数据集,涵盖了广泛的领域和失衡水平。该数据集旨在为类别不平衡学习提供基准,并支持不同类别不平衡学习算法之间的轻松实现和比较。数据集的创建基于严格的非平凡性和现实性标准,确保了数据集的真实性和实用性。数据集包括多种算法实现,如重采样、成本敏感学习和基于集成的方法。数据集还包含了一个统一的API设计,详细的文档和严格的代码质量控制,确保了易用性、可靠性和可扩展性。

CLIMB is a comprehensive benchmark for class-imbalanced classification learning on tabular data. It contains 73 real-world tabular datasets spanning a wide spectrum of domains and imbalance degrees. This benchmark is developed to provide a standardized evaluation platform for class-imbalanced classification learning, and facilitate straightforward implementation and comparison between different class-imbalanced classification learning algorithms. The datasets were constructed based on strict nontriviality and realism criteria, ensuring their authenticity and practical applicability. It includes implementations of multiple algorithmic paradigms, such as resampling methods, cost-sensitive learning approaches, and ensemble-based techniques. Furthermore, the benchmark features a unified API design, detailed documentation, and strict code quality control, which collectively guarantee its usability, reliability, and scalability.
提供机构:
伊利诺伊大学厄巴纳-香槟分校, 罗切斯特大学, IBM研究院, 石溪大学
创建时间:
2025-05-23
搜集汇总
数据集介绍
main_image_url
构建方式
CLIMB数据集通过精心筛选73个真实世界的表格数据集构建而成,涵盖金融、医疗、教育等多个领域,并采用严格的筛选标准确保数据的自然不平衡性和学习难度。数据集预处理包括统一的特征标准化和分类变量编码策略,采用5折分层划分确保评估的稳健性,并通过超参数优化确保算法性能的公平比较。
特点
CLIMB数据集以其广泛的领域覆盖和多样化的不平衡比例为显著特点,包含从低度到极高度不平衡的多种数据集。此外,该数据集提供了29种代表性的类别不平衡学习算法实现,涵盖重采样、代价敏感学习和集成方法等多种技术,并通过统一的API设计和详尽的文档支持,确保了数据集的易用性和可扩展性。
使用方法
使用CLIMB数据集时,研究人员可通过其开源的Python包轻松访问数据集和算法实现。数据集支持标准的预处理流程和评估协议,包括统一的特征处理和5折分层交叉验证。用户可以根据需要选择不同的评估指标(如AUPRC、宏F1分数等)进行模型性能比较,并通过详细的文档和示例快速上手。
背景与挑战
背景概述
CLIMB(Class-imbalanced Learning Benchmark on Tabular Data)是由伊利诺伊大学厄巴纳-香槟分校、罗切斯特大学、IBM研究院等机构的研究团队于2025年提出的表格数据类别不平衡学习基准。该数据集针对现实应用中普遍存在的类别不平衡问题,系统性地整合了来自金融、医疗、教育等领域的73个真实世界表格数据集,并统一实现了29种代表性类别不平衡学习算法。作为首个跨领域、多算法的综合性基准,CLIMB通过模块化的Python开源库提供了标准化的评估框架,其创新性体现在三个方面:覆盖不同不平衡程度的多样化数据集、集成重采样/代价敏感/集成学习等全算法范式、以及严格的代码质量控制体系。该基准的建立显著推进了类别不平衡学习在表格数据领域的方法比较和性能评估,为金融风控、疾病诊断等关键应用提供了可靠的实验平台。
当前挑战
CLIMB数据集面临的核心挑战体现在两个维度:领域问题层面,表格数据的异构特征类型、小样本特性与类别不平衡问题相互耦合,导致传统重采样方法在极端不平衡场景下性能退化,且不同评估指标(如AUPRC与BAC)可能得出矛盾结论;构建过程层面,需解决真实数据质量参差不齐(如标签噪声与缺失值)、跨领域数据集可比性差、以及算法实现一致性等难题。实验表明,单纯类别平衡可能使性能下降12%,而10%标签噪声带来的性能损失相当于将不平衡比提升5倍,这凸显了数据质量对模型鲁棒性的关键影响。此外,基准构建还需平衡计算效率(如集成方法训练耗时增加8-15倍)与算法多样性之间的矛盾。
常用场景
经典使用场景
在金融欺诈检测、医疗诊断、网络入侵识别等实际应用中,类别不平衡问题普遍存在。CLIMB数据集通过整合73个真实世界的表格数据集,覆盖了不同领域和不同不平衡程度的情景,为研究者提供了一个统一的基准平台。该数据集支持29种类别不平衡学习算法的实现与比较,包括重采样、代价敏感学习和集成方法等,使得研究者能够系统地评估不同算法在复杂现实数据上的表现。
解决学术问题
CLIMB数据集解决了类别不平衡学习领域中的几个关键学术问题。首先,它填补了现有基准资源在算法覆盖、数据集多样性和应用领域广度上的不足。其次,通过引入统一的数据预处理流程和评估指标,该数据集确保了不同算法比较的公平性和可重复性。最重要的是,CLIMB揭示了简单重平衡技术的局限性、集成方法的重要性以及数据质量对模型性能的关键影响,这些发现为后续算法设计提供了重要指导。
衍生相关工作
基于CLIMB数据集的研究催生了一系列相关重要工作。在算法层面,Self-paced Ensemble等新型集成方法通过利用自步学习策略改进了传统欠采样集成。在理论层面,研究者深入分析了不同评估指标(如AUPRC与BAC)在类别不平衡场景下的适用性差异。此外,该数据集还促进了AutoML系统在类别不平衡学习中的应用,以及深度学习模型与经典不平衡处理技术的融合研究。这些衍生工作显著推动了类别不平衡学习领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作