TILBench

Name: TILBench
Creator: 苏州大学·数学科学学院
Published: 2026-05-14 22:50:14
License: 暂无描述

arXiv2026-05-14 更新2026-05-16 收录

下载链接：

https://imbalanced-learn.org/stable/index.html

下载链接

链接失效反馈

官方服务：

资源简介：

TILBench是由苏州大学研究团队构建的一个大规模表格不平衡学习基准数据集，旨在系统评估不同算法在多样化数据特征下的性能。该数据集汇集了57个表格分类任务，涵盖二元与多元分类，包含不同规模、特征维度、不平衡比率及缺失值的数据，数据主要来源于OpenML和imbalanced-learn开源平台。其创建过程通过统一且可复现的评估框架，整合了超过40种代表性算法，进行了超过20万次受控实验。该数据集的应用领域聚焦于解决现实世界中的表格数据不平衡学习问题，如欺诈检测、医疗诊断等，为在不同数据特性与计算约束下选择合适方法提供实证依据与实用指南。

TILBench is a large-scale tabular imbalanced learning benchmark dataset constructed by the research team from Soochow University, which aims to systematically evaluate the performance of diverse algorithms under varied data characteristics. This dataset encompasses 57 tabular classification tasks covering binary and multi-class classification, including data with different scales, feature dimensions, imbalance ratios, and missing values. The data is primarily sourced from the open-source platforms OpenML and imbalanced-learn. During its development, a unified and reproducible evaluation framework was employed, integrating over 40 representative algorithms and conducting more than 200,000 controlled experiments. The application domains of this dataset focus on addressing real-world tabular imbalanced learning problems such as fraud detection and medical diagnosis, providing empirical evidence and practical guidelines for selecting appropriate methods under different data characteristics and computational constraints.

提供机构：

苏州大学·数学科学学院

创建时间：

2026-05-14

搜集汇总

数据集介绍

构建方式

TILBench的构建基于对表格数据中类别不平衡学习问题的系统性审视。研究团队从OpenML与imbalanced-learn平台收集了57个具有多样特征的表格数据集，涵盖34个二分类与23个多分类任务，其中7个包含天然缺失值。在此基础上，纳入了超过40种代表性算法，涵盖数据层面、算法层面与集成学习三大方法家族。所有实验采用统一的评估流程：每个数据集以分层抽样方式划分为80%训练集与20%测试集，并使用Optuna进行超参数优化，重复五次后报告均值和标准差。这一严谨且可复现的框架最终形成了超过20万次受控实验，为全面比较奠定了坚实基础。

使用方法

研究者可根据具体任务需求与数据特性，利用TILBench提供的丰富实证结果指导方法选择。对于一般性任务，建议以XGBoost作为强基线。在小样本二分类场景中，可优先考虑SelfPacedEnsemble或BalanceCascadeEnsemble等集成方法；在大规模或高维数据下，算法层面方法如XGBoostASL和XGBoostCost更为推荐。多分类任务中，SMOTE及其变体与XGBoostCost表现稳健。当数据存在缺失值时，具有原生处理能力的算法层面方法是理想选择。TILBench的整套代码和配置均已开源，便于研究者复现实验或扩展现有评估体系至新的方法与应用场景。

背景与挑战

背景概述

在表格数据应用中，类别不平衡问题始终是一项基础性挑战，尤其在欺诈检测、医疗诊断和故障诊断等关键领域，少数类样本虽稀少却承载着极高的实践价值。针对此问题，学术界已提出数据层面、算法层面及集成策略等众多方法，然而，这些方法在不同数据特征下的相对表现仍缺乏系统性认识。在此背景下，由苏州大学数学科学学院的刘瑞哲与罗佳琪于2025年共同创建的TILBench基准测试应运而生。该工作系统评估了超过40种代表性算法在57个多样化表格数据集上的表现，实施了逾20万次受控实验，为理解不平衡学习方法在不同数据体制下的预测性能、鲁棒性与计算可扩展性提供了翔实的实证基础，深刻影响了相关领域的后续研究。

当前挑战

TILBench聚焦的核心挑战在于，现有研究常受限于算法与数据集规模，侧重于平均预测性能而忽视了方法行为随数据特质（如样本量、特征维度、不平衡程度与缺失值）的系统性变化。研究发现，尚无单一方法能在所有场景下持续占优，方法有效性与数据特征及计算约束紧密相关。此外，构建过程面临统一与可复现评估框架的设计难题，需涵盖多样数据特征（如样本量从数百至数十万、不平衡比率从1.9至577.88）与40余种方法，同时确保超参数调优、分层抽样与五轮重复实验的公平性，这对实验的可控性与计算资源的协调构成显著挑战。

常用场景

经典使用场景

在表格数据的机器学习任务中，类别不平衡问题始终是制约模型泛化能力的关键瓶颈。TILBench作为首个系统性评估表格数据不平衡学习方法的基准，其最经典的使用场景在于对40余种代表性算法在57个多样化数据集上进行大规模、可复现的对比实验。研究者可借助该基准，在统一的评估框架下检验数据层面、算法层面与集成层面三类不平衡处理策略的整体预测性能，从而为特定数据场景下算法选择提供可靠的实证依据。

解决学术问题

TILBench深刻回应了长期困扰学术界的三个核心问题：哪些不平衡学习方法在整体预测性能上更具优势？这些方法的有效性如何随样本规模、特征维度、不平衡程度及缺失值等数据特性变化？不同方法在计算可扩展性与效率方面表现如何？通过超过20万次控制实验的翔实分析，该基准揭示了算法层面方法在多维度下兼具稳定性与高效性，而数据层面方法在极端不平衡与多类任务中展现出独特竞争力，从而打破了‘单一方法普适最优’的传统认知。

实际应用

在现实工业与商业场景中，欺诈检测、医疗诊断与故障预警等任务长期遭受类别严重失衡的困扰。TILBench提供的实践指南为从业者指明了出路：对于小规模二分类任务，集成方法如SelfPacedEnsemble表现出色；在大规模或高维数据中，基于XGBoost的算法层面方法在预测性能与计算代价之间取得了最佳平衡；而当面临严重不平衡或多类分类时，数据层面的SMOTE家族算法则成为可靠的先锋。该基准深刻推动了不平衡学习方法在真实复杂环境中的理性部署。

数据集最近研究