28个表格数据集

Name: 28个表格数据集
Creator: 田纳西州立大学计算机科学系
Published: 2024-01-09 06:36:05
License: 暂无描述

arXiv2024-01-09 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2401.04266v1

下载链接

链接失效反馈

官方服务：

资源简介：

本研究使用了28个表格数据集，包括14个易分类和14个难分类的数据集，用于评估和比较不同的学习策略。这些数据集来自UCI机器学习库，涵盖了从电子健康记录到银行、金融、推荐系统和网络安全的广泛应用领域。数据集的特征包括样本大小、数据维度、分类目标数量等，旨在通过这些多样化的数据集来系统验证表格数据的学习算法。

This study employed 28 tabular datasets—14 easily classifiable and 14 difficultly classifiable ones—to evaluate and compare distinct learning strategies. All datasets are sourced from the UCI Machine Learning Repository, spanning a wide range of application domains from electronic health records to banking, finance, recommendation systems, and cybersecurity. The datasets feature various characteristics including sample size, data dimensionality, number of classification targets, and other relevant attributes, with the core goal of systematically validating learning algorithms for tabular data using these diverse collections.

提供机构：

田纳西州立大学计算机科学系

创建时间：

2024-01-09

搜集汇总

数据集介绍

构建方式

该数据集由28个来自UCI机器学习仓库的表格数据集构成，依据分类难度均衡划分为14个易分类和14个难分类子集。难分类数据集定义为梯度提升树相比逻辑回归在准确率上提升超过4%的数据，易分类数据集则反之。每个数据集均包含样本数、特征数、类别数、特征-样本比（FS-ratio）以及特征间平均绝对相关系数（C-score）等统计指标，以刻画异质性特征空间的多样性。

使用方法

数据集的使用遵循标准化的实验流程：对每个数据集进行30次随机采样，形成70%训练、10%验证和20%测试的划分，并固定随机种子以确保可重复性。评估指标采用加权F1分数以应对类别不平衡，并通过Wilcoxon符号秩检验进行统计显著性比较。研究者可基于该基准对比传统机器学习（如逻辑回归、梯度提升树）与深度学习（如注意力网络、对比学习）的性能，并根据FS-ratio和C-score等数据特征指导模型选择。

背景与挑战

背景概述

表格数据在医疗记录、金融风控、推荐系统等众多领域无处不在，然而深度学习方法在表格数据上的表现长期逊于传统机器学习，这一现象被学界称为“深度学习的最后一座未征服城堡”。2024年，田纳西州立大学的Shourav B. Rabbani、Ivan V. Medri与Manar D. Samad研究团队发布了涵盖28个表格数据集的基准测试框架，旨在系统评估注意力机制与对比学习在表格数据上的有效性。该研究通过区分14个易分类与14个难分类数据集，揭示了模型性能高度依赖于数据异质性的核心问题，为表格数据学习算法的数据驱动选择提供了重要依据。

当前挑战

该数据集面临的核心挑战包括：1）表格数据特征空间异质性显著，特征尺度、分布及类型（数值/类别）混杂，导致深度学习方法难以像处理图像那样学习通用表征；2）表格数据样本量普遍偏小（中位数仅660），难以满足深度模型对大规模数据的需求；3）现有注意力模型在高维表格数据上易出现显存溢出问题，而对比学习在低维数据上效果有限，两者均无法在所有场景下战胜传统梯度提升树方法；4）构建过程中需统一评估多种腐败策略（如CutMix、随机特征腐败）与注意力变体，并采用30次自举采样与Wilcoxon符号秩检验保证统计可靠性，实验复杂度极高。

常用场景

经典使用场景

在结构化表格数据的学术研究中，28个表格数据集被广泛用于评估和比较各类深度学习与机器学习方法的性能。该数据集涵盖了从电子健康记录到金融信贷、推荐系统及网络安全等多元领域，其异构特征空间和有限的样本量使其成为检验注意力机制与对比学习方法在表格数据上有效性的理想基准。研究者常利用该数据集进行数据中心的基准测试，通过统一指标和统计检验，揭示不同算法在简单与复杂分类边界上的表现差异，从而为表格数据的模型选择提供实证依据。

解决学术问题

该数据集的核心价值在于解决了表格数据领域长期存在的学术难题：深度学习方法为何难以超越传统机器学习。通过系统性地比较注意力机制、对比学习、传统深度学习和机器学习在28个难易程度不同的表格数据集上的表现，研究证实了“不存在普适最优算法”的假设。这一发现挑战了图像和文本领域“单一模型通吃”的范式，推动学术界从“模型中心”转向“数据中心”的研究思路，强调根据数据统计特征（如特征样本比、特征相关性）预选学习策略的重要性。

实际应用

在实际应用中，该数据集为医疗诊断、信用评估、工业故障检测等高价值场景提供了可靠的模型选型指南。例如，在医疗电子病历分析中，当数据集特征维度较低且样本量适中时，基于注意力的混合模型（如SAINT）能显著提升疾病预测的F1分数；而在高维稀疏特征场景（如生物反应数据），对比学习方法则展现出更强的鲁棒性。这种数据驱动的模型选择策略，帮助从业者避免盲目堆叠复杂深度网络，从而在计算资源有限的情况下实现更高效、更准确的预测。

数据集最近研究