MULTITAB
收藏arXiv2025-05-20 更新2025-05-22 收录
下载链接:
https://huggingface.co/datasets/LGAI-DILab/Multitab
下载链接
链接失效反馈官方服务:
资源简介:
MULTITAB是一个包含196个公开可用数据集的基准测试套件,用于多维度的数据感知分析。这些数据集涵盖了分类和回归任务,并评估了13种具有不同归纳偏置的代表性模型。数据集被分为子类别,基于样本大小、标签不平衡和特征交互等关键数据特征进行分类。MULTITAB旨在揭示不同建模假设在特定数据环境下的表现,并支持更有效的模型选择和设计。
MULTITAB is a benchmark suite comprising 196 publicly available datasets for multi-dimensional data-aware analysis. These datasets cover classification and regression tasks, and evaluate 13 representative models with distinct inductive biases. The datasets are categorized into subcategories based on key data characteristics such as sample size, label imbalance, and feature interaction. MULTITAB aims to reveal the performance of different modeling assumptions under specific data contexts, and support more effective model selection and design.
提供机构:
LG AI Research
创建时间:
2025-05-20
搜集汇总
数据集介绍

构建方式
MULTITAB数据集的构建基于196个公开可用的表格数据集,涵盖分类和回归任务。数据收集遵循严格标准,包括先前在基准测试或表格深度学习研究中的使用、公开可用性以及结构化元数据的完整性。为确保数据质量,排除了许可不明确、元数据缺失或列映射不一致的数据集。预处理步骤包括处理缺失值、确定特征类型并对所有数值特征应用分位数变换。数据集根据样本量、标签不平衡和特征交互等关键统计特征进行分组,以支持结构化分析。
特点
MULTITAB数据集的特点在于其多维度的评估框架,能够揭示模型行为在不同数据体制下的变化。数据集覆盖了广泛的统计特性,包括样本量、特征异质性和标签不平衡等七个核心轴。每个轴通过定量指标进行定义,确保评估的可解释性和可重复性。此外,数据集提供了互补的评估指标,如对数损失和均方根误差,以支持稳健的性能比较。这种多层次的分类方法使得模型性能的分析更加细致,有助于理解模型在不同数据条件下的表现。
使用方法
MULTITAB数据集的使用方法包括标准化的训练协议和评估指标。每个算法在一致的分层k折交叉验证协议下进行评估,确保公平和稳健的模型比较。超参数优化采用树结构Parzen估计器进行,优化目标根据任务类型(分类或回归)而定。评估过程中使用归一化预测误差作为主要指标,以消除数据集规模和难度的影响。此外,数据集支持基于子类别的条件评估,使用户能够针对特定数据体制进行模型选择和性能分析。所有数据集、代码和优化日志均公开提供,便于复现和进一步研究。
背景与挑战
背景概述
MULTITAB是由LG AI Research的研究团队于2025年提出的一个综合性表格数据基准测试套件,旨在解决传统表格学习评估中过度依赖平均性能指标的问题。该数据集由Kyungeun Lee、Moonjung Eo等学者构建,包含196个公开可用的表格数据集,覆盖分类和回归任务,并按样本量、标签不平衡度、特征交互等关键数据特征进行系统分类。MULTITAB的创新性在于其多维评估框架,能够揭示不同归纳偏置的模型(如基于特征交互的注意力机制模型与基于样本相似性的度量学习模型)在特定数据体系下的表现差异,为表格学习领域提供了更精细的模型选择和设计指导。
当前挑战
MULTITAB面临的挑战主要体现在两个方面:领域问题挑战方面,传统表格学习基准无法有效区分模型在不同数据体系(如高特征相关性vs低样本量)下的表现差异,导致模型选择缺乏针对性;构建过程挑战方面,数据集的异构性(如混合数值/类别特征、缺失值处理)和规模差异(从数百到千万级样本)对标准化预处理和公平评估提出了极高要求。具体挑战包括:1) 需要设计兼顾分类和回归任务的统一评估指标;2) 超参数优化中需平衡计算成本与模型性能;3) 注意力机制模型在低相关特征数据上的性能波动;4) 树模型在高度不规则函数建模中的局限性。
常用场景
经典使用场景
MULTITAB数据集在表格学习领域被广泛用于多维度评估不同算法的性能。该数据集通过将196个公开数据集按照样本量、标签不平衡、特征交互等关键数据特征进行分类,为研究者提供了一个结构化、数据感知的评估框架。其经典使用场景包括比较13种代表性模型在不同数据体系下的表现,揭示模型行为如何随数据特征变化。
实际应用
在金融风控和医疗诊断等现实场景中,MULTITAB的评估框架可指导从业者根据数据特性选择最优算法。例如当处理高维稀疏的医疗记录时,采用特征注意力机制的模型表现更优;而在样本量充足的金融交易数据中,基于样本相似性的模型则显示出明显优势。该数据集还能识别模型在标签不平衡等挑战性场景中的失效模式,提升实际应用的鲁棒性。
衍生相关工作
MULTITAB催生了多项关于表格深度学习架构改进的研究,如基于其发现的特征交互规律开发的T2G-Former模型。该数据集的分析方法也被TabPFN等预训练模型作为评估基准,其多维评估范式更启发了后续工作如TabReD在时序泛化方面的拓展。相关研究进一步验证了数据体系感知评估在AutoML和分布偏移场景中的重要性。
以上内容由遇见数据集搜集并总结生成



