TDBench

Name: TDBench
Creator: 伦斯勒理工学院, IBM研究院
Published: 2025-01-24 02:35:15
License: 暂无描述

arXiv2025-01-24 更新2025-02-25 收录

下载链接：

http://arxiv.org/abs/2501.13905v1

下载链接

链接失效反馈

官方服务：

资源简介：

TDBench是由伦斯勒理工学院和IBM研究院共同创建的一个表格数据蒸馏基准测试套件。该数据集包含23个表格数据集，涵盖了多种数据来源和应用场景。通过11种不同的蒸馏方案和7种下游分类模型，TDBench生成了226,890个蒸馏数据集，并训练了548,880个模型。数据集的创建过程包括对原始数据进行预处理、列嵌入表示学习以及蒸馏方案的评估。TDBench旨在解决表格数据蒸馏中的挑战，如特征异质性和非可微模型的应用，为表格数据的高效压缩和隐私保护提供了新的解决方案。

TDBench is a tabular data distillation benchmark suite co-developed by Rensselaer Polytechnic Institute and IBM Research. This suite encompasses 23 tabular datasets covering diverse data sources and application scenarios. Utilizing 11 distinct distillation schemes and 7 downstream classification models, TDBench has generated 226,890 distilled datasets and trained 548,880 models in total. The construction process of this benchmark includes raw data preprocessing, column embedding representation learning, and evaluation of distillation schemes. TDBench aims to address core challenges in tabular data distillation, such as feature heterogeneity and the application of non-differentiable models, and provides novel solutions for efficient compression and privacy protection of tabular data.

提供机构：

伦斯勒理工学院, IBM研究院

创建时间：

2025-01-24

搜集汇总

数据集介绍

构建方式

TDBench数据集是通过将原始的表格数据经过预处理、特征嵌入、编码器解码器架构处理后，生成丰富的紧凑表示，再通过多种蒸馏方案进行数据蒸馏构建而成的。数据集包含23个表格数据集，涵盖了7种模型类和11种蒸馏方案，通过在TDBench上进行评估，生成了226,890个蒸馏数据集和548,880个模型训练实例。

使用方法

使用TDBench数据集时，首先需要选择合适的编码器架构，例如FFN、GNN或Transformer，然后进行数据预处理和特征嵌入，最后选择合适的蒸馏方案进行数据蒸馏。数据蒸馏完成后，可以对蒸馏数据集进行模型训练和评估，以评估不同蒸馏方案和数据蒸馏效果。

背景与挑战

背景概述

在当今数据驱动的时代，数据集蒸馏技术逐渐兴起，旨在从大型数据集中提取出一小部分信息丰富的样本，以降低存储成本、隐私风险和计算成本。然而，这一技术大多集中在图像数据模式上。TDBench数据集的创建填补了这一空白，专注于表格数据蒸馏。该数据集由Inwon Kang等人于2025年提出，主要研究人员来自伦斯勒理工学院计算机科学系和IBM研究院。TDBench的核心研究问题是如何在表格数据蒸馏中处理特征异质性和非可微学习模型的普遍使用，并提出了一种基于列嵌入表示学习的表格数据蒸馏框架TDColER。TDBench数据集包含23个表格数据集、7种模型类别和11种蒸馏方案，为表格数据蒸馏提供了全面的评估基准。TDBench的创建不仅推动了表格数据蒸馏技术的发展，也为相关领域的研究提供了宝贵的资源。

当前挑战

TDBench数据集在表格数据蒸馏领域面临着诸多挑战。首先，表格数据具有固有的特征异质性，这使得生成合适的特征聚合变得困难。其次，非可微学习模型（如决策树集成和最近邻预测器）的普遍使用也增加了蒸馏的难度。此外，TDBench数据集构建过程中还面临了如何选择合适的蒸馏方案、编码器架构以及如何评估蒸馏数据质量等挑战。为了解决这些挑战，TDBench数据集提出了TDColER框架，该框架利用列嵌入表示学习和编码器-解码器架构来生成丰富的紧凑表示。通过在TDBench上的详尽评估，TDColER框架被证明能够提高现有蒸馏方案的数据质量，并在不同表格学习模型上实现了0.5-143%的性能提升。

常用场景

经典使用场景

TDBench数据集主要用于评估和比较各种表格数据蒸馏方法的性能。该数据集包含了23个表格数据集，涵盖了从10000到超过110000个样本和从7到54个特征的不同规模和类型。此外，TDBench还提供了7种下游模型和11种蒸馏方案，使得研究人员可以灵活选择和评估各种蒸馏方法的效果。

解决学术问题

TDBench数据集解决了表格数据蒸馏领域的一个关键问题，即如何有效地评估和比较不同的蒸馏方法。该数据集提供了全面的评估指标和基准，使得研究人员可以客观地评估各种方法的性能。此外，TDBench还揭示了表格数据蒸馏的一些重要特征，例如特征异质性和模型不可微性，为未来的研究提供了重要的指导。

实际应用

TDBench数据集在实际应用中具有重要的价值。通过使用TDBench，研究人员可以找到最适合其特定任务的蒸馏方法，从而提高模型的预测性能并降低计算成本。此外，TDBench还可以用于开发新的蒸馏方法，并评估其在大规模表格数据上的性能。

数据集最近研究