TabReD

Name: TabReD
Creator: Yandex, 国立高等经济学院
Published: 2024-07-02 07:01:33
License: 暂无描述

arXiv2024-07-02 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2406.19380v2

下载链接

链接失效反馈

官方服务：

资源简介：

TabReD数据集由Yandex和国立高等经济学院创建，包含八个来自真实工业应用的表格数据集，涉及金融、食品配送等多个领域。数据集大小不一，具有大量特征，这些特征是通过深入的数据采集和特征工程获得的。创建过程中，数据集被分为训练、验证和测试集，且根据时间戳进行分割，以模拟真实世界的数据分布变化。TabReD数据集主要用于评估和改进表格机器学习模型，特别是在处理时间序列数据和特征丰富的数据集时。

提供机构：

Yandex, 国立高等经济学院

创建时间：

2024-06-28

搜集汇总

数据集介绍

构建方式

TabReD数据集的构建旨在反映真实世界中的表格机器学习应用场景。该数据集从Kaggle竞赛和工业机器学习应用中收集了八个行业级表格数据集，涵盖了从金融到食品配送服务等广泛领域。数据集的构建过程中，研究人员考虑了工业级表格数据在现实部署场景中随时间变化的特性，以及数据获取和特征工程管道的广泛性。为了确保评估的准确性，所有数据集都按照时间戳进行训练、验证和测试分割，并包含了大量的特征，以反映现实世界中数据集的特点。

特点

TabReD数据集具有两个重要特点。首先，数据集是按照时间戳进行分割的，这意味着测试数据点的时间晚于训练数据点，这反映了现实世界中数据随时间变化的特性。其次，数据集包含了大量的特征，这些特征是通过数据获取和特征工程管道生成的，与学术数据集相比，这些数据集更接近现实世界中的工业应用。TabReD数据集还具有高质量的数据，没有数据泄露、合成数据和非表格数据的问题。

使用方法

TabReD数据集的使用方法包括以下步骤：首先，下载数据集并解压。然后，使用时间戳将数据集分割成训练、验证和测试集。接下来，选择合适的机器学习模型，并对模型进行训练和评估。最后，根据评估结果选择最优模型，并使用该模型进行预测。TabReD数据集的官方网站提供了详细的说明和代码示例，以帮助用户更好地使用数据集。

背景与挑战

背景概述

TabReD数据集的研究背景可以追溯到近年来表格机器学习（ML）领域的快速增长。该领域涌现出许多新的神经网络架构，这些架构在某些情况下甚至优于传统的GBDT模型。为了推动这一领域的发展，需要一个全面的基准测试集，这些基准测试集应反映下游应用的特点和具体细节，以确保研究进展的无缝应用。然而，现有的学术基准测试集往往缺乏对工业级表格ML应用中常见的数据特性的充分代表。TabReD数据集的创建旨在填补这一空白，通过收集八个行业级的表格数据集，涵盖从金融到食品配送服务等广泛领域，来更好地代表现实世界中的表格ML应用场景。

当前挑战

TabReD数据集面临的挑战包括解决现实世界应用场景中的数据变化问题，以及数据获取和特征工程过程中的挑战。首先，在现实世界的部署场景中，表格数据通常会随时间变化，这会影响模型的性能，并要求根据时间戳进行基于时间的训练和测试分割，以进行正确的模型评估。然而，现有的学术表格数据集往往缺乏时间戳元数据，无法进行此类评估。其次，在生产环境中，相当一部分数据集来源于广泛的数据获取和特征工程流程。对于每个特定的数据集，这可能会对预测性、非信息性和相关特征的数量产生影响，进而影响模型选择。TabReD数据集的构建旨在解决这些挑战，通过提供具有时间戳分割和丰富特征的数据集，以更好地模拟现实世界的应用场景。

常用场景

经典使用场景

TabReD数据集是一个由八个行业级表格数据集组成的集合，涵盖了从金融到食品配送服务等广泛领域。这些数据集具有两个重要的实用特性，即时间戳分割和丰富的特征工程，这使得它们非常适合评估表格机器学习模型在现实世界应用中的表现。时间戳分割确保了训练和测试数据的时间一致性，而丰富的特征工程则模拟了实际应用中数据预处理和特征提取的过程。

衍生相关工作

TabReD数据集的引入促使了相关研究工作的开展，例如对表格深度学习模型在时间序列数据中的表现进行评估，以及对不同类型模型在时间分割和随机分割下的性能进行比较。这些研究工作有助于推动表格机器学习领域的发展，并为实际应用中的模型选择和评估提供参考。

数据集最近研究