TabReD

Name: TabReD
Creator: Yandex, HSE大学
Published: 2024-06-28 01:55:31
License: 暂无描述

arXiv2024-06-28 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2406.19380v1

下载链接

链接失效反馈

官方服务：

资源简介：

TabReD是由Yandex和HSE大学创建的一个包含八个工业级表格数据集的基准，覆盖金融、食品配送等多个领域。这些数据集具有时间分割特性，支持基于时间序列的训练和测试分割，反映了真实世界数据的时间演变特性。数据集通过从Kaggle竞赛和工业ML应用中收集，经过精心筛选和特征工程处理，确保了数据的质量和实用性。TabReD主要用于评估和推动表格机器学习模型的发展，特别是在处理时间序列数据和复杂特征工程方面的应用。

TabReD is a benchmark comprising eight industrial-grade tabular datasets developed by Yandex and HSE University, covering a wide range of domains such as finance and food delivery. These datasets possess time-splitting characteristics, enabling time-series-based training and test partitioning, which mirror the temporal evolution patterns inherent in real-world data. Collected from Kaggle competitions and industrial machine learning applications, the datasets have been meticulously screened and processed with feature engineering to guarantee their data quality and practical applicability. TabReD is primarily designed to evaluate and advance the progress of tabular machine learning models, particularly for scenarios involving time-series data and complex feature engineering tasks.

提供机构：

Yandex, HSE大学

创建时间：

2024-06-28

搜集汇总

数据集介绍

构建方式

TabReD数据集是通过整合来自Kaggle竞赛和工业机器学习应用中的真实世界数据构建的。数据集的构建着重于两个工业级表格数据的特点：时间变化和特征工程。每个数据集都根据时间戳进行时间分割，以反映真实世界中数据随时间推移的变化。此外，数据集包含了大量的特征，这些特征是通过采用工业生产机器学习流程和Kaggle竞赛论坛中的预处理步骤进行工程化得到的。为了保证数据质量，数据集排除了已知的数据泄露问题，并确保了数据的可追溯性。

使用方法

使用TabReD数据集的方法包括以下几个步骤：首先，选择合适的数据集，这些数据集涵盖了不同的应用领域和任务类型。其次，进行数据预处理，包括特征编码、缺失值处理等。然后，根据数据集的时间戳进行时间分割，以创建训练、验证和测试集。接下来，选择合适的模型进行训练和评估，可以使用传统的机器学习模型如GBDT和随机森林，也可以使用深度学习模型如MLP和Transformer。最后，根据评估结果选择表现最好的模型进行部署。TabReD数据集提供了一个真实世界的评估环境，有助于研究人员更好地理解模型在现实世界中的应用效果。

背景与挑战

背景概述

TabReD数据集是一个由Yandex和HSE大学的研究人员共同创建的工业级表格数据集，旨在解决当前学术表格数据集与实际应用场景脱节的问题。该数据集创建于2024年，主要研究人员包括Ivan Rubachev、Nikolay Kartashev、Yury Gorishniy和Artem Babenko。TabReD数据集的核心研究问题是如何更好地反映下游应用场景，以便于新研究的流畅采用。该数据集对相关领域的影响力主要体现在填补了现有学术基准中的空白，为表格机器学习的研究和应用提供了更接近现实世界的基准数据集。

当前挑战

TabReD数据集面临的挑战主要包括：1) 真实世界部署场景中表格数据随时间变化的问题，这要求模型性能评估需要基于时间戳进行时间相关的训练和测试分割；2) 现有学术表格数据集往往缺乏时间戳元数据，无法进行时间相关的评估。3) 现有数据集在构建过程中往往缺乏生产环境中的数据获取和特征工程流程，导致数据集缺乏丰富的特征和复杂的特征工程，无法反映实际工业应用的特点。

常用场景

经典使用场景

TabReD数据集是专为表格机器学习（ML）而设计的，旨在反映真实世界的应用场景。该数据集最经典的使用场景是在金融、食品配送服务等广泛领域中进行预测任务，如客户购买保险政策的可能性、客户忠诚度建模、贷款违约预测和房价预测等。这些场景要求模型能够处理大量特征、进行特征工程，并考虑时间序列数据中的时间依赖性。

解决学术问题

TabReD数据集解决了现有学术基准数据集中两个普遍存在的问题：首先，现有数据集通常缺乏时间戳元数据，无法进行基于时间的训练和测试分割，以正确评估模型性能；其次，许多数据集缺乏来自广泛数据获取和特征工程流程的特征，而这类特征在工业环境中却很常见。TabReD数据集通过引入八个行业级的表格数据集，涵盖了这些问题，并提供了时间戳和时间分割，以更好地模拟现实世界中的数据变化。

实际应用

TabReD数据集的实际应用场景包括但不限于预测客户行为、优化业务流程和提高决策效率。例如，银行可以使用该数据集来预测客户是否可能违约，从而更好地管理风险。零售商可以使用它来分析客户忠诚度，以制定更有针对性的营销策略。食品配送服务可以使用它来优化订单准备和交付时间。这些应用场景都要求模型能够处理大量特征并适应数据随时间的变化。

数据集最近研究