TabReD

github2024-06-28 更新2024-06-29 收录

下载链接：

https://github.com/yandex-research/tabred

下载链接

链接失效反馈

官方服务：

资源简介：

TabReD是一个包含八个行业级表格数据集的集合，涵盖金融到食品配送服务等多个领域。这些数据集用于评估表格机器学习模型在特征丰富、时间演化的数据环境中的表现。

TabReD is a curated collection of eight industry-grade tabular datasets covering diverse domains ranging from finance to food delivery services. These datasets are designed to evaluate the performance of tabular machine learning models in data environments characterized by rich features and temporal evolution.

创建时间：

2024-06-26

原始信息汇总

TabReD: 野外表格机器学习基准

数据集概述

TabReD是一个包含八个行业级表格数据集的集合，涵盖金融到食品配送服务等多个领域。这些数据集旨在反映实际应用场景，特别是关注数据随时间变化的特点和丰富的特征工程。

数据集列表

以下是TabReD数据集的详细信息：

数据集名称	特征数	任务类型	使用实例数	可用实例数	链接
Homesite Insurance	299	分类	260,753	-	Competition
Ecom Offers	119	分类	160,057	-	Competition
Homecredit Default	696	分类	381,664	1,526,659	Competition
Sberbank Housing	392	回归	28,321	-	Competition
Cooking Time	192	回归	319,986	12,799,642	Dataset
Delivery ETA	223	回归	416,451	17,044,043	Dataset
Maps Routing	986	回归	340,981	13,639,272	Dataset
Weather	103	回归	423,795	16,951,828	Dataset

数据预处理

数据集的预处理脚本位于./preprocessing目录中。对于Kaggle数据集，需要注册相应的竞赛并拥有Kaggle账户。

环境配置

提供两个环境配置文件：

tabred-env-local.yaml：适用于无GPU的本地开发环境。
tabred-env.yaml：适用于有GPU的服务器环境。

使用micromamba create -f命令创建所需环境。

示例

以下是重现MLP在maps-routing数据集上结果的步骤：

创建环境。
创建数据集（运行预处理脚本）。
设置CUDA可见设备（如export CUDA_VISIBLE_DEVICES=0）。
运行实验脚本（如python bin/go.py exp/mlp/maps-routing/tuning.toml --force）。

数据集详细信息

数据集的详细信息可在datasheet中找到。

搜集汇总

数据集介绍

构建方式

TabReD数据集的构建旨在填补现有表格深度学习基准的空白，特别关注工业级应用中的实际挑战。该数据集由八个行业级表格数据集组成，涵盖了分类和回归任务。这些数据集不仅包含丰富的特征，还考虑了时间序列数据的分布漂移问题。通过使用时间相关的训练/测试分割，TabReD确保了评估方法在实际应用中的有效性。此外，数据集的特征工程部分反映了生产环境中常见的数据获取和处理流程，从而增强了数据集的实用性和代表性。

使用方法

使用TabReD数据集时，用户首先需要通过运行`./preprocessing`目录中的脚本下载和预处理数据。对于Kaggle数据集，用户需注册相应的竞赛并拥有Kaggle账户。预处理完成后，用户可以根据需求选择合适的实验环境，如本地开发环境或支持GPU的服务器环境。通过设置环境变量和运行实验脚本，用户可以复现或扩展TabReD上的实验结果。具体操作包括创建环境、生成数据集、设置可见设备并运行实验脚本。详细的实验日志和结果存储在`./exp`目录中，便于后续分析和验证。

背景与挑战

背景概述

TabReD数据集由Yandex Research团队于2024年创建，旨在填补表格深度学习基准测试中的空白。该数据集汇集了八个工业级表格数据集，涵盖了从保险到电子商务等多个领域的实际应用场景。TabReD的核心研究问题在于评估和比较不同机器学习模型在时间序列数据和特征丰富的真实世界数据上的表现。通过引入时间依赖性和复杂的特征工程，TabReD旨在揭示现有模型在实际部署中的潜在缺陷，从而推动表格深度学习领域的进一步发展。

当前挑战

TabReD数据集面临的挑战主要集中在两个方面。首先，时间序列数据的分布随时间变化，导致传统的随机分割评估方法不再适用，需要采用时间依赖的训练/测试分割策略。然而，现有的大多数表格数据集缺乏时间戳元数据，难以支持这种评估。其次，工业级数据集通常包含大量特征，其中部分特征可能不具信息性或高度相关，这增加了模型训练的复杂性和不确定性。此外，如何有效地预处理和利用这些特征丰富的数据，也是TabReD在构建过程中遇到的重要挑战。

常用场景

经典使用场景

在表格深度学习领域，TabReD数据集的经典使用场景主要集中在评估和比较不同机器学习模型在处理时间序列数据和特征丰富的工业级数据集上的表现。通过采用时间序列分割方法，研究人员能够更准确地模拟实际应用中的数据分布变化，从而评估模型在面对数据分布漂移时的鲁棒性。此外，TabReD还广泛用于验证简单多层感知器（MLP）和梯度提升决策树（GBDT）等基础架构在复杂数据环境中的有效性。

解决学术问题

TabReD数据集解决了学术研究中常见的两个关键问题：一是现有数据集缺乏时间戳元数据，无法有效评估模型在时间序列数据上的表现；二是学术数据集通常缺乏工业应用中常见的特征工程和数据采集复杂性，导致模型在实际部署中的表现与学术评估结果存在显著差异。通过引入TabReD，研究人员能够更全面地理解表格深度学习模型在实际工业环境中的适应性和性能，从而推动相关领域的技术进步。

实际应用

在实际应用中，TabReD数据集被广泛用于金融风险评估、保险定价、电子商务推荐系统以及物流和运输领域的预测模型开发。例如，在金融行业，TabReD可用于构建和优化信用风险评估模型，帮助金融机构更准确地预测客户违约风险。在电子商务领域，TabReD则可用于提升个性化推荐系统的准确性和用户满意度。此外，TabReD还支持物流和运输公司优化配送路线和时间预测，提高运营效率。

数据集最近研究