dllllb/retailhero-uplift

Name: dllllb/retailhero-uplift
Creator: dllllb
Published: 2024-02-19 18:20:55
License: 暂无描述

Hugging Face2024-02-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/dllllb/retailhero-uplift

下载链接

链接失效反馈

官方服务：

资源简介：

--- pretty_name: X5 RetailHero Uplift Modelling task_categories: - tabular-classification tags: - finance configs: - config_name: clients data_files: data/clients.csv.gz - config_name: products data_files: data/products.csv.gz - config_name: purchases data_files: data/purchases.csv.gz - config_name: uplift_train data_files: data/uplift_train.csv.gz - config_name: uplift_test data_files: data/uplift_test.csv.gz --- https://ods.ai/competitions/x5-retailhero-uplift-modeling

pretty_name: X5零售英雄提升建模（X5 RetailHero Uplift Modelling） task_categories: - 表格分类（tabular-classification） tags: - 金融（finance） configs: - config_name: 客户（clients） data_files: data/clients.csv.gz - config_name: 商品（products） data_files: data/products.csv.gz - config_name: 购买记录（purchases） data_files: data/purchases.csv.gz - config_name: 提升建模训练集（uplift_train） data_files: data/uplift_train.csv.gz - config_name: 提升建模测试集（uplift_test） data_files: data/uplift_test.csv.gz https://ods.ai/competitions/x5-retailhero-uplift-modeling

提供机构：

dllllb

原始信息汇总

数据集概述

数据集名称

X5 RetailHero Uplift Modelling

任务类别

表格分类

配置详情

clients: 数据文件为 data/clients.csv.gz
products: 数据文件为 data/products.csv.gz
purchases: 数据文件为 data/purchases.csv.gz
uplift_train: 数据文件为 data/uplift_train.csv.gz
uplift_test: 数据文件为 data/uplift_test.csv.gz

搜集汇总

数据集介绍

构建方式

在零售营销分析领域，X5 RetailHero Uplift Modelling数据集通过严谨的结构化流程构建而成。该数据集源自俄罗斯X5零售集团的真实业务场景，涵盖了客户、产品、购买记录以及提升建模专用的训练与测试数据。构建过程中，数据经过匿名化处理，以保护用户隐私，同时保留了关键的交易时间、商品类别和客户行为特征。各配置文件分别存储为压缩的CSV格式，确保了数据的高效存储与访问，为后续的因果推断分析奠定了坚实基础。

特点

该数据集的核心特点在于其专注于提升建模（Uplift Modelling）这一前沿方向，旨在量化营销干预对客户行为的因果效应。数据集包含多维度的表格数据，如客户档案、产品信息和历史购买记录，这些特征相互关联，支持复杂的特征工程与模型训练。特别地，训练集与测试集的分离设计，便于评估模型在未见数据上的泛化能力。数据来源于实际零售环境，具有高度的现实代表性，为研究者在非实验性设置下进行因果推断提供了宝贵资源。

使用方法

使用该数据集时，研究者可首先加载不同的配置文件，例如客户、产品和购买数据，进行数据探索与预处理。提升建模任务通常涉及结合训练集的特征与标签，构建预测模型以估计营销活动对客户购买意愿的个体处理效应。测试集可用于模型验证，通过提交预测结果至竞赛平台进行评估。该方法支持从传统机器学习到高级因果推断算法的多种技术路径，助力零售营销策略的优化与个性化推荐系统的开发。

背景与挑战

背景概述

在零售营销科学领域，提升模型（Uplift Modelling）作为一种精准评估营销干预效果的前沿技术，旨在识别对促销活动反应积极的客户群体，从而优化营销资源配置。X5 RetailHero Uplift Modelling数据集由俄罗斯领先的零售集团X5与数据科学社区ODS.ai于2021年联合推出，其核心研究问题聚焦于通过机器学习方法量化营销活动对客户购买行为的因果效应，推动了个性化营销策略从相关性分析向因果推断的范式转变，对零售业智能化转型产生了深远影响。

当前挑战

该数据集致力于解决零售业中营销响应预测的因果推断挑战，即如何准确区分客户的自然购买倾向与营销刺激所引发的增量购买，避免传统响应模型因混淆偏差导致的策略误判。在构建过程中，挑战主要源于真实世界数据的复杂性：需整合多源异构的客户画像、产品信息与交易时序数据，并设计严谨的实验框架以获取可靠的干预组与对照组样本，同时确保数据在脱敏处理后仍保留足够的预测信息维度，这对数据工程的完整性与因果推断的可靠性提出了双重考验。

常用场景

经典使用场景

在零售营销领域，提升建模旨在识别对营销活动最敏感的客户群体。RetailHero Uplift数据集通过提供客户特征、产品信息和购买历史，为研究人员构建因果推断模型提供了理想平台。该数据集常用于训练和评估提升模型，以预测营销干预对个体购买行为的净效应，从而优化营销资源分配，避免对无响应或反感客户进行不必要的打扰。

解决学术问题

该数据集直接应对因果机器学习中的核心挑战，即从观测数据中估计个体处理效应。它帮助学术界解决了在缺乏随机对照试验的情况下，如何准确量化营销活动对客户购买决策的因果影响这一难题。通过提供真实的零售交易与客户数据，它促进了关于异质性处理效应估计、反事实预测以及样本选择偏差校正等方法的研究，推动了因果推断在商业分析中的理论进展与应用验证。

衍生相关工作

围绕RetailHero Uplift数据集，衍生出了一系列经典的提升建模方法比较与基准测试研究。许多学术论文和竞赛解决方案探索了如双模型法、类别转换法以及基于元学习器的模型（如S-Learner, T-Learner, X-Learner）在该数据集上的性能。此外，它也为结合深度学习与因果森林等先进算法处理高维表格数据提供了实证基础，催生了多个在公开竞赛中表现优异的创新模型架构与特征工程方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集