MT-LIFT

github2024-05-20 更新2024-05-31 收录

下载链接：

https://github.com/MTDJDSP/MT-LIFT

下载链接

链接失效反馈

官方服务：

资源简介：

MT-LIFT是一个大规模且无偏见的数据集，从美团App的两个月食品配送优惠营销场景中收集。它是首个具有多种处理和全面链标签（点击和转化）信息的无偏见工业数据集。

MT-LIFT is a large-scale and unbiased dataset collected from two months of food delivery promotional marketing scenarios on the Meituan App. It is the first unbiased industrial dataset with multiple processing and comprehensive chain labels (click and conversion) information.

创建时间：

2023-10-24

原始信息汇总

数据集概述

MT-LIFT 是一个大规模且无偏的数据集，源自美团App中两个月的食品配送优惠营销场景。该数据集通过随机控制试验收集，确保治疗组（优惠券）与对照组之间的潜在分布一致，以消除混杂因素对提升建模的影响。数据集采用了匿名化和去敏感化技术以保护数据隐私。

数据集特点

无偏收集：数据集通过随机分配优惠券，确保治疗组与对照组间潜在分布的一致性。
丰富特征：包含99个特征，提供大量信息以供提取。
多重治疗：支持探索不同干预措施的效果。
全面链信息：从展示空间收集，包含点击和转换的全面链信息，便于准确分析用户响应。

数据集应用

点击率（CTR）预测
转化率（CVR）预测
联合建模
提升建模

数据集统计

数据量：5,541,842条记录
特征数量：99个特征
平均点击率：33.49%
平均转化率：6.82%
相对平均点击提升：56.81%
平均点击提升：13.49%
相对平均转化提升：169.23%
平均转化提升：5.19%

数据集结构

shell MT-LIFT ├── train.csv └── test.csv

数据字段

click：点击标签
conversion：转化标签
treatment：治疗标签，范围[0, 4]
f0-f98：特征字段

搜集汇总

数据集介绍

构建方式

MT-LIFT数据集通过在美团App的食品配送优惠券营销场景中进行为期两个月的随机对照试验（RCT）构建而成。为消除混杂因素对提升建模的影响，该数据集通过随机分配优惠券（即处理）来确保处理组和对照组之间的潜在分布一致性。为保护用户隐私，数据集在特征上采用了匿名化和去敏感化技术。

特点

MT-LIFT数据集具有多个显著特点：首先，其通过无偏的处理分配确保了处理组和对照组之间的一致性，为提升建模提供了可靠的基础。其次，数据集包含丰富的特征信息，提供了广泛的信息提取机会。此外，数据集涵盖了多种处理方式，便于探索不同干预措施的效果。最后，数据集从印象空间收集，包含了完整的点击和转化链信息，支持对用户响应的精确分析。

使用方法

MT-LIFT数据集可用于多种研究领域，包括点击率（CTR）预测、转化率（CVR）预测、联合建模和提升建模。数据集的文件结构包括训练集和测试集，分别存储在train.csv和test.csv文件中。数据集包含102个字段，其中99个为特征（f0~f98），其余为点击、转化和处理标签。用户可通过Google Drive或百度网盘下载数据集，并根据研究需求进行分析和建模。

背景与挑战

背景概述

MT-LIFT数据集是由美团（Meituan）在食品配送优惠券营销场景中，通过为期两个月的随机对照试验收集的大规模无偏数据集。该数据集首次引入了多重处理和全面的链标签（点击和转化）信息，旨在消除提升建模中的混杂因素影响。MT-LIFT由黄银秋等研究人员于2024年创建，其核心研究问题集中在智能营销中的提升建模，特别是通过上下文增强学习实现整个链的提升建模。该数据集的发布对提升建模、点击率预测、转化率预测等领域的研究具有重要影响，为相关研究提供了丰富的特征和标签信息，推动了智能营销领域的进一步发展。

当前挑战

MT-LIFT数据集在构建过程中面临了多重挑战。首先，确保处理组和对照组之间的潜在分布一致性，需要通过随机分配优惠券来消除混杂因素的影响，这一过程在实际操作中极具挑战性。其次，数据隐私保护是另一个关键问题，MT-LIFT通过匿名化和去敏感化技术来处理特征，确保数据的安全性。此外，该数据集的多重处理设计增加了模型复杂性，研究人员需要探索不同干预措施的效果，这对模型的设计和优化提出了更高的要求。最后，MT-LIFT的广泛特征和链标签信息为数据分析和模型训练提供了丰富的资源，但也增加了数据处理的复杂性和计算成本。

常用场景

经典使用场景

MT-LIFT数据集在智能营销领域中展现了其经典应用场景，尤其是在点击率（CTR）预测和转化率（CVR）预测方面。通过该数据集，研究者能够深入分析用户在不同优惠券干预下的行为反应，从而优化营销策略。此外，MT-LIFT还支持联合建模和增益建模（Uplift Modeling），为多重干预效果的评估提供了坚实基础。

衍生相关工作

基于MT-LIFT数据集，研究者们开展了多项经典工作，特别是在增益建模和联合建模领域。例如，Huang等人提出的“Entire Chain Uplift Modeling with Context-Enhanced Learning”方法，通过上下文增强学习，显著提升了增益建模的准确性。这些衍生工作不仅丰富了智能营销的理论体系，还为实际应用提供了新的技术手段。

数据集最近研究