five

MT-LIFT|食品配送数据集|营销分析数据集

收藏
github2024-05-20 更新2024-05-31 收录
食品配送
营销分析
下载链接:
https://github.com/MTDJDSP/MT-LIFT
下载链接
链接失效反馈
资源简介:
MT-LIFT是一个大规模且无偏见的数据集,从美团App的两个月食品配送优惠营销场景中收集。它是首个具有多种处理和全面链标签(点击和转化)信息的无偏见工业数据集。

MT-LIFT is a large-scale and unbiased dataset collected from two months of food delivery promotional marketing scenarios on the Meituan App. It is the first unbiased industrial dataset with multiple processing and comprehensive chain labels (click and conversion) information.
创建时间:
2023-10-24
原始信息汇总

数据集概述

MT-LIFT 是一个大规模且无偏的数据集,源自美团App中两个月的食品配送优惠营销场景。该数据集通过随机控制试验收集,确保治疗组(优惠券)与对照组之间的潜在分布一致,以消除混杂因素对提升建模的影响。数据集采用了匿名化和去敏感化技术以保护数据隐私。

数据集特点

  • 无偏收集:数据集通过随机分配优惠券,确保治疗组与对照组间潜在分布的一致性。
  • 丰富特征:包含99个特征,提供大量信息以供提取。
  • 多重治疗:支持探索不同干预措施的效果。
  • 全面链信息:从展示空间收集,包含点击和转换的全面链信息,便于准确分析用户响应。

数据集应用

  • 点击率(CTR)预测
  • 转化率(CVR)预测
  • 联合建模
  • 提升建模

数据集统计

  • 数据量:5,541,842条记录
  • 特征数量:99个特征
  • 平均点击率:33.49%
  • 平均转化率:6.82%
  • 相对平均点击提升:56.81%
  • 平均点击提升:13.49%
  • 相对平均转化提升:169.23%
  • 平均转化提升:5.19%

数据集结构

shell MT-LIFT ├── train.csv └── test.csv

数据字段

  • click:点击标签
  • conversion:转化标签
  • treatment:治疗标签,范围[0, 4]
  • f0-f98:特征字段
AI搜集汇总
数据集介绍
main_image_url
构建方式
MT-LIFT数据集通过在美团App的食品配送优惠券营销场景中进行为期两个月的随机对照试验(RCT)构建而成。为消除混杂因素对提升建模的影响,该数据集通过随机分配优惠券(即处理)来确保处理组和对照组之间的潜在分布一致性。为保护用户隐私,数据集在特征上采用了匿名化和去敏感化技术。
特点
MT-LIFT数据集具有多个显著特点:首先,其通过无偏的处理分配确保了处理组和对照组之间的一致性,为提升建模提供了可靠的基础。其次,数据集包含丰富的特征信息,提供了广泛的信息提取机会。此外,数据集涵盖了多种处理方式,便于探索不同干预措施的效果。最后,数据集从印象空间收集,包含了完整的点击和转化链信息,支持对用户响应的精确分析。
使用方法
MT-LIFT数据集可用于多种研究领域,包括点击率(CTR)预测、转化率(CVR)预测、联合建模和提升建模。数据集的文件结构包括训练集和测试集,分别存储在train.csv和test.csv文件中。数据集包含102个字段,其中99个为特征(f0~f98),其余为点击、转化和处理标签。用户可通过Google Drive或百度网盘下载数据集,并根据研究需求进行分析和建模。
背景与挑战
背景概述
MT-LIFT数据集是由美团(Meituan)在食品配送优惠券营销场景中,通过为期两个月的随机对照试验收集的大规模无偏数据集。该数据集首次引入了多重处理和全面的链标签(点击和转化)信息,旨在消除提升建模中的混杂因素影响。MT-LIFT由黄银秋等研究人员于2024年创建,其核心研究问题集中在智能营销中的提升建模,特别是通过上下文增强学习实现整个链的提升建模。该数据集的发布对提升建模、点击率预测、转化率预测等领域的研究具有重要影响,为相关研究提供了丰富的特征和标签信息,推动了智能营销领域的进一步发展。
当前挑战
MT-LIFT数据集在构建过程中面临了多重挑战。首先,确保处理组和对照组之间的潜在分布一致性,需要通过随机分配优惠券来消除混杂因素的影响,这一过程在实际操作中极具挑战性。其次,数据隐私保护是另一个关键问题,MT-LIFT通过匿名化和去敏感化技术来处理特征,确保数据的安全性。此外,该数据集的多重处理设计增加了模型复杂性,研究人员需要探索不同干预措施的效果,这对模型的设计和优化提出了更高的要求。最后,MT-LIFT的广泛特征和链标签信息为数据分析和模型训练提供了丰富的资源,但也增加了数据处理的复杂性和计算成本。
常用场景
经典使用场景
MT-LIFT数据集在智能营销领域中展现了其经典应用场景,尤其是在点击率(CTR)预测和转化率(CVR)预测方面。通过该数据集,研究者能够深入分析用户在不同优惠券干预下的行为反应,从而优化营销策略。此外,MT-LIFT还支持联合建模和增益建模(Uplift Modeling),为多重干预效果的评估提供了坚实基础。
衍生相关工作
基于MT-LIFT数据集,研究者们开展了多项经典工作,特别是在增益建模和联合建模领域。例如,Huang等人提出的“Entire Chain Uplift Modeling with Context-Enhanced Learning”方法,通过上下文增强学习,显著提升了增益建模的准确性。这些衍生工作不仅丰富了智能营销的理论体系,还为实际应用提供了新的技术手段。
数据集最近研究
最新研究方向
在智能营销领域,MT-LIFT数据集因其大规模、无偏性和多重处理特性而备受瞩目。该数据集通过随机对照试验收集,确保了处理组与对照组之间的潜在分布一致性,从而为提升建模(Uplift Modeling)提供了坚实的基础。当前的研究方向主要集中在利用MT-LIFT进行点击率(CTR)和转化率(CVR)的预测,以及联合建模和提升建模的深入探索。特别是在多重处理情境下,研究者们致力于挖掘不同干预措施对用户行为的差异化影响,以优化营销策略。此外,MT-LIFT的丰富特征和全面链标签信息为智能营销中的上下文增强学习提供了新的研究视角,推动了智能营销算法的创新与发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

CHARLS

中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录

全国景区数据

  中华人民共和国旅游景区质量等级共分为五级,从高到低依次为AAAAA、AAAA、AAA、AA、A级五级。5A级景区代表着中国的世界级精品旅游风景区等级。  CnOpenData汇总整理了全国31个省份及直辖市的景区信息,涵盖了景区名称、省份、景区级别、地址、经纬度、简介等字段,为相关研究助力!

CnOpenData 收录