Churn

Name: Churn
Creator: 自由布鲁塞尔大学计算机科学系机器学习组
Published: 2023-12-12 20:19:13
License: 暂无描述

arXiv2023-12-12 更新2024-06-21 收录

下载链接：

https://www.openml.org/search?type=data&id=45580

下载链接

链接失效反馈

官方服务：

资源简介：

Churn数据集是由比利时电信公司Orange Belgium创建，专注于电信行业的客户流失预测。该数据集包含11,896个样本和178个特征，覆盖了客户的人口统计信息、使用模式和订阅详情。数据集通过PCA进行匿名处理，确保隐私保护。创建过程中，通过营销活动收集数据，并使用随机森林等模型进行预测。该数据集主要用于评估和比较提升建模技术，特别是在客户流失预测方面的应用，旨在通过个性化营销减少客户流失，提高客户保留率。

The Churn dataset was created by Orange Belgium, a Belgian telecommunications company, and focuses on customer churn prediction in the telecom industry. It contains 11,896 samples and 178 features, covering customer demographic information, usage patterns and subscription details. The dataset has been anonymized via PCA to ensure privacy protection. It was collected through marketing campaigns during its development, and models such as Random Forest have been employed for prediction tasks. This dataset is primarily used to evaluate and compare uplift modeling techniques, especially their applications in customer churn prediction, with the goal of reducing customer churn and improving customer retention rates via personalized marketing.

提供机构：

自由布鲁塞尔大学计算机科学系机器学习组

创建时间：

2023-12-12

搜集汇总

数据集介绍

构建方式

该数据集源自比利时电信公司Orange Belgium在2020年9月至12月间进行的三个营销活动。在每次活动中，通过预测模型估算每位客户的流失概率，并选择风险最高的客户。这些高风险客户被随机分为控制组和目标组。目标组的客户由呼叫中心联系，提供营销优惠或推荐新的资费计划。流失结果在活动后的两个月内确定，并记录在历史数据库中。此过程每月重复，形成了一个连续的流失保留活动管道。

特点

该数据集包含11,896个样本和178个特征，涵盖客户的人口统计、使用模式和订阅详情。为保护隐私，数值特征通过主成分分析（PCA）进行匿名化处理。数据集的一个显著特点是其预测流失结果的难度，这源于电信行业流失动态的复杂性。此外，数据集的随机化处理确保了治疗分配的无偏性，使其成为评估提升建模技术的理想资源。

使用方法

该数据集可用于评估和比较提升建模技术，特别是在客户流失预测领域。研究人员和从业者可以利用此数据集开发和测试新的算法、特征工程方法和模型评估指标。通过K折交叉验证和重复实验，可以获得更稳健的性能估计。此外，数据集还支持其他因果推断方法的评估，如反事实估计，为提升建模领域的创新和进步提供了新的机会。

背景与挑战

背景概述

在电信行业中，客户流失预测是提升客户留存率的关键。Churn数据集由比利时Orange Belgium公司提供，主要研究人员包括Th´eo Verhelst、Denis Mercier、Jeevan Shrestha和Gianluca Bontempi。该数据集于2020年9月至12月通过一系列营销活动收集，旨在评估提升建模（Uplift Modeling）在客户流失预测中的应用。这是首个公开的针对流失预测的提升建模数据集，填补了该领域公开数据集的空白，为研究人员和从业者提供了宝贵的资源，以评估和优化电信行业的客户留存策略。

当前挑战

Churn数据集面临的主要挑战包括：1) 数据集规模相对较小，仅有11,896个样本，且流失事件发生率低，增加了模型预测的难度；2) 数据集包含178个特征，涵盖客户的多维度信息，如人口统计、使用模式和订阅详情，特征的多样性和复杂性增加了模型训练的复杂度；3) 提升建模在处理小样本和低效应治疗时的效果有限，需要更高级的建模技术来捕捉客户行为的潜在模式；4) 数据集的匿名化处理虽然保护了隐私，但也可能影响模型的预测精度。这些挑战要求研究者在模型选择、特征工程和数据处理方面进行创新，以提升模型的预测性能和应用效果。

常用场景

经典使用场景

Churn数据集在电信行业中被广泛用于客户流失预测，特别是在提升建模（Uplift Modeling）领域。该数据集通过分析比利时Orange Belgium公司的历史营销活动数据，帮助识别哪些客户在接收到特定营销干预后更有可能继续使用服务。这种分析不仅有助于优化营销策略，还能显著提高客户留存率。

实际应用

在实际应用中，Churn数据集被用于开发和测试新的提升建模算法，特别是在电信和零售行业。通过分析客户的历史行为和营销活动效果，企业可以更精准地识别和定位那些对营销干预反应积极的客户，从而优化营销资源分配，提高客户留存率和业务收益。

衍生相关工作

Churn数据集的发布激发了一系列相关研究和工作，特别是在提升建模和因果推断领域。例如，研究人员利用该数据集开发了新的提升随机森林模型（Uplift Random Forest）和T-learner提升模型，这些模型在处理小样本和低信息率数据时表现出色。此外，该数据集还促进了关于因果分类和预测模型性能比较的理论研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集