Telco Customer Churn

github2024-07-25 更新2024-07-27 收录

下载链接：

https://github.com/datalopes1/telco_churn

下载链接

链接失效反馈

官方服务：

资源简介：

Telco Customer Churn数据集包含一家虚构的电信公司在加利福尼亚州第三季度为7043名客户提供的住宅电话和互联网服务信息。数据集指示了哪些客户离开、留存或注册了他们的服务。

The Telco Customer Churn dataset contains information on residential telephone and internet services provided to 7043 customers by a fictional telecommunications company during the third quarter in California. The dataset indicates which customers have churned, remained subscribed to the service, or newly signed up for the company's services.

创建时间：

2024-07-25

原始信息汇总

数据集概述

数据集描述

数据集名为“Telco Customer Churn”，包含一家虚构的电信公司在加利福尼亚州第三季度为7043名客户提供的住宅电话和互联网服务信息。数据集指示了哪些客户离开了、留存或订阅了他们的服务。

特征描述

列名	描述
customerID	客户唯一标识符
gender	性别
SeniorCitizen	是否为老年人
Partner	是否有伴侣
Dependents	是否有家属
tenure	关系持续时间（以月为单位）
PhoneService	是否有电话服务
MultipleLines	是否有多条线路（是、否、无电话服务）
InternetService	互联网服务提供商（DSL、光纤或无）
OnlineSecurity	是否有在线安全服务
OnlineBackup	是否有在线备份服务
DeviceProtection	是否有设备保护服务
TechSupport	是否有技术支持服务
StreamingTV	是否有电视流媒体服务
StreamingMovies	是否有电影流媒体服务
Contract	合同类型（月付、年付或两年付）
PaperlessBilling	是否接收电子账单
PaymentMethod	支付方式
MonthlyCharges	月服务费
TotalCharges	客户总支付金额
Churn	是否流失

目标和目的

该项目旨在进行简要的探索性数据分析并构建一个机器学习模型来预测客户流失。

分析结果

探索性数据分析洞察

合同期限较长的客户更有可能继续使用Telco的服务，建议对这些客户进行奖励或营销活动。
需要改进对新客户和高服务费客户的服務。
提供半年计划可能鼓励月付客户签订更长期的合同（这些合同流失率较低）。
提供技术支持服务对客户留存有影响，应寻求简化访问方式。

选择的模型

在测试的三个模型（RandomForestClassifier、LogisticRegression和XGBClassifier）中，表现最好的模型考虑了准确性和ROC-AUC指标以及泛化能力（训练和测试结果差异小于0.05），结果如下：

指标	结果
Accuracy Train	0.8059
Accuracy Test	0.8055
ROC-AUC Train	0.8492
ROC-AUC Test	0.8418

最终生成了一个包含预测和流失概率的.xlsx文件。

使用的工具

Python
Visual Studio Code
Jupyter Notebook

使用的Python库

数据处理

Pandas, NumPy

探索性数据分析

Seaborn, Matplotlib

机器学习和特征工程

Scikit-learn, XGBoost, feature_engine

搜集汇总

数据集介绍

构建方式

该数据集的构建基于电信公司的客户历史数据，涵盖了客户的基本信息、服务使用情况、合同细节以及客户流失状态。通过系统化的数据采集和清洗流程，确保了数据的完整性和准确性。数据集的构建过程中，特别关注了客户流失的预测变量，如客户的服务使用时长、支付方式、合同类型等，以期为后续的流失预测模型提供坚实的基础。

使用方法

使用该数据集时，首先需进行数据预处理，包括缺失值填充、数据标准化和特征工程。随后，可以采用分类算法如逻辑回归、随机森林或支持向量机来构建客户流失预测模型。模型训练完成后，可通过交叉验证和ROC曲线评估模型性能。最终，模型可应用于实际业务场景，帮助电信公司制定针对性的客户保留策略，提升客户忠诚度。

背景与挑战

背景概述

电信客户流失数据集（Telco Customer Churn）由Kaggle平台发布，旨在帮助研究人员和数据科学家探索和解决电信行业中的客户流失问题。该数据集包含了来自一家虚拟电信公司的客户信息，涵盖了客户的基本资料、服务使用情况、账单信息以及最终是否流失的标签。通过分析这些数据，研究者可以开发出预测模型，以识别潜在的流失客户并采取相应的挽留措施。这一数据集的发布，不仅为电信行业的客户关系管理提供了宝贵的数据资源，也为机器学习和数据挖掘领域的研究者提供了一个实际应用的案例。

当前挑战

电信客户流失数据集在构建和应用过程中面临多项挑战。首先，数据集中的特征多样且复杂，包括客户的人口统计信息、服务使用情况和支付历史等，这些特征的组合对模型的准确性提出了高要求。其次，客户流失问题本身具有高度不确定性，客户的决策过程受多种因素影响，使得预测模型的构建变得复杂。此外，数据集中可能存在的缺失值和噪声数据也需要通过有效的数据预处理技术来处理，以确保模型的稳健性。最后，如何将研究成果转化为实际业务应用，以有效降低客户流失率，是该数据集面临的另一大挑战。

常用场景

经典使用场景

在电信行业中，客户流失预测是一个至关重要的研究领域。Telco Customer Churn数据集通过提供详细的客户信息，如服务使用情况、合同期限、支付方式等，为研究人员和数据科学家提供了一个理想的平台，以开发和验证客户流失预测模型。通过分析这些数据，可以识别出潜在的流失客户，从而采取针对性的营销策略，提高客户留存率。

解决学术问题

该数据集解决了电信行业中客户流失预测的学术研究问题。通过分析客户的行为和偏好，研究人员可以构建精确的预测模型，识别出哪些客户最有可能流失。这不仅有助于学术界深入理解客户行为模式，还为行业提供了理论支持，推动了客户关系管理（CRM）系统的优化和发展。

实际应用

在实际应用中，Telco Customer Churn数据集被广泛用于电信公司的客户关系管理。通过分析数据集中的客户信息，企业可以制定个性化的客户保留策略，如提供定制化的服务、优化客户服务体验等。此外，该数据集还可用于培训和验证机器学习模型，帮助企业自动化客户流失预测流程，提高运营效率。

数据集最近研究