Iranian Churn Dataset

github2021-12-10 更新2024-05-31 收录

下载链接：

https://github.com/rohit-chandra/Customer_Churn_Analysis

下载链接

链接失效反馈

官方服务：

资源简介：

数据集关于伊朗电信客户流失情况，包含多个特征如呼叫失败次数、投诉情况、订阅时长和费用等。

This dataset focuses on customer churn in the Iranian telecommunications sector, encompassing multiple features including the number of call failures, complaint records, subscription duration, service fees, and other related metrics.

创建时间：

2021-10-04

原始信息汇总

数据集概述

数据集名称

Customer Churn Analysis

数据集内容

数据来源：https://archive.ics.uci.edu/ml/datasets/Iranian+Churn+Dataset
数据描述：该数据集关于电信客户的流失情况，包含以下特征：
- Call Failures
- Complains
- Subscription Length
- Charge Amount
- Seconds of Use
- Frequency of use
- Frequency of SMS
- Distinct Called Numbers
- Tariff Plan
- AgeGroup
- Status
- Customer Value
- Churn

问题研究

研究目的：使用多分类算法准确分类数据集，识别导致客户流失的主要因素，如服务质量、客户支持延迟、资费计划、投诉频率、客户年龄段和使用频率。

数据科学生命周期

数据预处理：处理缺失值和异常值。
单变量和双变量分析：分析输入特征与预测变量之间的关系。
特征工程：从现有列中派生新列，使用MinMaxScalar()方法缩放列值。
处理不平衡数据集：使用欠采样和SMOTE技术。
特征重要性：基于相关性选择最重要的特征。
特征选择：使用SelectKBest特征选择技术。
模型训练：使用XGBoost、Naive Bayes、SVM和决策树等模型进行多分类，并进行超参数调优。
性能评估：计算混淆矩阵、分类报告（精确度、召回率、F1分数）。
多重共线性问题：检查并处理高度相关的特征。

结论

使用准确度、混淆矩阵、精确度、召回率、F1分数和ROC-AUC等性能指标评估模型。

搜集汇总

数据集介绍

构建方式

Iranian Churn Dataset的构建基于电信行业的客户流失数据，数据来源于伊朗某电信公司的真实业务记录。数据集通过收集客户的通话失败次数、投诉情况、订阅时长、通话时长、短信频率等多维度特征，结合客户的年龄组、资费计划等分类信息，构建了一个多维度的客户流失分析框架。数据的预处理过程包括处理缺失值、异常值，并通过特征工程生成新的特征列，最终形成了一个包含15个特征的分类数据集。

特点

该数据集的特点在于其多维度的特征设计，涵盖了客户行为、服务质量、资费计划等多个方面。数据集中的特征类型丰富，包括数值型、分类型和二元型数据，能够全面反映客户的行为模式和流失倾向。此外，数据集的标签列（Churn）为二元分类变量，明确标注了客户是否流失，为机器学习模型的训练提供了清晰的监督信号。数据集还通过特征重要性分析和特征选择技术，进一步优化了模型的输入特征，提升了分类性能。

使用方法

使用Iranian Churn Dataset时，首先需通过数据预处理步骤处理缺失值和异常值，并进行特征工程以生成新的特征列。随后，利用数据可视化工具对数据进行探索性分析，了解特征之间的关系。接着，通过特征选择和采样技术（如SMOTE）处理数据不平衡问题。最后，使用多种分类算法（如XGBoost、SVM、决策树等）进行模型训练，并通过准确率、混淆矩阵、F1分数等性能指标评估模型效果。整个流程可通过Jupyter Notebook逐步执行，确保每一步的可复现性和透明性。

背景与挑战

背景概述

伊朗客户流失数据集（Iranian Churn Dataset）由Rohit Chandra等研究人员于2020年发布，旨在帮助电信行业分析和预测客户流失行为。该数据集基于伊朗电信公司的真实客户数据，涵盖了多个关键特征，如通话失败次数、投诉情况、订阅时长、通话时长等。通过分析这些特征，研究人员能够识别导致客户流失的主要因素，并构建预测模型以提前干预。该数据集在客户关系管理（CRM）和机器学习领域具有重要影响，尤其是在电信行业的客户保留策略中，提供了数据驱动的决策支持。

当前挑战

该数据集的核心挑战在于如何准确预测客户流失，并识别导致流失的关键因素。首先，客户流失通常由多种复杂因素共同作用，单一特征难以解释流失行为，因此需要多维度分析。其次，数据集中存在类别不平衡问题，流失客户的比例远低于非流失客户，这可能导致模型偏向多数类。此外，数据预处理过程中需处理缺失值、异常值以及特征之间的多重共线性问题。构建模型时，还需选择合适的分类算法并进行超参数调优，以确保模型的泛化能力和预测精度。这些挑战要求研究人员在数据处理和模型构建中采取精细的策略，以提升预测效果。

常用场景

经典使用场景

在电信行业中，客户流失（Churn）是一个关键的业务指标，直接影响企业的收入和客户基础。Iranian Churn Dataset 提供了一个典型的电信客户流失数据集，广泛用于构建和测试客户流失预测模型。通过分析客户的行为数据，如通话失败次数、投诉频率、订阅时长等，研究人员能够识别出导致客户流失的关键因素，并开发出有效的预测算法。

解决学术问题

该数据集解决了电信行业中客户流失预测的学术研究问题。通过多分类算法，研究人员能够准确分类客户流失的可能性，并识别出导致客户流失的主要因素，如服务质量、客户支持延迟、资费计划等。这些研究不仅提升了客户流失预测的准确性，还为电信企业提供了科学的决策依据，帮助其优化客户保留策略。

衍生相关工作

基于 Iranian Churn Dataset，许多经典的研究工作得以展开。例如，研究人员利用该数据集开发了多种机器学习模型，如XGBoost、SVM和决策树，用于预测客户流失。此外，该数据集还推动了特征工程和样本平衡技术的研究，如SMOTE（合成少数类过采样技术），这些技术在其他领域的分类问题中也得到了广泛应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集