temporaldrift777/telco-churn-7k
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/temporaldrift777/telco-churn-7k
下载链接
链接失效反馈官方服务:
资源简介:
---
license: ecl-2.0
task_categories:
- text-classification
language:
- en
tags:
- public
- text
- tabular
- customer-churn-analysis
- education
pretty_name: Teclo Churn 7k
size_categories:
- 1K<n<10K
---
# Telco Churn 7k
A 7,043-row customer-retention dataset drawn from a U.S. telecom provider. Each record profiles one account with 21 concise attributes and a **Churn** flag (*Yes* / *No*) indicating whether the customer left within the last month. The schema is:
- **customerID** – unique subscriber identifier
- **gender** – {Female, Male}
- **SeniorCitizen** – {0, 1}
- **Partner**, **Dependents** – {Yes, No}
- **tenure** – months of service (0–72)
- **PhoneService**, **MultipleLines** – {Yes, No, No phone service}
- **InternetService** – {DSL, Fiber optic, No}
- **OnlineSecurity**, **OnlineBackup**, **DeviceProtection**, **TechSupport**, **StreamingTV**, **StreamingMovies** – {Yes, No, No internet service}
- **Contract** – {Month-to-month, One year, Two year}
- **PaperlessBilling** – {Yes, No}
- **PaymentMethod** – {Electronic check, Mailed check, Bank transfer (automatic), Credit card (automatic)}
- **MonthlyCharges**, **TotalCharges** – numeric fees in USD
- **Churn** – target label for churn prediction
The dataset mixes categorical, numeric and missing-value patterns typical of real CRM exports, making it a standard benchmark for churn-modeling and customer-analytics pipelines.
A 7,043-row customer-retention dataset drawn from a U.S. telecom provider. Each record profiles one account with 21 concise attributes and a **Churn** flag (*Yes* / *No*) indicating whether the customer left within the last month. The schema includes: **customerID** – unique subscriber identifier, **gender** – {Female, Male}, **SeniorCitizen** – {0, 1}, **Partner**, **Dependents** – {Yes, No}, **tenure** – months of service (0–72), **PhoneService**, **MultipleLines** – {Yes, No, No phone service}, **InternetService** – {DSL, Fiber optic, No}, **OnlineSecurity**, **OnlineBackup**, **DeviceProtection**, **TechSupport**, **StreamingTV**, **StreamingMovies** – {Yes, No, No internet service}, **Contract** – {Month-to-month, One year, Two year}, **PaperlessBilling** – {Yes, No}, **PaymentMethod** – {Electronic check, Mailed check, Bank transfer (automatic), Credit card (automatic)}, **MonthlyCharges**, **TotalCharges** – numeric fees in USD, **Churn** – target label for churn prediction. The dataset mixes categorical, numeric and missing-value patterns typical of real CRM exports, making it a standard benchmark for churn-modeling and customer-analytics pipelines.
提供机构:
temporaldrift777
搜集汇总
数据集介绍

构建方式
该数据集源自美国某电信运营商的客户关系管理系统,经过脱敏处理与结构化整理后,形成了包含7,043条客户记录的规范表格。每条样本对应一个独立账户,涵盖21个精简属性字段,核心标签为二值化的客户流失标记(Churn)。数据构建过程遵循典型客户流失分析场景,保留了真实CRM导出数据的混合类型特征,包括分类变量、连续数值变量以及缺失值模式,为构建预测模型提供了扎实的原始数据基础。
特点
数据集兼具简洁性与实用性,客户特征覆盖人口统计信息、服务订阅情况、合同期限、计费方式及费用金额等多个维度,标签变量清晰指示近一个月是否流失。属性类型丰富,包含二元变量、多分类变量与浮点数,且部分字段存在缺失值,真实还原了工业级数据质量。行业广泛将其视为客户流失建模与客户分析管道的标准基准,具有教育与研究双重价值。
使用方法
该数据集主要服务于二分类任务,目标是根据21个特征预测客户流失状态。用户可直接将数据加载至机器学习框架,进行特征工程、模型训练与评估。建议对分类变量进行独热编码或标签编码,对缺失值进行合理填充,并将数值型费用字段归一化处理。数据集适配逻辑回归、随机森林、梯度提升树及神经网络等多种算法,常用于客户流失预警系统的开发与教学演示。
背景与挑战
背景概述
在电信行业,客户流失预测是客户关系管理中的核心问题之一,直接关系到企业的营收与市场竞争力。Telco Churn 7k数据集由美国某电信运营商于近年发布,包含7043条客户账户记录及21个属性,旨在通过结构化数据建模预测客户是否在未来一个月内终止服务。该数据集由学术或工业界研究机构整理,因其融合了类别型、数值型及缺失值等真实CRM导出的典型特征,已成为客户流失分析与预测建模领域的标准基准数据。其发布极大推动了机器学习在客户留存策略中的应用,为特征工程、不平衡分类及模型可解释性等研究方向提供了重要支撑。
当前挑战
该数据集所面临的挑战主要体现在两方面。首先,在领域问题层面,客户流失预测需应对类别不平衡(流失客户占比通常较低)、特征间复杂交互效应以及时间动态性等难题,模型需从有限的历史数据中准确识别流失信号。其次,在数据集构建过程中,原始数据存在缺失值模式(如无网络服务对应的特征空值)、数值型字段(如TotalCharges)可能含异常条目,且部分分类属性(如PaymentMethod)取值分布倾斜,这些都需要精细的数据清洗与特征工程,以避免引入偏差并确保模型泛化能力。
常用场景
经典使用场景
在客户关系管理与电信行业分析领域,Telco Churn 7k数据集已成为流失预测建模的经典基准。该数据集融合了客户人口统计特征、服务订阅详情、合同类型、账单支付模式及服务使用时长等21维属性,通过二元分类任务精准捕捉客户流失行为模式。研究者常以此为基础,构建逻辑回归、随机森林、梯度提升树或深度神经网络等分类模型,系统评估不同算法在客户留存预测中的效能,并探索特征工程与不平衡分类处理策略对模型性能的优化作用。
解决学术问题
该数据集有效解决了客户流失分析中多维异构数据融合与预测建模的核心学术难题。它使学术界能够量化人口属性、服务体验、合同约束与支付行为对流失决策的复合影响机制,为理解客户生命周期价值与流失驱动力提供实证基础。通过公开的标准基线,该数据集推动了可重复性研究范式,促进了特征重要性分析、缺失值稳健处理以及类别不平衡采样技术等方法的系统比较与理论创新。
衍生相关工作
围绕该数据集催生了大量经典衍生工作,包括基于深度学习的客户流失序列预测模型、融合图神经网络的社交关系影响分析框架,以及引入可解释人工智能的流失原因归因方法。与此同时,研究者还发展了针对该数据的联邦学习场景原型,用于隐私保护下的跨机构联合建模;并延伸出客户终身价值估算、动态定价优化等进阶分析任务,形成了覆盖预测、解释与决策的完整研究链路。
以上内容由遇见数据集搜集并总结生成



