data_ecommerce_customer_churn.csv

github2025-12-11 更新2025-12-12 收录

下载链接：

https://github.com/Camila20197/S11-25-Equipo-70-DataScience

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于电子商务客户流失的数据集，包含客户的各种属性和行为数据，如客户忠诚度、距离仓库的距离、设备数量、满意度评分、地址数量、上次购买的天数、现金返还金额等。数据集还包含分类变量，如婚姻状态、偏好产品类别、投诉记录和目标变量（客户流失）。数据集经过清洗和转换，包括处理缺失值、重命名变量和类型转换。

This is a dataset for e-commerce customer churn, which contains diverse customer attributes and behavioral data, including customer loyalty, distance to the warehouse, number of devices, satisfaction score, number of addresses, days since last purchase, cashback amount, and other metrics. The dataset also includes categorical variables such as marital status, preferred product category, complaint records, and the target variable (customer churn). The dataset has been cleaned and transformed, including handling missing values, renaming variables, and data type conversion.

创建时间：

2025-11-14

原始信息汇总

数据集概述

数据集基本信息

数据集名称: S11-25-Equipo-70-DataScience
核心主题: 电子商务客户流失分析
主要目标: 分析和预测客户流失，以实施主动的客户保留策略
数据来源: data_ecommerce_customer_churn.csv
处理后的数据: dataset_ecommerce_limpio.csv
数据大小: 电子商务客户数据集
数据质量: 存在空值，无重复记录

数据集变量详情

数值型变量

变量名	描述	应用的数据转换
`Antiguedad`	客户在册时长	使用中位数填补空值
`Distancia_Almacen`	仓库到家庭的距离	使用中位数填补空值
`Numero_Dispositivos`	注册设备数量	-
`Nivel_Satisfaccion`	客户满意度评分	-
`Numero_Direcciones`	注册地址数量	-
`Dias_Ultima_Compra`	自上次购买以来的天数	使用中位数填补空值
`Monto_Cashback`	获得的现金返还金额	-

分类型变量

变量名	描述	值	数据转换
`Estado_Civil`	客户婚姻状况	多种	转换为字符串并转为小写
`Categoria_Preferida`	偏好的产品类别	多种类别	转换为字符串并转为小写
`Queja`	客户是否提出过投诉	0/1	转换为整数
`Target`	目标变量 - 流失	0/1	转换为整数

数据预处理与探索性分析

数据清洗过程

变量重命名: 将原始英文列名重命名为西班牙语列名。
数据类型转换: 将分类型变量转换为字符串并标准化为小写；将二元变量转换为整数。
空值处理: 对 Antiguedad、Distancia_Almacen、Dias_Ultima_Compra 使用中位数进行填补。
质量验证: 验证空值已填补，确认无重复记录。

关键分析发现

正态性检验: 所有数值变量均不服从正态分布。
异常值检测:
- Numero_Dispositivos: 6.8% 的异常值。
- Monto_Cashback: 8% 的异常值。
- Distancia_Almacen: 0.35% 的异常值。
- Dias_Ultima_Compra: 0.5% 的异常值。
- 通过 Isolation Forest 检测到 15 个多元异常值。
相关性分析:
- 与流失正相关最强的变量: Queja (0.25)、Dias_Ultima_Compra (0.09)。
- 与流失负相关最强的变量: Antiguedad (-0.35)、Monto_Cashback (-0.16)、Nivel_Satisfaccion (-0.03)。
主成分分析: 前两个主成分解释了约 50% 的方差。

流失定义与风险细分

流失并非由不活跃导致: 上次购买的平均天数较低（约4.5天）。
风险因素:
- 投诉: 使流失概率增加两倍。
- 新客户: 在册时长小于5个月的客户流失风险高5.5倍。
- 关键组合: 新客户且有投诉的流失率超过60%。
操作定义:
1. 定义A: 明确流失：用于模型训练。
2. 定义B: 高风险：需要客户成功团队立即干预。
3. 定义C: 非典型不活跃：需要重新激活活动。

建模与结果

模型建议

推荐模型: XGBoost/LightGBM, Random Forest, KNN, SVM (使用RBF核)。
不推荐模型: 逻辑回归、LDA、朴素贝叶斯。

实施的XGBoost模型

配置: 使用 RandomizedSearchCV 优化超参数，应用 scale_pos_weight (~4.84) 处理类别不平衡。
最佳超参数: n_estimators: 463, max_depth: 5, learning_rate: ~0.205。
测试集性能:
- 全局准确率: 90%
- 流失类别的精确率/召回率/F1分数: 0.68 / 0.75 / 0.71

项目产出

清洗后的数据集: dataset_ecommerce_limpio.csv
训练好的模型: final_model.sav
分析文档: etapa_EDA_segundoDataset.ipynb 和 definicion_churn.ipynb
关键洞察: 识别了与客户流失最相关的行为模式。

技术栈

编程语言: Python 3.x
主要库: Pandas, NumPy, Matplotlib, Seaborn, Scikit-learn, XGBoost
环境: Jupyter Notebook

搜集汇总

数据集介绍

构建方式

在电子商务客户流失分析领域，该数据集源自真实的客户交易与行为记录，通过系统化采集与整合构建而成。原始数据经过严谨的清洗流程，包括变量重命名、数据类型转换以及缺失值处理，其中数值型变量的空值采用中位数进行插补，以减少异常值的影响。数据质量经过验证，确保无重复记录，最终生成可供建模的洁净版本，为后续分析奠定了可靠基础。

使用方法

该数据集主要用于客户流失预测模型的开发与评估。研究者可首先利用提供的洁净数据集进行探索性分析，深入理解变量分布与相互关系。在建模阶段，建议优先考虑XGBoost、随机森林等对非正态数据及异常值鲁棒的算法，并注意处理目标变量的不平衡性。训练完成的模型可用于识别高流失风险客户群体，进而支持制定主动的客户保留策略，实现数据驱动的精细化运营。

背景与挑战

背景概述

在电子商务领域，客户流失预测是客户关系管理中的核心研究问题，旨在通过数据分析识别可能终止服务的用户。data_ecommerce_customer_churn.csv数据集由NoCountry的S11-25-Equipo-70-DataScience团队于2025年创建，专注于探索在线零售环境中客户行为的动态模式。该数据集整合了客户任期、满意度评分、投诉记录及交易频率等多维度特征，其构建目标在于揭示导致客户流失的关键驱动因素，从而为制定精准的客户保留策略提供实证基础。通过系统的特征工程与探索性分析，该数据集不仅推动了机器学习模型在非平衡分类任务中的应用，也为电子商务行业的客户生命周期管理研究贡献了重要的基准资源。

当前挑战

该数据集致力于解决电子商务客户流失预测这一复杂问题，其核心挑战在于处理高度非线性的客户行为模式与类别不平衡现象。具体而言，数据集中客户流失率仅为17.1%，导致模型容易偏向多数类，需借助如XGBoost中scale_pos_weight等技术进行校正。构建过程中，研究团队面临多重挑战：原始数据存在关键特征如Antiguedad、Dias_Ultima_Compra的缺失值，需采用中位数插补以保持分布稳健性；数值变量均拒绝正态性假设，且存在多变量异常值，要求模型具备处理非参数分布与噪声的鲁棒性。此外，特征间相关性较弱，如满意度评分与流失的关联度仅-0.03，增加了从稀疏信号中提取预测模式的难度。

常用场景

经典使用场景

在电子商务客户关系管理领域，该数据集为预测客户流失行为提供了关键的数据基础。其经典使用场景在于构建和训练机器学习模型，以识别具有高流失风险的客户群体。通过整合客户属性、交易行为及满意度等多维度特征，研究人员能够利用如XGBoost等先进算法，开发出高精度的分类模型，从而实现对客户流失的早期预警与量化评估。

解决学术问题

该数据集有效解决了客户流失预测中数据稀缺与特征定义模糊的学术难题。它通过提供结构化的客户行为记录，支持学者深入探究流失行为的驱动机制，如投诉反馈、服务满意度及交易间隔等因素的影响。其意义在于推动了客户生命周期价值理论的实证研究，并为非平衡分类、特征工程及可解释性机器学习等前沿方法提供了验证平台，显著提升了预测模型的泛化能力与理论深度。

实际应用

在实际商业运营中，该数据集被广泛应用于电子商务平台的客户留存策略制定。企业可依据模型输出的风险评分，对高流失倾向客户实施定向干预，例如个性化优惠推送、专属客服跟进或满意度调研。这种数据驱动的决策模式不仅优化了营销资源分配，降低了客户获取成本，更通过提升客户忠诚度直接促进了企业收入的稳定增长与长期竞争力。

数据集最近研究