【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72
bank_churners
收藏Hugging Face2025-11-16 更新2025-11-17 收录
下载链接:
https://huggingface.co/datasets/Daniel-1109/bank_churners
下载链接
链接失效反馈官方服务:
资源简介:
“信用卡客户”数据集(Bank Churners),来自Kaggle。包含了一个零售银行机构的10127个信用卡用户的详细人口统计、财务和行为信息,记录在23个特征中,并有一个指示器显示每个客户是否流失。
创建时间:
2025-11-16
原始信息汇总
银行客户流失分析数据集概述
数据集基本信息
- 数据集名称:Credit Card Customers (Bank Churners)
- 数据来源:Kaggle
- 数据规模:10,127个信用卡用户记录,23个特征列
- 许可证:CC-BY-4.0
数据内容描述
人口统计属性
- 年龄、性别、婚姻状况、教育水平、收入类别、家属数量
账户与信用特征
- 卡类别、信用额度、循环余额、平均可用信用额度
行为指标
- 开户月数、持有产品总数、非活跃月数、12个月内联系次数
- 年度交易总额与交易次数、Q4到Q1的消费变化
- 交易频率变化、信用利用率
分析目标
- 调查零售银行环境中的客户行为
- 识别驱动客户保留与流失的因素
- 揭示区分活跃客户与流失风险客户的人口统计、财务和行为模式
- 为金融机构提供改善客户忠诚度和优化客户生命周期管理的可行见解
目标变量
- Attrition_Flag:指示客户是"现有客户"还是"流失客户"
- 代表客户流失情况,用于分析与流失可能性相关的各种因素
数据预处理
- 将CLIENTNUM转换为对象标识符
- 标准化缺失值为NaN
- 验证零值为有效客户行为
- 检查确认所有记录唯一且无格式不一致
- 将Attrition_Flag编码为二元变量
- 移除两个模型生成列以避免信息泄露
- 将收入范围转换为近似数值
关键发现
客户特征统计
- 平均年龄:46岁
- 大多数客户有2-3个家属
- 持有3-4个银行产品
- 年度交易中位数:67次
- 年度消费中位数:约3,900美元
- 男性消费略高于女性
- 流失客户占比:16%
- 平均流失时间:约36个月
行为模式分析
- 交易金额随年龄增长而下降
- 大多数客户无论开户时间长短都持有3个产品
- 联系银行频率与流失率呈正相关
- 产品持有数量与流失率呈负相关
- 非活跃月数1-4个月期间流失风险显著上升
战略建议
- 非活跃1个月后早期干预:自动化外联并提供小额激励
- 高联系客户快速通道支持:为年联系4次以上客户提供优先支持
- 加强1-2个产品客户的参与度:通过交叉销售增加产品持有
- 建立主动流失风险监控系统:跟踪关键信号并自动触发保留行动
分析演示
完整分析过程演示视频:https://drive.google.com/file/d/1yGLYvIfas9NsG_5ufhmTFEw-JB8PWUdK/view?usp=sharing
搜集汇总
数据集介绍

构建方式
在零售银行客户流失分析领域,该数据集通过整合真实业务场景中的多维度客户信息构建而成。数据来源于某金融机构的信用卡用户群体,共收录了10,127个客户账户的完整记录,涵盖人口统计特征、账户属性与行为指标三大类共23个字段。构建过程中采用系统性数据清洗方法,对原始数据中的标识字段进行标准化处理,将隐含缺失值统一转换为NaN格式,同时验证了数值型特征的合理性。通过二进制编码处理目标变量,并剔除可能泄露预测信息的衍生字段,最终形成具备分析一致性的结构化数据集。
特点
该数据集的核心价值在于其多维度的特征体系设计。人口统计维度完整覆盖了年龄、性别、教育背景等基础属性;金融特征囊括信用额度、循环余额等关键指标;行为特征则精准捕捉了客户活跃度、产品持有量与交易模式等动态信息。特别值得注意的是,数据集通过季度消费变化量与信用利用率等衍生变量,深刻揭示了客户行为的时序演变规律。目标变量“Attrition_Flag”以16%的流失率为基准,为研究客户保留机制提供了明确的监督信号,其数据分布真实反映了银行业客户结构的自然分层。
使用方法
该数据集适用于构建客户流失预测模型与行为分析框架。研究人员可基于23个特征字段训练分类算法,通过逻辑回归、随机森林等方法识别关键流失因子。在实践应用中,建议优先关注行为序列指标——包括交易频率变化趋势与产品持有量动态,这些变量被证实与客户流失存在显著关联。分析时应特别注意保留数据集中真实存在的高价值客户群体,避免因异常值过滤导致模型偏差。此外,月度不活跃期与客户联系频次这两个强信号指标,可作为早期预警系统的核心特征纳入监控体系。
背景与挑战
背景概述
银行客户流失数据集作为零售银行领域客户行为分析的重要资源,由Kaggle平台于近年发布,汇集了10,127名信用卡用户的完整画像。该数据集通过23个特征维度系统记录客户的人口统计学属性、账户特征与行为指标,核心研究目标在于解析影响客户保留与流失的关键驱动因素。在客户生命周期管理研究中,该数据集为金融机构识别高价值客户特征、优化留存策略提供了实证基础,对提升银行业客户关系管理的科学性与预见性具有显著价值。
当前挑战
在客户流失预测领域,该数据集需解决类别不平衡、行为模式多维交互等核心难题,包括如何从稀疏的季度交易数据中捕捉早期流失信号,以及如何区分自然客户更替与可预防的流失行为。数据构建过程中面临真实业务场景的复杂性挑战:需处理收入分段数据的离散化表征,平衡高净值客户异常值与普通用户行为模式的表征偏差,同时确保客户隐私信息脱敏与行为指标完整性的统一。
常用场景
经典使用场景
在金融科技与客户关系管理领域,Bank Churners数据集常被用于构建客户流失预测模型。该数据集整合了客户的人口统计学特征、账户属性与交易行为等多维度指标,通过监督学习算法识别潜在流失客户的模式特征。研究人员通常将Attrition_Flag作为目标变量,运用逻辑回归、随机森林等分类器分析客户活跃度与交易频率、产品持有量等变量的非线性关联,为银行机构提供动态风险评估框架。
解决学术问题
该数据集有效解决了零售银行业客户生命周期管理的核心学术问题。通过量化分析客户不活跃周期与联系频次对流失率的影响机制,揭示了金融产品持有深度与客户黏性的正相关规律。其价值在于构建了可解释的客户行为衰减模型,突破了传统仅依赖人口统计特征的粗放分析范式,为行为金融学中的客户决策动力学研究提供了实证基础。
衍生相关工作
基于该数据集衍生的经典研究包括《多通道银行服务中的客户行为轨迹分析》与《深度神经网络在金融客户留存预测中的应用》。这些工作创新性地将图神经网络引入客户关系网络建模,同时开发了融合交易时序特征与人口属性的混合预测架构,推动了金融风控领域从静态规则引擎向动态智能决策系统的范式转变。
以上内容由遇见数据集搜集并总结生成



