新提出的信用卡评分数据集

Name: 新提出的信用卡评分数据集
Creator: 比尔宰特大学计算机科学系
Published: 2023-10-15 14:27:58
License: 暂无描述

arXiv2023-10-15 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2310.02956v2

下载链接

链接失效反馈

官方服务：

资源简介：

新提出的信用卡评分数据集由比尔宰特大学计算机科学系创建，包含500条记录，每条记录有36个特征，其中12个特征详细描述，其余24个为匿名特征。数据集涵盖了信用卡交易历史和客户资料，用于通过机器学习模型预测信用卡违约。创建过程中采用了多种数据预处理技术，如特征提取、处理缺失值和异常值、数据平衡方法。该数据集主要应用于金融领域，旨在帮助银行和其他金融机构早期预测贷款违约，减少潜在风险。

The newly proposed credit scoring dataset was developed by the Department of Computer Science at Birzeit University. It consists of 500 records, each with 36 features, where 12 features are detailedly described while the remaining 24 are anonymized. This dataset encompasses credit card transaction histories and customer profile information, and is designed for predicting credit card defaults using machine learning models. Multiple data preprocessing techniques were adopted during its construction, including feature extraction, handling of missing and outlier values, as well as data balancing methods. Mainly applied in the financial domain, this dataset is intended to help banks and other financial institutions predict loan defaults at an early stage so as to mitigate potential risks.

提供机构：

比尔宰特大学计算机科学系

创建时间：

2023-10-05

搜集汇总

数据集介绍

构建方式

在金融科技领域，信用评分模型的精准性对风险控制至关重要。该数据集构建于美国银行的实际业务数据，涵盖了过去12个月的信用卡交易记录与客户档案，共包含500条样本，每条样本具备36个特征。其中12个特征为连续12个月的工资流水记录，其余24个特征为经过匿名化处理的衍生变量。数据预处理阶段，研究团队针对缺失值采用零值填充策略，对异常值通过三倍标准差边界结合Winsorization方法进行平滑处理，并针对类别不平衡问题，通过KMeansSMOTE过采样技术优化数据分布，为后续机器学习建模奠定坚实基础。

特点

该数据集在信用风险评估领域展现出鲜明的特色。其核心特征在于融合了客户的多维度财务信息，包括详细的月度工资流水与一系列匿名化衍生变量，能够全面刻画客户的还款能力与行为模式。数据集的样本规模适中且经过精细预处理，有效缓解了缺失值、异常值及类别不平衡对模型性能的干扰。尤为突出的是，该数据集专为机器学习模型比较而设计，已通过逻辑回归、决策树、随机森林、XGBoost、LightGBM及多层感知机等多种算法验证，其中MLP模型在召回率指标上表现卓越，为识别潜在违约客户提供了高质量的数据基础。

使用方法

该数据集适用于信用评分与违约预测的机器学习模型开发与评估。研究人员可将数据集按比例划分为训练集与测试集，建议采用80%-20%的分割策略。在模型训练前，需依据数据预处理流程检查数据完整性，并可根据研究需求进一步进行特征工程或选择其他数据平衡技术。模型评估应重点关注召回率等能够有效识别违约客户的指标，以契合金融风险控制中减少假阴性的实际需求。该数据集为比较不同机器学习算法在信用评分任务上的性能提供了基准，亦可用于探索深度学习模型在金融风控领域的优化与应用。

背景与挑战

背景概述

在金融科技与风险管理领域，信用卡违约预测一直是核心研究议题，旨在通过数据驱动方法评估客户信用风险。近期，由巴勒斯坦比尔泽特大学、马来西亚国立大学等机构的研究人员共同构建的新信用卡评分数据集应运而生，该数据集聚焦于利用机器学习模型提升违约预测的精准度。该数据集收录了美国银行近12个月的信用卡交易历史与客户档案，涵盖36个特征变量，其中12个为月度薪资记录，其余24个为匿名化衍生特征。研究团队通过对比逻辑回归、决策树、随机森林、XGBoost、LightGBM及多层感知器（MLP）神经网络等模型，发现MLP在召回率与曲线下面积（AUC）方面表现卓越，为金融机构早期识别潜在违约客户提供了有力工具。

当前挑战

该数据集致力于解决信用卡违约预测领域的核心挑战，即如何在高度不平衡的样本中准确识别少数类（违约客户），同时降低误报风险。具体而言，数据集中违约客户与非违约客户分布不均，导致模型易偏向多数类，影响召回率与泛化能力。在构建过程中，研究团队面临多重挑战：一是数据预处理复杂度高，需处理缺失值、异常值及特征匿名化带来的信息损失；二是特征工程难度大，需从多维交易记录中提取有效风险指标；三是模型选择与优化需平衡精度与召回，以应对金融场景中对误判成本的高度敏感性。

常用场景

经典使用场景

在金融风控领域，信用卡评分数据集常被用于构建和优化机器学习模型，以预测客户的违约风险。该数据集整合了客户的交易历史与个人资料，通过特征提取与数据平衡等预处理技术，为模型训练提供了高质量输入。经典应用场景包括利用多层感知器（MLP）等算法进行二分类任务，以识别潜在违约客户，从而辅助银行在信贷审批过程中实现精准风险评估。

实际应用

在实际应用中，该数据集被金融机构用于自动化信用审批系统，通过集成LightGBM或MLP等高性能模型，实时分析客户行为并预测违约概率。这帮助银行优化贷款决策流程，减少坏账损失，同时提升客户体验。此外，数据集还可用于监管合规分析，辅助制定个性化信贷政策，增强金融服务的包容性与稳定性。

衍生相关工作

基于该数据集衍生的经典工作包括对梯度提升模型（如XGBoost、LightGBM）与神经网络（如MLP）的对比研究，进一步探索了特征选择与集成学习在信用评分中的效能。相关研究还扩展至不平衡数据处理技术，如SMOTE变体的应用，并促进了跨领域合作，将深度学习与传统风控模型结合，推动了智能金融系统的演进。

以上内容由遇见数据集搜集并总结生成