imodels/credit-card
收藏Hugging Face2022-08-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/imodels/credit-card
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从UCI的信用卡数据集移植而来,目标变量是二分类的`default.payment.next.month`,表示下个月是否会发生违约。数据集由imodels团队进行了基本的预处理,并提供了加载数据、拟合模型和评估模型的示例代码。
This dataset is adapted from the UCI Credit Card Dataset. Its target variable is the binary classification task `default.payment.next.month`, which indicates whether a payment default will occur in the next month. The dataset has undergone basic preprocessing by the imodels team, and sample codes for data loading, model fitting and model evaluation are provided.
提供机构:
imodels
原始信息汇总
数据集概述
基本信息
- 名称: credit-card
- 大小: 10K<n<100K
- 任务类型: 表格分类
- 标签:
- 可解释性
- 公平性
- 医学
数据集内容
- 目标变量:
default.payment.next.month(二元结果)
使用示例
-
数据加载: python from datasets import load_dataset dataset = load_dataset("imodels/credit-card") df = pd.DataFrame(dataset[train]) X = df.drop(columns=[default.payment.next.month]) y = df[default.payment.next.month].values
-
模型拟合: python import imodels import numpy as np m = imodels.FIGSClassifier(max_rules=5) m.fit(X, y) print(m)
-
模型评估: python df_test = pd.DataFrame(dataset[test]) X_test = df.drop(columns=[default.payment.next.month]) y_test = df[default.payment.next.month].values print(accuracy, np.mean(m.predict(X_test) == y_test))
搜集汇总
数据集介绍

构建方式
在金融风险建模领域,数据质量直接影响预测模型的可靠性。该数据集源自UCI机器学习库的信用卡违约数据,由imodels团队进行基础预处理,包括数据清洗与格式转换,旨在构建一个适用于表格分类任务的标准化资源。预处理工作通过公开的Jupyter笔记本实现,确保了数据处理流程的透明性与可复现性,最终将原始数据转化为适合机器学习模型直接使用的结构化表格。
特点
该数据集聚焦于信用风险评估,其核心特征在于专为可解释性与公平性研究设计。数据规模适中,包含超过一万条样本,涵盖客户 demographics、信用历史、账单金额及还款状态等多维特征,目标变量为二元分类指标‘default.payment.next.month’。数据集标签强调可解释性与公平性,使其成为开发透明信用评分模型的理想测试平台,有助于探索机器学习在金融决策中的伦理影响。
使用方法
使用该数据集时,可通过HuggingFace的datasets库直接加载,便捷获取训练与测试分割。加载后数据可转换为pandas DataFrame格式,便于特征与标签分离。示例代码演示了如何运用imodels库中的FIGSClassifier等可解释模型进行训练与评估,用户可调整规则数量等参数以优化性能。模型准确率可通过对比测试集预测结果与真实标签计算,为信用违约预测研究提供完整工作流程。
背景与挑战
背景概述
在金融风险管理领域,信用违约预测一直是核心研究议题,旨在通过客户历史数据精准评估其未来违约风险。imodels/credit-card数据集源于UCI机器学习仓库,由台湾学者于2016年收集并公开,聚焦于信用卡客户的违约行为分析。该数据集收录了超过三万条客户记录,涵盖人口统计特征、信用历史、账单金额及还款状态等多维度变量,为构建可解释的信用评分模型提供了实证基础。其广泛用于机器学习与可解释人工智能研究,推动了金融风控领域从黑箱预测向透明决策的范式转变。
当前挑战
该数据集致力于解决信用违约预测中的可解释性与公平性挑战,传统模型如深度神经网络虽具高精度,但缺乏决策透明度,难以满足金融监管要求。构建过程中面临数据质量与偏差问题:原始数据存在缺失值与类别不平衡,可能引入预测偏差;同时,特征如年龄、性别等若处理不当,易加剧算法歧视风险。此外,模型需在保持高准确率的同时生成简明规则,以平衡性能与可解释性,这对算法设计提出了严峻考验。
常用场景
经典使用场景
在金融风控领域,信用卡违约预测数据集为机器学习模型提供了关键的训练与评估基准。该数据集通过整合客户历史交易、还款行为及人口统计特征,构建了一个多维度的分类任务框架,使得研究者能够系统性地探索违约风险的早期识别机制。其经典应用场景集中于监督学习算法的性能比较,尤其是决策树、随机森林等可解释模型在此数据集上的表现分析,为金融智能化决策提供了实证基础。
衍生相关工作
围绕该数据集衍生的经典研究包括可解释人工智能在金融领域的适配性探索。例如,FIGSClassifier等规则学习模型通过该数据集验证了高精度与可解释性的兼容可能;同时,多项研究利用其探讨了特征选择算法对违约预测稳定性的改进。这些工作共同构建了信用风险评估领域的方法学谱系,为后续跨领域迁移学习研究提供了重要参照。
数据集最近研究
最新研究方向
在金融风险建模领域,信用卡违约预测数据集正推动着可解释人工智能与公平性算法的深度融合。前沿研究聚焦于开发兼顾高精度与透明度的分类模型,如规则集成方法,以应对监管合规与伦理审查的双重挑战。热点事件如欧盟《人工智能法案》的推进,促使学界探索消除数据偏见、确保算法公正性的技术路径,这些进展不仅提升了信用评估系统的可靠性,也为金融科技的可持续发展奠定了理论基础。
以上内容由遇见数据集搜集并总结生成



