mstz/nbfi
收藏Hugging Face2024-01-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mstz/nbfi
下载链接
链接失效反馈官方服务:
资源简介:
NBFI数据集,源自Kaggle,用于预测客户是否违约的二分类任务。数据集包含客户的收入、资产情况、贷款状态、教育水平、婚姻状况等多项特征,适用于表格分类任务。
NBFI数据集,源自Kaggle,用于预测客户是否违约的二分类任务。数据集包含客户的收入、资产情况、贷款状态、教育水平、婚姻状况等多项特征,适用于表格分类任务。
提供机构:
mstz
原始信息汇总
数据集概述
基本信息
- 名称: NBFI
- 来源: Kaggle
- 链接: NBFI dataset
- 语言: 英语
- 标签:
- nbfi
- tabular_classification
- binary_classification
- 美观名称: NBFI
- 大小分类: 1K<n<10K
- 任务分类: tabular-classification
- 配置: default
- 许可证: cc
任务描述
- 配置: default
- 任务: Binary classification
- 描述: Has the client defaulted?
特征列表
| 特征 | 类型 |
|---|---|
income |
float32 |
owns_a_car |
bool |
owns_a_bike |
bool |
has_an_active_loan |
bool |
owns_a_house |
bool |
nr_children |
int8 |
credit |
float32 |
loan_annuity |
float32 |
accompanied_by |
string |
income_type |
string |
education_level |
float32 |
marital_status |
float32 |
is_male |
bool |
type_of_contract |
string |
type_of_housing |
string |
residence_density |
float32 |
age_in_days |
int32 |
consecutive_days_of_employment |
int16 |
nr_days_since_last_registration_change |
int32 |
nr_days_since_last_document_change |
int32 |
owned_a_house_for_nr_days |
int32 |
has_provided_a_mobile_number |
bool |
has_provided_a_home_number |
bool |
was_reachable_at_work |
bool |
job |
string |
nr_family_members |
int8 |
city_rating |
int8 |
weekday_of_application |
int8 |
hour_of_application |
float32 |
same_residence_and_home |
bool |
same_work_and_home |
bool |
score_1 |
float32 |
score_2 |
float32 |
score_3 |
float32 |
nr_defaults_in_social_circle |
int8 |
inquiries_in_last_year |
float32 |
使用示例
python from datasets import load_dataset
dataset = load_dataset("mstz/nbfi")["train"]
搜集汇总
数据集介绍

构建方式
在金融风险建模领域,NBFI数据集通过整合多维度的客户信息构建而成,旨在预测车辆贷款违约行为。该数据集源自Kaggle平台,涵盖了客户的收入、资产状况、信用历史、家庭背景及申请行为等结构化特征。其构建过程侧重于从实际贷款申请场景中提取关键变量,以反映借款人的还款能力与意愿,为违约预测提供了详实的数据基础。
特点
NBFI数据集的特点在于其丰富的特征维度与明确的分类目标。数据集包含数值型、布尔型及分类型变量,如收入、资产持有状态、信用评分及人口统计信息,全面刻画了客户的经济与社会属性。作为二分类任务数据集,它以客户是否违约为核心标签,适用于信用风险评估模型的训练与验证,体现了金融数据的高维性与实用性。
使用方法
该数据集的使用方法简便高效,用户可通过Hugging Face的datasets库直接加载。调用load_dataset函数并指定数据集名称即可获取训练集,随后可进行特征工程、模型训练与评估等操作。其结构化格式支持常见的机器学习框架,便于研究人员在金融风控领域开展违约预测模型的开发与性能测试。
背景与挑战
背景概述
在金融科技与信贷风险评估领域,精准预测客户违约行为是核心研究议题。NBFI数据集由Kaggle平台用户mstz于近年发布,聚焦于车辆贷款还款场景下的客户违约预测。该数据集通过整合多维客户特征,如收入、资产状况、信用历史及申请行为等结构化变量,旨在构建一个适用于二分类任务的基准资源。其出现响应了金融机构对自动化、数据驱动的风险管控工具的迫切需求,为机器学习模型在信用评分领域的应用与优化提供了实证基础,推动了可解释人工智能在金融决策中的深入探索。
当前挑战
该数据集致力于解决信贷违约预测这一经典而复杂的领域问题,其挑战在于如何从高维、异构的客户特征中捕捉违约行为的细微模式,并克服类别不平衡、特征共线性及数据噪声对模型泛化能力的干扰。在构建过程中,挑战主要体现在数据采集与整合的复杂性上,包括多源信息的标准化处理、缺失值与异常值的稳健填充,以及敏感个人信息的匿名化保护,这些步骤均需在确保数据质量与合规性的前提下完成,以维持数据集的可靠性与可用性。
常用场景
经典使用场景
在金融风险管理领域,NBFI数据集为车辆贷款违约预测提供了经典的应用场景。该数据集通过整合客户的收入、资产状况、信用历史及申请行为等多维度特征,构建了一个结构化的二分类任务框架。研究人员利用逻辑回归、梯度提升树等机器学习模型,对客户违约风险进行精准评估,从而优化贷款审批流程,降低金融机构的潜在损失。
实际应用
在实际金融业务中,NBFI数据集被广泛应用于银行、信贷机构的自动化风控系统。通过实时分析客户的资产动态、还款能力及行为轨迹,系统能够动态调整信用额度与利率策略,实现个性化贷款服务。同时,该数据集支持监管科技的发展,帮助机构满足合规要求,提升整体运营效率与市场竞争力。
衍生相关工作
围绕NBFI数据集,衍生出一系列经典研究工作,包括基于深度学习的端到端违约预测模型、融合图神经网络的社会关系风险传播分析,以及可解释人工智能在信用决策中的应用。这些成果不仅丰富了金融科技领域的算法库,还促进了跨学科融合,为后续的联邦学习、隐私保护计算等前沿方向提供了重要的数据基准与实验平台。
以上内容由遇见数据集搜集并总结生成



