credit-risk-eda

Hugging Face2026-03-30 更新2026-03-31 收录

下载链接：

https://huggingface.co/datasets/Uris001/credit-risk-eda

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含31,521笔贷款申请的借款人级别信息，用于分析信用违约风险。每条记录包含15个特征，涵盖人口统计、财务和行为属性，如年龄、年收入、房屋所有权、就业年限、贷款金额、利率、贷款收入比、信用历史长度、先前违约记录、贷款等级和违约状态。数据集包含数值型和类别型变量，具有真实世界的变异性，包括保留的有效极端值。经过严格的数据清洗过程，包括处理无效值、缺失值中位数插补和删除重复行。该数据集适用于信用风险评估、违约预测和金融风险建模等任务。关键发现包括贷款收入比和贷款等级是最具信息量的违约预测指标，而收入水平和房屋所有权状态也与违约风险显著相关。

创建时间：

2026-03-29

原始信息汇总

数据集概述

数据集基本信息

数据集名称: Credit Risk Analysis — Exploratory Data Analysis (EDA)
许可证: MIT
任务类别: 表格分类
数据集地址: https://huggingface.co/datasets/Uris001/credit-risk-eda

数据集内容

观测值数量: 31,521
特征数量: 15

特征类别

年龄: 贷款申请人的年龄。
年收入: 个人的年收入。
房屋所有权: 个人的房屋所有权类型（租用、抵押、自有、其他）。
工作年限: 借款人的工作历史。
贷款目的: 借款人申请贷款的原因。
贷款金额: 借款总额。
利率: 基于风险分配的利率。
贷款收入比: 贷款金额与收入的比率。
信用历史长度: 个人的信用历史长度。
先前违约: 过去违约行为的指标。
贷款等级: 基于借款人信用度分配的贷款等级（A至G）。
违约状态: 二元结果（0 = 未违约，1 = 违约）。

数据特征

包含数值型和类别型变量。
存在偏态分布（尤其是收入和贷款金额）。
包含工程特征（贷款收入比、贷款等级）。
包含真实世界变异性，包括极端值（有效时保留）。

分析方法论

数据清洗

列标准化: 修订列名以提高清晰度和一致性，并将“先前违约”变量中的类别值标准化。
无效值处理: 移除不切实际的值（如年龄超过90岁、工作年限过长）。
缺失值处理: 对数值变量（利率）应用中位数插补。
重复值: 识别并移除了157个重复行。

异常值处理

使用箱线图和IQR方法识别异常值。
无效异常值（如不切实际的年龄和工作年限）被移除。
财务异常值（如年收入、贷款金额、利率、信用历史长度和贷款收入比）被保留以反映真实世界借款人异质性。

探索性数据分析主要发现

目标变量分布

约78%的借款人成功偿还贷款，约22%违约，数据集呈现中度不平衡。

关键影响因素

贷款等级: 违约率从A级到G级 consistently 增加，表明贷款等级是一个校准良好的风险指标。
收入组别: 违约风险随着收入组别的增加而 sharp 下降，表明收入水平与违约概率呈 strong 反比关系。
贷款收入比: 是数据集中最强的预测因子，能比绝对指标更有效地捕捉借款人的财务压力。
先前违约行为: 有先前违约记录的借款人表现出显著更高的违约率，是未来违约的最强预测因子之一。
房屋所有权状态: 房屋所有者表现出显著较低的违约率，而租房者违约率最高，表明房屋所有权可作为财务稳定性的代理。
利率: 违约借款人的利率平均较高，违约率 across 更高利率组别增加，表明利率反映了贷款人对借款人风险的评估。

方法论洞察

将连续变量分段为基于分位数的组别，能使违约风险的关系更加显著和可解释，揭示出清晰的单调模式。
特征工程在揭示原始变量无法观察到的隐藏关系方面至关重要。

最终结论

贷款违约风险并非由孤立的财务变量驱动，而是由借款人能力、贷款特征和行为历史之间的相互作用驱动。
贷款收入比和贷款等级是最具信息量的预测因子，突出了相对财务压力和结构化风险分层的 importance。
有效的信用风险评估需要结合借款人信息的多个维度，而非依赖单变量分析。

局限性

分析基于观察性数据，未建立因果关系。
尽管经过清洗，某些变量可能仍包含残余噪声。
分组（如贷款收入比分组）简化了解释，但可能降低粒度。

作者

Uri Sivan

搜集汇总

数据集介绍

构建方式

在信用风险评估领域，数据质量直接影响模型的可靠性。该数据集通过系统化的数据清洗流程构建，涵盖列名标准化、无效值处理与缺失值填补等环节。具体而言，研究者识别并移除了年龄超过90岁或工作年限不合理的异常记录，同时对利率变量采用中位数填补以保持数据分布的稳健性。重复观测共计157条被剔除，确保了样本的独立性。在异常值处理上，仅删除明显无效的数值，而保留反映真实借款人异质性的极端财务观测，从而在维护数据真实性的同时提升了分析的准确性。

特点

该数据集蕴含丰富的信用风险信息，共包含31,521条贷款申请记录与15个特征，涵盖财务、人口统计与行为等多维度属性。其显著特点在于混合了数值型与分类型变量，并包含贷款收入比等衍生特征，能够更有效地捕捉借款人的相对财务压力。数据呈现右偏分布，尤其是收入与贷款金额变量，这反映了现实世界中借款人财务状况的自然差异。此外，数据集保持了适度的类别不平衡，违约案例约占22%，为风险模式识别提供了足够的信息基础。

使用方法

该数据集适用于表格分类任务，尤其服务于信用违约风险的探索性分析与预测建模。使用者可首先加载数据，并依据README中概述的预处理步骤进行清洗，包括异常值验证与分类型变量编码。在探索性分析阶段，建议将连续变量如收入或贷款收入比进行分箱处理，以揭示其与违约风险之间的单调关系。建模时，可重点采用贷款等级、贷款收入比与历史违约记录等强预测特征，并注意处理类别不平衡问题，例如通过重采样或代价敏感学习技术以提升模型对违约样本的识别能力。

背景与挑战

背景概述

在金融风险管理领域，信用风险评估是核心研究议题之一，旨在通过量化分析预测借款人的违约概率。credit-risk-eda数据集应运而生，为这一领域提供了实证分析的基础。该数据集由研究人员Uri Sivan构建，专注于探索性数据分析，旨在识别影响贷款违约的关键因素。数据集包含31,521条观测记录和15个特征，涵盖了借款人的财务、人口统计和行为属性，如年龄、年收入、房屋所有权状况、贷款目的、贷款金额、利率以及贷款收入比等。其核心研究问题在于揭示哪些变量与违约风险显著相关，从而为金融机构的风险定价和决策提供数据支持。该数据集的创建体现了大数据时代下，利用结构化表格数据进行信用风险建模的趋势，对提升风险模型的透明度和可解释性具有重要影响。

当前挑战

该数据集致力于解决信用风险评估中的关键挑战，即如何从多维度借款人信息中准确识别违约驱动因素。具体挑战包括：处理类别不平衡问题，数据中非违约案例占比约78%，而违约案例仅22%，这要求分析方法能有效捕捉少数类别的模式；应对数据质量问题，如存在不现实的年龄和就业年限等无效值，以及缺失值和重复记录，需通过清洗和插补确保数据可靠性；解释变量间的复杂关系，例如贷款收入比与违约风险呈现强相关性，但单一变量如收入或贷款金额的预测力较弱，凸显了特征交互作用的重要性。在构建过程中，挑战主要源于现实世界数据的异质性，例如财务变量如年收入和贷款金额呈现右偏分布，包含极端但合理的观测值，保留这些值虽能反映真实借款人群的多样性，但也增加了分析难度。此外，将连续变量分组以提升可解释性时，需在信息损失与模式清晰度之间取得平衡。

常用场景

经典使用场景

在信用风险评估领域，该数据集为探索性数据分析提供了典型范例，通过整合借款人的财务、人口统计和行为属性，系统性地揭示了影响贷款违约的关键因素。研究人员通常利用此类数据进行特征工程与模式识别，例如将连续变量如收入或贷款金额分组，以增强模型的可解释性，并验证风险指标如贷款等级与违约率之间的单调关系，从而构建稳健的预测框架。

衍生相关工作

围绕该数据集衍生的经典工作主要包括基于树模型的梯度提升机应用，如XGBoost和LightGBM，这些方法利用其结构化特征提升违约预测的准确性。同时，研究也聚焦于可解释人工智能技术，例如SHAP值分析，以揭示贷款收入比和家庭所有权等关键特征的贡献度，进一步推动了信用风险透明化与公平借贷准则的发展。

数据集最近研究