five

lending-club-eda

收藏
Hugging Face2026-04-04 更新2026-04-05 收录
下载链接:
https://huggingface.co/datasets/idoaidan/lending-club-eda
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为'Lending Club Loans - EDA Analysis',源自美国最大的点对点借贷平台之一Lending Club,最初从Kaggle获取。数据集包含10,000条贷款记录,共有55个特征,经过列选择和清理后,最终数据集包含9,976行和16列。研究问题聚焦于借款人和贷款特征如何影响借款利率,特别是收入水平、债务收入比、住房所有权状况、收入验证和信用历史等因素与平台分配的利率之间的关系。目标变量为'interest_rate',表示每笔贷款的年利率,范围约为5%至30%。数据集结构包括16个字段,如'grade'(风险等级)、'annual_income'(年收入)、'debt_to_income'(债务收入比)等。数据清理过程包括特征选择、缺失值处理、重复检查和异常值处理。最终数据集适用于回归分析任务,特别是与金融借贷和风险评估相关的场景。
创建时间:
2026-03-30
原始信息汇总

Lending Club Loans - EDA Analysis 数据集概述

数据集基本信息

  • 来源:数据集源自美国最大的P2P借贷平台之一Lending Club,原始数据获取自Kaggle。
  • 许可协议:CC BY 4.0
  • 任务类别:表格回归
  • 语言:英语
  • 标签:EDA, lending-club, finance, loans
  • 数据规模:1K < n < 10K
  • 最终数据集:包含 9,976 行和 16 列。

研究目标

  • 核心研究问题:探究哪些借款人和贷款特征会影响借款人获得的利率。具体分析收入水平、债务收入比、房屋所有权状况、收入验证和信用历史等因素与平台分配的利率之间的关系。
  • 目标变量interest_rate,一个代表分配给每笔贷款的年利率的连续数值变量,范围约为5%至30%。

数据集结构

数据字段

# 特征 类型 描述
1 interest_rate 浮点数 贷款的年利率(目标变量,5.31%-30.94%)
2 grade 分类 平台分配的风险等级(A到G,A=风险最低)
3 annual_income 浮点数 借款人自我报告的年收入(美元)
4 debt_to_income 浮点数 月债务偿还额与月收入之比
5 emp_length 浮点数 工作年限(年)
6 loan_amount 整数 贷款总额(美元)
7 term 整数 贷款偿还期限(36或60个月)
8 homeownership 分类 借款人的住房状况(Rent, Own, Mortgage)
9 verified_income 分类 收入是否经过验证(Not Verified, Source Verified, Verified)
10 loan_purpose 分类 贷款用途(债务合并、信用卡、房屋装修等)
11 inquiries_last_12m 整数 过去12个月的信用查询次数
12 total_credit_limit 整数 所有账户的总信用额度
13 total_credit_utilized 整数 当前已使用的总信用额
14 total_debit_limit 整数 所有账户的总借记额度
15 accounts_opened_24m 整数 过去24个月内新开的账户数量
16 account_never_delinq_percent 浮点数 从未拖欠还款的账户百分比

数据清洗与准备

特征选择

原始数据集包含55列。根据以下三个过滤标准,筛选出16个特征用于分析:

  • 缺失值过多:大部分记录为空的列被排除。
  • 无意义或冗余内容:包含ID、内部代码或重复信息的列被移除。
  • 无关的分类数据:逻辑上与利率定价无关的特征被剔除。

缺失值处理

  • emp_length:817个缺失值(8.2%),使用中位数进行填补。
  • debt_to_income:24个缺失值(0.2%),包含这些缺失值的记录被删除(其中包括23条零收入记录)。
  • 处理后,所有16列均无缺失值。

重复值检查

检查整个数据集,未发现重复记录。

异常值检测与处理

  • 技术错误(已识别并移除)annual_income 中的23条零收入记录,因其 debt_to_income 缺失,已在缺失值处理阶段被移除。
  • 逻辑极值(封顶处理)annual_incomedebt_to_income 中超过99百分位的值被封顶,以减少偏态。
  • 合法变异(保留)loan_amounttotal_credit_limitinquiries_last_12m 等列中的异常值被保留,代表借款人资料的自然变异。

清洗总结

步骤 操作 受影响行数
特征选择 55列缩减至16列 -
填补 emp_length 缺失值 使用中位数填补 817行更新
删除 debt_to_income 缺失行 删除行(含23条零收入记录) 24行移除
收入高于99百分位 封顶处理 约1%的行调整
债务收入比高于99百分位 封顶处理 约1%的行调整
重复值检查 未发现 0行受影响
最终数据集 准备就绪,可用于分析 9,976行,16列

探索性数据分析(EDA)关键发现

借款人财务特征

  • 收入与利率:收入较高的群体平均利率略低,但相关性较弱。平台将收入视为次要信号,而非主要定价因素。
  • 收入验证与利率:收入经过验证的借款人平均利率反而更高,这是选择偏差的典型例子。平台通常对风险信号较高或申请金额较大的借款人要求验证。

贷款特征

  • 贷款期限与利率:60个月期限的贷款利率明显更高,贷款期限是数据集中最强的正利率预测因子。
  • 贷款用途与利率:贷款用途影响利率,反映了平台对不同资金用途风险的评估。可再生能源和度假贷款利率最高,房屋和信用卡贷款利率最低。

信用行为

  • 信用行为是核心驱动因素:借款人的信用状况是除等级外对利率定价影响最大的因素。
  • 信用利用率:使用可用信用额度比例较高的借款人利率逐步升高。
  • 总借记额度:额度较高的借款人利率较低。
  • 核心洞察:高借记额度反映了机构的信任,低利用率反映了个人财务纪律。平台对两者都给予奖励,使得信用行为成为仅次于等级本身的最有利贷款定价驱动因素。

总结与结论

  • 定价层次:平台利率定价存在清晰的层次结构,挑战了关于利率如何决定的传统假设。
  • 次要因素:收入的影响有限,收入验证则因选择偏差成为高风险信号。
  • 主要驱动因素:贷款定价的真正驱动力在于行为和机构信号。信用利用率和总借记额度是继平台等级之后最有力的利率预测因子。
  • 核心模型:Lending Club的定价模型本质上是一个行为风险引擎,而非基于身份的模型。
搜集汇总
数据集介绍
main_image_url
构建方式
在金融科技领域,数据集的构建过程直接关系到分析结果的可靠性与洞察深度。Lending Club EDA数据集源自美国领先的P2P借贷平台Lending Club,原始数据包含55个特征。通过系统性的数据清洗与特征选择,最终构建了包含9,976条贷款记录和16个关键字段的优化版本。构建过程中,依据缺失值比例、逻辑冗余性及与研究问题的相关性,剔除了大量不适用字段;针对就业年限的缺失值采用中位数插补,并对债务收入比中的少量缺失记录予以删除。同时,对年收入与债务收入比中的极端值进行了99百分位封顶处理,既保留了数据完整性,又有效降低了统计偏差,确保了数据集在探索性分析中的稳健基础。
使用方法
该数据集适用于金融风险定价、信用评估模型及行为经济学领域的实证研究。使用者可将其导入Python或R等分析环境,利用pandas进行数据加载与初步探索。针对利率预测问题,可采用线性回归、决策树或梯度提升等机器学习方法,以筛选后的特征作为自变量,构建利率影响因素模型。在进行建模前,建议对分类变量进行编码处理,并依据研究需求对连续变量进行标准化。此外,数据集中蕴含的信用行为变量与贷款结构特征,为深入探讨平台风险定价逻辑提供了丰富素材,可结合统计可视化技术,如箱线图与散点图,揭示变量间的非线性关系与交互效应,从而深化对P2P借贷市场风险机制的理解。
背景与挑战
背景概述
Lending Club EDA数据集源于美国领先的P2P借贷平台Lending Club,由Kaggle社区于近年公开,旨在探究影响借贷利率的关键因素。该数据集由Ido Aidan等研究人员整理,聚焦于金融科技领域中的信用风险评估与定价机制研究。其核心研究问题在于揭示借款人特征与贷款属性如何共同决定平台所分配的利率,从而深化对在线借贷市场风险定价模型的理解。该数据集的构建为金融数据分析、机器学习在信贷领域的应用提供了实证基础,推动了透明化、数据驱动的借贷决策研究。
当前挑战
该数据集旨在解决P2P借贷中利率预测与风险评估的挑战,其核心在于从多维借款人信息中识别影响信用定价的关键变量,并克服变量间复杂的非线性关系与潜在混杂因素。在构建过程中,面临数据质量与选择偏差的双重挑战:原始数据包含大量缺失值、冗余特征及极端异常值,需通过严谨的清洗与特征筛选流程进行处理;同时,变量如收入验证呈现反直觉模式,揭示了平台业务逻辑导致的选择偏差,要求分析时超越表面相关性,深入理解变量背后的经济行为机制。
常用场景
经典使用场景
在金融科技与信贷风险评估领域,Lending Club EDA数据集常被用于探索性数据分析,以揭示影响P2P借贷平台利率定价的关键因素。研究者通过该数据集分析借款人特征(如年收入、债务收入比)与贷款属性(如期限、用途)如何共同作用于利率水平,从而构建预测模型或验证风险定价假设。
解决学术问题
该数据集解决了信贷市场中风险定价机制不透明的问题,通过实证分析揭示了传统信用评分之外的潜在影响因素。其意义在于挑战了收入作为主要定价信号的假设,转而强调信用行为(如信用利用率)与结构性特征(如贷款期限)的核心作用,为行为金融学与机器学习在风险评估中的应用提供了实证基础。
实际应用
在实际应用中,该数据集被金融机构与金融科技公司用于优化贷款定价模型,提升风险识别精度。例如,基于信用利用率与债务限额的洞察,可设计动态利率调整策略,实现对不同风险层级借款人的差异化定价,从而平衡平台收益与违约风险。
数据集最近研究
最新研究方向
在金融科技与普惠信贷领域,Lending Club数据集持续推动着信用风险评估模型的创新研究。当前前沿探索聚焦于利用机器学习算法解析多维借款人行为特征,超越传统财务指标,构建动态风险定价框架。研究热点涉及可解释人工智能在信贷决策中的应用,旨在揭示如收入验证悖论等复杂现象背后的因果机制,以应对算法偏见与监管合规挑战。这些进展不仅优化了P2P借贷平台的利率定价精度,也为金融包容性政策提供了数据驱动的洞察,标志着信用评估正从静态资质审核转向实时行为分析的新范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作