five

LendingClub Dataset

收藏
github2019-06-12 更新2024-05-31 收录
下载链接:
https://github.com/InduBadri/LendingClub-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集来自LendingClub,是世界上最大的点对点借贷平台。数据集包含了2012-13年的188185条观察记录和145个预测变量,主要用于预测借款人是否会偿还或违约贷款。贷款状态包括完全支付、冲销、当前、宽限期或逾期(31-120天)。

This dataset originates from LendingClub, the world's largest peer-to-peer lending platform. It comprises 188,185 observations and 145 predictive variables from the years 2012-13, primarily used to forecast whether borrowers will repay or default on their loans. The loan statuses include fully paid, charged off, current, grace period, or late (31-120 days).
创建时间:
2019-05-22
原始信息汇总

数据集概述

数据来源

  • 数据集来自LendingClub,该平台是全球最大的点对点借贷市场。

数据内容

  • 数据集包含2012-13年的借贷信息,共有188,185条观测记录和145个预测变量。
  • 贷款状态包括完全偿还、冲销、当前、宽限期或逾期(31-120天)。
  • 由于当前、宽限期或逾期的数据量不足(0.0005%),这些状态被忽略,数据集用于二元分类预测借款人是否能偿还债务。

数据处理与分析

  • 使用pandas进行数据预处理、探索性数据分析、相关性分析和模型构建。
  • 使用pyspark进行模型评估,采用BinaryClassificationEvaluator,默认使用ROC曲线下面积作为评估指标。

模型评估结果

  • 使用pandas构建的模型

    1. 随机森林 - 准确率81.4%
    2. 逻辑回归 - 准确率78.7%
    3. KNN分类器 - 准确率77.7%
    4. 决策树分类器 - 准确率82.7%
  • 使用pyspark构建的模型

    1. 逻辑回归模型 - AUC 0.86
    2. 随机森林分类器 - AUC 0.86
    3. 梯度提升 - AUC 0.91

遇到的问题

  • 在pyspark中,尝试绘制ROC和精确召回曲线时遇到问题,无法直接转换为pandas数据框,因此将数据下载为CSV文件后在本地机器上进行绘制。
搜集汇总
数据集介绍
main_image_url
构建方式
LendingClub Dataset的构建基于LendingClub平台2012-2013年的贷款数据,该平台是全球最大的点对点借贷市场。数据集包含了188,185条观测数据和145个预测变量,涵盖了借款人的财务历史及其贷款状态。数据处理过程中,作者通过pandas和pyspark进行数据预处理、探索性数据分析、相关性分析及模型构建。为了简化分析,作者排除了贷款状态为‘当前’、‘宽限期’或‘逾期(31-120天)’的记录,并进行了二元分类,预测借款人是否能够偿还贷款。最终,数据被保存为CSV文件,以便进一步的模型训练和评估。
使用方法
LendingClub Dataset适用于金融风险评估和机器学习模型的训练与验证。用户可以通过加载CSV文件,利用pandas或pyspark进行数据分析和模型构建。数据集的二元分类特性使其非常适合用于开发和测试分类算法,如随机森林、逻辑回归等。此外,数据集还提供了模型评估的基准,如分类准确率和AUC分数,帮助用户比较和选择最佳模型。
背景与挑战
背景概述
LendingClub Dataset源自全球最大的点对点借贷平台LendingClub,该平台总部位于加利福尼亚州旧金山,致力于为借款人和贷款人提供一个匹配的市场。借款人通过提交贷款申请,附带其财务历史记录,LendingClub根据其支付习惯评估信用并分配利率。然而,借款人可能违约,这为贷款人带来了更高的风险。该数据集涵盖了2012至2013年的贷款数据,包含188,185个观察值和145个预测变量,主要用于预测借款人是否会偿还贷款。通过分析借款人的财务历史,该数据集在金融风险评估领域具有重要意义,为研究信用风险和贷款违约提供了宝贵的资源。
当前挑战
LendingClub Dataset在构建和应用过程中面临多项挑战。首先,数据集中关于当前、宽限期或延迟状态的样本极少,仅占0.0005%,这限制了模型对这些状态的预测能力。其次,数据预处理和模型构建过程中,需要处理大量变量和观察值,这对计算资源和算法效率提出了高要求。此外,尽管通过下采样平衡了类别分布,模型在处理不平衡数据时的表现仍需进一步优化。最后,在PySpark环境中,绘制ROC和精确召回曲线时遇到了技术障碍,需通过导出数据至本地解决,这表明在数据处理和可视化工具的集成上仍有改进空间。
常用场景
经典使用场景
LendingClub数据集的经典使用场景主要集中在信用风险评估领域。通过分析借款人的财务历史和贷款申请信息,研究者可以构建预测模型,判断借款人是否会按时还款或违约。这种二元分类任务在金融科技领域尤为重要,能够帮助贷款平台优化风险管理策略,提升贷款决策的准确性。
解决学术问题
该数据集解决了信用风险评估中的核心问题,即如何基于借款人的历史财务数据预测其未来的还款行为。通过构建和评估多种机器学习模型,如随机森林、逻辑回归和梯度提升等,研究者能够深入探讨不同模型在信用风险预测中的表现,为学术界提供了丰富的实验数据和方法论支持。
实际应用
在实际应用中,LendingClub数据集被广泛用于金融科技公司的风险控制系统。通过分析借款人的历史数据,金融机构可以更精准地评估贷款风险,制定个性化的贷款利率,并有效降低违约率。此外,该数据集还可用于开发智能风控系统,帮助金融机构在贷款审批过程中实现自动化和智能化。
数据集最近研究
最新研究方向
在金融科技领域,LendingClub Dataset因其丰富的借贷数据和广泛的应用场景,成为研究信用风险评估和贷款违约预测的热点。近年来,研究者们利用该数据集探索了多种机器学习模型,如随机森林、逻辑回归和梯度提升等,以提高贷款违约预测的准确性。特别是,梯度提升模型在该数据集上的表现尤为突出,AUC得分达到0.91,显示出其在处理不平衡数据和复杂金融数据方面的优势。此外,随着大数据技术的发展,PySpark等分布式计算工具的应用,使得大规模数据处理和模型训练成为可能,进一步推动了该领域的研究进展。这些研究不仅有助于金融机构优化风险管理策略,还为个人贷款市场的健康发展提供了科学依据。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作