LendingClub Dataset

github2019-06-12 更新2024-05-31 收录

下载链接：

https://github.com/InduBadri/LendingClub-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集来自LendingClub，是世界上最大的点对点借贷平台。数据集包含了2012-13年的188185条观察记录和145个预测变量，主要用于预测借款人是否会偿还或违约贷款。贷款状态包括完全支付、冲销、当前、宽限期或逾期（31-120天）。

This dataset originates from LendingClub, the world's largest peer-to-peer lending platform. It comprises 188,185 observations and 145 predictive variables from the years 2012-13, primarily used to forecast whether borrowers will repay or default on their loans. The loan statuses include fully paid, charged off, current, grace period, or late (31-120 days).

创建时间：

2019-05-22

原始信息汇总

数据集概述

数据来源

数据集来自LendingClub，该平台是全球最大的点对点借贷市场。

数据内容

数据集包含2012-13年的借贷信息，共有188,185条观测记录和145个预测变量。
贷款状态包括完全偿还、冲销、当前、宽限期或逾期（31-120天）。
由于当前、宽限期或逾期的数据量不足（0.0005%），这些状态被忽略，数据集用于二元分类预测借款人是否能偿还债务。

数据处理与分析

使用pandas进行数据预处理、探索性数据分析、相关性分析和模型构建。
使用pyspark进行模型评估，采用BinaryClassificationEvaluator，默认使用ROC曲线下面积作为评估指标。

模型评估结果

使用pandas构建的模型：
1. 随机森林 - 准确率81.4%
2. 逻辑回归 - 准确率78.7%
3. KNN分类器 - 准确率77.7%
4. 决策树分类器 - 准确率82.7%
使用pyspark构建的模型：
1. 逻辑回归模型 - AUC 0.86
2. 随机森林分类器 - AUC 0.86
3. 梯度提升 - AUC 0.91

遇到的问题

在pyspark中，尝试绘制ROC和精确召回曲线时遇到问题，无法直接转换为pandas数据框，因此将数据下载为CSV文件后在本地机器上进行绘制。

搜集汇总

数据集介绍

构建方式

LendingClub Dataset的构建基于LendingClub平台2012-2013年的贷款数据，该平台是全球最大的点对点借贷市场。数据集包含了188,185条观测数据和145个预测变量，涵盖了借款人的财务历史及其贷款状态。数据处理过程中，作者通过pandas和pyspark进行数据预处理、探索性数据分析、相关性分析及模型构建。为了简化分析，作者排除了贷款状态为‘当前’、‘宽限期’或‘逾期（31-120天）’的记录，并进行了二元分类，预测借款人是否能够偿还贷款。最终，数据被保存为CSV文件，以便进一步的模型训练和评估。

使用方法

LendingClub Dataset适用于金融风险评估和机器学习模型的训练与验证。用户可以通过加载CSV文件，利用pandas或pyspark进行数据分析和模型构建。数据集的二元分类特性使其非常适合用于开发和测试分类算法，如随机森林、逻辑回归等。此外，数据集还提供了模型评估的基准，如分类准确率和AUC分数，帮助用户比较和选择最佳模型。

背景与挑战

背景概述

LendingClub Dataset源自全球最大的点对点借贷平台LendingClub，该平台总部位于加利福尼亚州旧金山，致力于为借款人和贷款人提供一个匹配的市场。借款人通过提交贷款申请，附带其财务历史记录，LendingClub根据其支付习惯评估信用并分配利率。然而，借款人可能违约，这为贷款人带来了更高的风险。该数据集涵盖了2012至2013年的贷款数据，包含188,185个观察值和145个预测变量，主要用于预测借款人是否会偿还贷款。通过分析借款人的财务历史，该数据集在金融风险评估领域具有重要意义，为研究信用风险和贷款违约提供了宝贵的资源。

当前挑战

LendingClub Dataset在构建和应用过程中面临多项挑战。首先，数据集中关于当前、宽限期或延迟状态的样本极少，仅占0.0005%，这限制了模型对这些状态的预测能力。其次，数据预处理和模型构建过程中，需要处理大量变量和观察值，这对计算资源和算法效率提出了高要求。此外，尽管通过下采样平衡了类别分布，模型在处理不平衡数据时的表现仍需进一步优化。最后，在PySpark环境中，绘制ROC和精确召回曲线时遇到了技术障碍，需通过导出数据至本地解决，这表明在数据处理和可视化工具的集成上仍有改进空间。

常用场景

经典使用场景

LendingClub数据集的经典使用场景主要集中在信用风险评估领域。通过分析借款人的财务历史和贷款申请信息，研究者可以构建预测模型，判断借款人是否会按时还款或违约。这种二元分类任务在金融科技领域尤为重要，能够帮助贷款平台优化风险管理策略，提升贷款决策的准确性。

解决学术问题

该数据集解决了信用风险评估中的核心问题，即如何基于借款人的历史财务数据预测其未来的还款行为。通过构建和评估多种机器学习模型，如随机森林、逻辑回归和梯度提升等，研究者能够深入探讨不同模型在信用风险预测中的表现，为学术界提供了丰富的实验数据和方法论支持。

实际应用

在实际应用中，LendingClub数据集被广泛用于金融科技公司的风险控制系统。通过分析借款人的历史数据，金融机构可以更精准地评估贷款风险，制定个性化的贷款利率，并有效降低违约率。此外，该数据集还可用于开发智能风控系统，帮助金融机构在贷款审批过程中实现自动化和智能化。

数据集最近研究