LendingClub Dataset|贷款数据集|信用风险数据集
收藏数据集概述
数据来源
- 数据集来自LendingClub,该平台是全球最大的点对点借贷市场。
数据内容
- 数据集包含2012-13年的借贷信息,共有188,185条观测记录和145个预测变量。
- 贷款状态包括完全偿还、冲销、当前、宽限期或逾期(31-120天)。
- 由于当前、宽限期或逾期的数据量不足(0.0005%),这些状态被忽略,数据集用于二元分类预测借款人是否能偿还债务。
数据处理与分析
- 使用pandas进行数据预处理、探索性数据分析、相关性分析和模型构建。
- 使用pyspark进行模型评估,采用BinaryClassificationEvaluator,默认使用ROC曲线下面积作为评估指标。
模型评估结果
-
使用pandas构建的模型:
- 随机森林 - 准确率81.4%
- 逻辑回归 - 准确率78.7%
- KNN分类器 - 准确率77.7%
- 决策树分类器 - 准确率82.7%
-
使用pyspark构建的模型:
- 逻辑回归模型 - AUC 0.86
- 随机森林分类器 - AUC 0.86
- 梯度提升 - AUC 0.91
遇到的问题
- 在pyspark中,尝试绘制ROC和精确召回曲线时遇到问题,无法直接转换为pandas数据框,因此将数据下载为CSV文件后在本地机器上进行绘制。

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
TT100K - Tsinghua-Tencent 100K
TT100K数据集是一个用于交通标志检测和识别的大规模数据集,包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。
cg.cs.tsinghua.edu.cn 收录
中国区域1km分辨率逐月平均风速数据集(2000-2020年)
中国区域1km分辨率逐月平均风速数据集(2001-2020年),是基于再分析气候数据经过空间降尺度得到,包括中国陆地范围,空间分辨率1km,时间分辨率为逐月。可以为气候变化、生态学、农学等研究提供逐月平均风速数据。
国家地球系统科学数据中心 收录