Auto Loan Default Prediction Dataset|贷款违约预测数据集
收藏数据集概述
数据集描述
该数据集用于通过SQL进行清洗和转换,以提高数据质量,便于分析贷款趋势和客户行为。数据集包含与客户贷款相关的各种属性,如贷款金额、客户收入、贷款状态等。
数据来源
数据集来源于Kaggle,具体链接为:Auto Loan Default Prediction Dataset on Kaggle。
数据清洗方法
- 去重(Deduplication):识别并消除数据集中的重复记录,确保每个条目唯一。
- 格式化验证状态(数据标准化):通过调整值以遵循标准格式或约定来标准化数据。
- 一致性检查:确保分类值(如
emp_title
、verification_status
、home_ownership
)的一致性,去除多余空格、修正大小写变化和纠正拼写错误。 - 跨字段验证:验证字段之间的逻辑关系,例如确保标记为“Fully Paid”的贷款对应有效的
last_payment_date
。 - 四舍五入(数据舍入):将贷款金额等数值字段四舍五入到指定的小数位数,以确保数据集中的统一性。
- 去除空白(空白去除):消除字符串中不必要的空格,确保数据条目的清洁和准确的过滤或比较。
- 替换空值(插补):通过用特定条目(如将
employment_status
填充为“Unemployed”)处理缺失数据,使数据集完整以供分析。
文件说明
- cleaning-loan-informative-data-w-sql.sql:包含用于清洗和预处理金融贷款数据集的SQL脚本,涵盖了多种数据清洗技术。
- financial_loan.csv:项目中使用的数据集,包含各种贷款相关属性,如贷款金额、客户收入、贷款状态、就业头衔等。该数据集来源于Kaggle,并通过本仓库中的SQL脚本进行了清洗和准备。

2017-2020年内蒙古当地杂豆的原料特性及生物活性物质分析数据集
参照国标对内蒙古当地的豌豆、赤小豆、绿豆、红芸豆及扁豆等五种杂豆的原料特性和生物活性物质含量进行测定,并进行对比分析。
国家农业科学数据中心 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录
CliMedBench
CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。
arXiv 收录
Ansh007/Jellyfish-Image-Dataset
该数据集包含900张水母图像,分为六个不同的类别和物种:紫水母、月亮水母、桶水母、蓝水母、罗盘水母和狮鬃水母。这些图像可用于机器学习技术,以获得水母分类、物种识别和颜色分析的洞察。每个物种都有详细的描述,包括其特征和食物来源。此外,数据集还提供了使用案例,如水母分类、物种识别和颜色分析。
hugging_face 收录
微博与抖音评论数据集
数据集源自微博平台与抖音平台的评论信息,基于两个热点事件来对评论等信息进行爬取收集形成数据集。原数据一共3W5条,但消极评论与中立评论远远大于积极评论。因此作特殊处理后,积极数据2601条,消极数据2367条,中立数据2725条,共7693条数据。
github 收录