jlh/home-credit-synthetic-example
收藏Hugging Face2023-05-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jlh/home-credit-synthetic-example
下载链接
链接失效反馈官方服务:
资源简介:
---
license: unknown
dataset_info:
features:
- name: TARGET
dtype: float64
- name: NAME_CONTRACT_TYPE
dtype: float64
- name: CODE_GENDER
dtype: float64
- name: FLAG_OWN_CAR
dtype: float64
- name: FLAG_OWN_REALTY
dtype: float64
- name: CNT_CHILDREN
dtype: float64
- name: AMT_INCOME_TOTAL
dtype: float64
- name: AMT_CREDIT
dtype: float64
- name: AMT_ANNUITY
dtype: float64
- name: AMT_GOODS_PRICE
dtype: float64
- name: NAME_TYPE_SUITE
dtype: float64
- name: NAME_INCOME_TYPE
dtype: float64
- name: NAME_EDUCATION_TYPE
dtype: float64
- name: NAME_FAMILY_STATUS
dtype: float64
- name: NAME_HOUSING_TYPE
dtype: float64
- name: REGION_POPULATION_RELATIVE
dtype: float64
- name: DAYS_BIRTH
dtype: float64
- name: DAYS_EMPLOYED
dtype: float64
- name: DAYS_REGISTRATION
dtype: float64
- name: DAYS_ID_PUBLISH
dtype: float64
- name: OWN_CAR_AGE
dtype: float64
- name: FLAG_MOBIL
dtype: float64
- name: FLAG_EMP_PHONE
dtype: float64
- name: FLAG_WORK_PHONE
dtype: float64
- name: FLAG_CONT_MOBILE
dtype: float64
- name: FLAG_PHONE
dtype: float64
- name: FLAG_EMAIL
dtype: float64
- name: OCCUPATION_TYPE
dtype: float64
- name: CNT_FAM_MEMBERS
dtype: float64
- name: REGION_RATING_CLIENT
dtype: float64
- name: REGION_RATING_CLIENT_W_CITY
dtype: float64
- name: WEEKDAY_APPR_PROCESS_START
dtype: float64
- name: HOUR_APPR_PROCESS_START
dtype: float64
- name: REG_REGION_NOT_LIVE_REGION
dtype: float64
- name: REG_REGION_NOT_WORK_REGION
dtype: float64
- name: LIVE_REGION_NOT_WORK_REGION
dtype: float64
- name: REG_CITY_NOT_LIVE_CITY
dtype: float64
- name: REG_CITY_NOT_WORK_CITY
dtype: float64
- name: LIVE_CITY_NOT_WORK_CITY
dtype: float64
- name: ORGANIZATION_TYPE
dtype: float64
- name: EXT_SOURCE_1
dtype: float64
- name: EXT_SOURCE_2
dtype: float64
- name: EXT_SOURCE_3
dtype: float64
- name: APARTMENTS_AVG
dtype: float64
- name: BASEMENTAREA_AVG
dtype: float64
- name: YEARS_BEGINEXPLUATATION_AVG
dtype: float64
- name: YEARS_BUILD_AVG
dtype: float64
- name: COMMONAREA_AVG
dtype: float64
- name: ELEVATORS_AVG
dtype: float64
- name: ENTRANCES_AVG
dtype: float64
- name: FLOORSMAX_AVG
dtype: float64
- name: FLOORSMIN_AVG
dtype: float64
- name: LANDAREA_AVG
dtype: float64
- name: LIVINGAPARTMENTS_AVG
dtype: float64
- name: LIVINGAREA_AVG
dtype: float64
- name: NONLIVINGAPARTMENTS_AVG
dtype: float64
- name: NONLIVINGAREA_AVG
dtype: float64
- name: APARTMENTS_MODE
dtype: float64
- name: BASEMENTAREA_MODE
dtype: float64
- name: YEARS_BEGINEXPLUATATION_MODE
dtype: float64
- name: YEARS_BUILD_MODE
dtype: float64
- name: COMMONAREA_MODE
dtype: float64
- name: ELEVATORS_MODE
dtype: float64
- name: ENTRANCES_MODE
dtype: float64
- name: FLOORSMAX_MODE
dtype: float64
- name: FLOORSMIN_MODE
dtype: float64
- name: LANDAREA_MODE
dtype: float64
- name: LIVINGAPARTMENTS_MODE
dtype: float64
- name: LIVINGAREA_MODE
dtype: float64
- name: NONLIVINGAPARTMENTS_MODE
dtype: float64
- name: NONLIVINGAREA_MODE
dtype: float64
- name: APARTMENTS_MEDI
dtype: float64
- name: BASEMENTAREA_MEDI
dtype: float64
- name: YEARS_BEGINEXPLUATATION_MEDI
dtype: float64
- name: YEARS_BUILD_MEDI
dtype: float64
- name: COMMONAREA_MEDI
dtype: float64
- name: ELEVATORS_MEDI
dtype: float64
- name: ENTRANCES_MEDI
dtype: float64
- name: FLOORSMAX_MEDI
dtype: float64
- name: FLOORSMIN_MEDI
dtype: float64
- name: LANDAREA_MEDI
dtype: float64
- name: LIVINGAPARTMENTS_MEDI
dtype: float64
- name: LIVINGAREA_MEDI
dtype: float64
- name: NONLIVINGAPARTMENTS_MEDI
dtype: float64
- name: NONLIVINGAREA_MEDI
dtype: float64
- name: FONDKAPREMONT_MODE
dtype: float64
- name: HOUSETYPE_MODE
dtype: float64
- name: TOTALAREA_MODE
dtype: float64
- name: WALLSMATERIAL_MODE
dtype: float64
- name: EMERGENCYSTATE_MODE
dtype: float64
- name: OBS_30_CNT_SOCIAL_CIRCLE
dtype: float64
- name: DEF_30_CNT_SOCIAL_CIRCLE
dtype: float64
- name: OBS_60_CNT_SOCIAL_CIRCLE
dtype: float64
- name: DEF_60_CNT_SOCIAL_CIRCLE
dtype: float64
- name: DAYS_LAST_PHONE_CHANGE
dtype: float64
- name: FLAG_DOCUMENT_2
dtype: float64
- name: FLAG_DOCUMENT_3
dtype: float64
- name: FLAG_DOCUMENT_4
dtype: float64
- name: FLAG_DOCUMENT_5
dtype: float64
- name: FLAG_DOCUMENT_6
dtype: float64
- name: FLAG_DOCUMENT_7
dtype: float64
- name: FLAG_DOCUMENT_8
dtype: float64
- name: FLAG_DOCUMENT_9
dtype: float64
- name: FLAG_DOCUMENT_10
dtype: float64
- name: FLAG_DOCUMENT_11
dtype: float64
- name: FLAG_DOCUMENT_12
dtype: float64
- name: FLAG_DOCUMENT_13
dtype: float64
- name: FLAG_DOCUMENT_14
dtype: float64
- name: FLAG_DOCUMENT_15
dtype: float64
- name: FLAG_DOCUMENT_16
dtype: float64
- name: FLAG_DOCUMENT_17
dtype: float64
- name: FLAG_DOCUMENT_18
dtype: float64
- name: FLAG_DOCUMENT_19
dtype: float64
- name: FLAG_DOCUMENT_20
dtype: float64
- name: FLAG_DOCUMENT_21
dtype: float64
- name: AMT_REQ_CREDIT_BUREAU_HOUR
dtype: float64
- name: AMT_REQ_CREDIT_BUREAU_DAY
dtype: float64
- name: AMT_REQ_CREDIT_BUREAU_WEEK
dtype: float64
- name: AMT_REQ_CREDIT_BUREAU_MON
dtype: float64
- name: AMT_REQ_CREDIT_BUREAU_QRT
dtype: float64
- name: AMT_REQ_CREDIT_BUREAU_YEAR
dtype: float64
splits:
- name: real
num_bytes: 9680000
num_examples: 10000
- name: synth
num_bytes: 9680000
num_examples: 10000
download_size: 1688004
dataset_size: 19360000
---
提供机构:
jlh
原始信息汇总
数据集概述
数据集特征
- TARGET:目标变量,数据类型为
float64。 - NAME_CONTRACT_TYPE:合同类型,数据类型为
float64。 - CODE_GENDER:性别代码,数据类型为
float64。 - FLAG_OWN_CAR:是否拥有汽车,数据类型为
float64。 - FLAG_OWN_REALTY:是否拥有房产,数据类型为
float64。 - CNT_CHILDREN:子女数量,数据类型为
float64。 - AMT_INCOME_TOTAL:总收入,数据类型为
float64。 - AMT_CREDIT:信用额度,数据类型为
float64。 - AMT_ANNUITY:年金,数据类型为
float64。 - AMT_GOODS_PRICE:商品价格,数据类型为
float64。 - NAME_TYPE_SUITE:套房类型,数据类型为
float64。 - NAME_INCOME_TYPE:收入类型,数据类型为
float64。 - NAME_EDUCATION_TYPE:教育类型,数据类型为
float64。 - NAME_FAMILY_STATUS:家庭状态,数据类型为
float64。 - NAME_HOUSING_TYPE:住房类型,数据类型为
float64。 - REGION_POPULATION_RELATIVE:相对地区人口,数据类型为
float64。 - DAYS_BIRTH:出生天数,数据类型为
float64。 - DAYS_EMPLOYED:就业天数,数据类型为
float64。 - DAYS_REGISTRATION:注册天数,数据类型为
float64。 - DAYS_ID_PUBLISH:身份证发布天数,数据类型为
float64。 - OWN_CAR_AGE:汽车拥有年龄,数据类型为
float64。 - FLAG_MOBIL:移动电话标志,数据类型为
float64。 - FLAG_EMP_PHONE:工作电话标志,数据类型为
float64。 - FLAG_WORK_PHONE:工作电话标志,数据类型为
float64。 - FLAG_CONT_MOBILE:移动电话连续标志,数据类型为
float64。 - FLAG_PHONE:电话标志,数据类型为
float64。 - FLAG_EMAIL:电子邮件标志,数据类型为
float64。 - OCCUPATION_TYPE:职业类型,数据类型为
float64。 - CNT_FAM_MEMBERS:家庭成员数量,数据类型为
float64。 - REGION_RATING_CLIENT:客户地区评级,数据类型为
float64。 - REGION_RATING_CLIENT_W_CITY:带城市的客户地区评级,数据类型为
float64。 - WEEKDAY_APPR_PROCESS_START:申请处理开始的工作日,数据类型为
float64。 - HOUR_APPR_PROCESS_START:申请处理开始的小时,数据类型为
float64。 - REG_REGION_NOT_LIVE_REGION:注册地区与居住地区不一致,数据类型为
float64。 - REG_REGION_NOT_WORK_REGION:注册地区与工作地区不一致,数据类型为
float64。 - LIVE_REGION_NOT_WORK_REGION:居住地区与工作地区不一致,数据类型为
float64。 - REG_CITY_NOT_LIVE_CITY:注册城市与居住城市不一致,数据类型为
float64。 - REG_CITY_NOT_WORK_CITY:注册城市与工作城市不一致,数据类型为
float64。 - LIVE_CITY_NOT_WORK_CITY:居住城市与工作城市不一致,数据类型为
float64。 - ORGANIZATION_TYPE:组织类型,数据类型为
float64。 - EXT_SOURCE_1:外部源1,数据类型为
float64。 - EXT_SOURCE_2:外部源2,数据类型为
float64。 - EXT_SOURCE_3:外部源3,数据类型为
float64。 - APARTMENTS_AVG:公寓平均数,数据类型为
float64。 - BASEMENTAREA_AVG:地下室面积平均值,数据类型为
float64。 - YEARS_BEGINEXPLUATATION_AVG:开始运营年数平均值,数据类型为
float64。 - YEARS_BUILD_AVG:建筑年数平均值,数据类型为
float64。 - COMMONAREA_AVG:公共区域面积平均值,数据类型为
float64。 - ELEVATORS_AVG:电梯平均数,数据类型为
float64。 - ENTRANCES_AVG:入口平均数,数据类型为
float64。 - FLOORSMAX_AVG:最大楼层数平均值,数据类型为
float64。 - FLOORSMIN_AVG:最小楼层数平均值,数据类型为
float64。 - LANDAREA_AVG:土地面积平均值,数据类型为
float64。 - LIVINGAPARTMENTS_AVG:居住公寓平均数,数据类型为
float64。 - LIVINGAREA_AVG:居住面积平均值,数据类型为
float64。 - NONLIVINGAPARTMENTS_AVG:非居住公寓平均数,数据类型为
float64。 - NONLIVINGAREA_AVG:非居住面积平均值,数据类型为
float64。 - APARTMENTS_MODE:公寓众数,数据类型为
float64。 - BASEMENTAREA_MODE:地下室面积众数,数据类型为
float64。 - YEARS_BEGINEXPLUATATION_MODE:开始运营年数众数,数据类型为
float64。 - YEARS_BUILD_MODE:建筑年数众数,数据类型为
float64。 - COMMONAREA_MODE:公共区域面积众数,数据类型为
float64。 - ELEVATORS_MODE:电梯众数,数据类型为
float64。 - ENTRANCES_MODE:入口众数,数据类型为
float64。 - FLOORSMAX_MODE:最大楼层数众数,数据类型为
float64。 - FLOORSMIN_MODE:最小楼层数众数,数据类型为
float64。 - LANDAREA_MODE:土地面积众数,数据类型为
float64。 - LIVINGAPARTMENTS_MODE:居住公寓众数,数据类型为
float64。 - LIVINGAREA_MODE:居住面积众数,数据类型为
float64。 - NONLIVINGAPARTMENTS_MODE:非居住公寓众数,数据类型为
float64。 - NONLIVINGAREA_MODE:非居住面积众数,数据类型为
float64。 - APARTMENTS_MEDI:公寓中位数,数据类型为
float64。 - BASEMENTAREA_MEDI:地下室面积中位数,数据类型为
float64。 - YEARS_BEGINEXPLUATATION_MEDI:开始运营年数中位数,数据类型为
float64。 - YEARS_BUILD_MEDI:建筑年数中位数,数据类型为
float64。 - COMMONAREA_MEDI:公共区域面积中位数,数据类型为
float64。 - ELEVATORS_MEDI:电梯中位数,数据类型为
float64。 - ENTRANCES_MEDI:入口中位数,数据类型为
float64。 - FLOORSMAX_MEDI:最大楼层数中位数,数据类型为
float64。 - FLOORSMIN_MEDI:最小楼层数中位数,数据类型为
float64。 - LANDAREA_MEDI:土地面积中位数,数据类型为
float64。 - LIVINGAPARTMENTS_MEDI:居住公寓中位数,数据类型为
float64。 - LIVINGAREA_MEDI:居住面积中位数,数据类型为
float64。 - NONLIVINGAPARTMENTS_MEDI:非居住公寓中位数,数据类型为
float64。 - NONLIVINGAREA_MEDI:非居住面积中位数,数据类型为
float64。 - FONDKAPREMONT_MODE:维修基金众数,数据类型为
float64。 - HOUSETYPE_MODE:房屋类型众数,数据类型为
float64。 - TOTALAREA_MODE:总面积众数,数据类型为
float64。 - WALLSMATERIAL_MODE:墙体材料众数,数据类型为
float64。 - EMERGENCYSTATE_MODE:紧急状态众数,数据类型为
float64。 - OBS_30_CNT_SOCIAL_CIRCLE:过去30天社交圈观察次数,数据类型为
float64。 - DEF_30_CNT_SOCIAL_CIRCLE:过去30天社交圈违约次数,数据类型为
float64。 - OBS_60_CNT_SOCIAL_CIRCLE:过去60天社交圈观察次数,数据类型为
float64。 - DEF_60_CNT_SOCIAL_CIRCLE:过去60天社交圈违约次数,数据类型为
float64。 - DAYS_LAST_PHONE_CHANGE:上次电话变更天数,数据类型为
float64。 - FLAG_DOCUMENT_2:文档2标志,数据类型为
float64。 - FLAG_DOCUMENT_3:文档3标志,数据类型为
float64。 - FLAG_DOCUMENT_4:文档4标志,数据类型为
float64。 - FLAG_DOCUMENT_5:文档5标志,数据类型为
float64。 - FLAG_DOCUMENT_6:文档6标志,数据类型为
float64。 - FLAG_DOCUMENT_7:文档7标志,数据类型为
float64。 - FLAG_DOCUMENT_8:文档8标志,数据类型为
float64。 - FLAG_DOCUMENT_9:文档9标志,数据类型为
float64。 - FLAG_DOCUMENT_10:文档10标志,数据类型为
float64。 - FLAG_DOCUMENT_11:文档11标志,数据类型为
float64。 - FLAG_DOCUMENT_12:文档12标志,数据类型为
float64。 - FLAG_DOCUMENT_13:文档13标志,数据类型为
float64。 - FLAG_DOCUMENT_14:文档14标志,数据类型为
float64。 - FLAG_DOCUMENT_15:文档15标志,数据类型为
float64。 - FLAG_DOCUMENT_16:文档16标志,数据类型为
float64。 - FLAG_DOCUMENT_17:文档17标志,数据类型为
float64。 - FLAG_DOCUMENT_18:文档18标志,数据类型为
float64。 - FLAG_DOCUMENT_19:文档19标志,数据类型为
float64。 - FLAG_DOCUMENT_20:文档20标志,数据类型为
float64。 - FLAG_DOCUMENT_21:文档21标志,数据类型为
float64。 - AMT_REQ_CREDIT_BUREAU_HOUR:每小时向信用局请求的金额,数据类型为
float64。 - AMT_REQ_CREDIT_BUREAU_DAY:每天向信用局请求的金额,数据类型为
float64。 - AMT_REQ_CREDIT_BUREAU_WEEK:每周向信用局请求的金额,数据类型为
float64。 - AMT_REQ_CREDIT_BUREAU_MON:每月向信用局请求的金额,数据类型为
float64。 - AMT_REQ_CREDIT_BUREAU_QRT:每季度向信用局请求的金额,数据类型为
float64。 - AMT_REQ_CREDIT_BUREAU_YEAR:每年向信用局请求的金额,数据类型为
float64。
数据集大小
- 下载大小:1688004字节。
- 数据集大小:19360000字节。
数据集分割
- real:实际数据集,大小为9680000字节,包含10000个示例。
- synth:合成数据集,大小为9680000字节,包含10000个示例。
搜集汇总
数据集介绍

构建方式
在信贷风控领域,高质量且隐私合规的数据集是模型研发的基石。该数据集基于Home Credit公开竞赛的真实数据框架,采用合成技术构建,旨在复刻原始数据的关键统计特征与变量间的复杂关联。数据集包含10000条真实样本与10000条合成样本,两者在特征维度上完全对齐,涵盖TARGET标签、合同类型、性别、车辆与房产拥有情况、收入与信贷金额、教育程度、职业类型、居住与工作区域关联、外部信用评分来源、房产属性(如面积、建造年份、楼层数)、社交圈逾期观察计数、证件变更天数、文件标志位以及征信查询频率等逾百个数值型特征,所有字段均统一为float64格式,确保了数据类型的简洁与兼容性。
使用方法
研究者可直接通过HuggingFace Datasets库加载该数据集,利用'real'与'synth'两个分割分别进行模型训练与隐私风险评估。在使用中,建议将TARGET列作为二分类目标变量,其余122个特征作为输入,适用于构建信用违约预测模型。由于所有特征均为数值型且无缺失值,数据预处理阶段可大幅简化,直接进行标准化或归一化后输入机器学习框架。此外,合成数据部分为联邦学习或生成对抗网络(GAN)等隐私保护场景下的算法效果验证提供了天然的测试平台,允许在不暴露真实用户信息的前提下完成模型迭代与性能调优。
背景与挑战
背景概述
在金融科技迅猛发展的时代,信用风险评估作为信贷业务的核心环节,始终是学术界与工业界共同关注的焦点。jlh/home-credit-synthetic-example数据集由Home Credit集团的研究团队创建,旨在为信用评分模型的开发与验证提供标准化的合成数据资源。该数据集模拟了真实信贷申请场景中的多维特征,涵盖借款人的人口统计信息、财务状况、历史信用记录及外部数据源等逾百个变量,并包含明确的违约标签(TARGET)。自发布以来,该数据集因其对隐私保护的严格遵循与对真实数据分布的高度还原,成为信用风险建模领域的重要基准,推动了可解释机器学习、不平衡分类及特征工程等方向的研究进展。
当前挑战
该数据集所解决的领域问题主要集中于信用违约预测中的样本不平衡与高维特征稀疏性,其中违约样本占比极低,导致传统分类器易偏向多数类。构建过程中,挑战在于如何从原始敏感信贷数据中生成合成样本,同时保留真实数据的统计特性与变量间的非线性依赖关系,避免引入伪造模式。此外,合成数据需确保无个人身份信息泄露,并平衡隐私保护与预测效用的冲突,这对生成算法的保真度与鲁棒性提出了严苛要求。
常用场景
经典使用场景
在金融科技与信用风险评估领域,jlh/home-credit-synthetic-example数据集为构建和验证违约预测模型提供了理想起点。该数据集囊括贷款申请人的多维特征,涵盖人口统计信息、收入水平、信贷历史以及外部信用评分等关键指标,尤其适用于训练二分类模型以识别潜在违约风险。研究者常以此数据集为基准,探索特征工程、缺失值处理及类别不平衡等核心问题的解决策略,从而在可控环境中优化模型性能。
解决学术问题
该数据集有效应对了金融风控研究中数据隐私与可用性之间的长期矛盾。通过提供合成数据,它使学者能够在不触及真实客户敏感信息的前提下,开展信用评分算法的比较研究。这解决了因真实数据获取困难而导致的学术进展迟缓问题,促进了可解释人工智能与公平性评估在贷款决策中的应用探索,对构建更稳健、更透明的金融模型具有深远意义。
实际应用
在实际应用中,该数据集可作为金融科技公司内部模型开发与测试的沙盒环境。风控团队可利用其模拟贷款审批流程,快速迭代信用评估算法,降低因模型缺陷带来的资金损失。此外,它还能辅助监管科技领域,用于验证合规性要求的满足程度,确保自动化决策系统在真实部署前经过充分验证,从而提升金融服务的普惠性与安全性。
数据集最近研究
最新研究方向
在金融风控与信用评估领域,合成数据正成为突破真实数据隐私壁垒与样本稀缺瓶颈的关键利器。jlh/home-credit-synthetic-example数据集基于Home Credit信用风险场景构建,包含TARGET标签及百余项反映借款人社会经济特征、资产状况与信用历史的特征变量,为违约预测模型提供了高度仿真的训练素材。当前前沿研究聚焦于利用此类合成数据提升机器学习模型在样本不平衡、冷启动场景下的泛化能力,并与联邦学习、差分隐私等技术结合,在保障数据安全的同时实现模型效能的跃升。该数据集的出现不仅推动了信用评分算法的迭代,更在金融包容性与隐私合规之间开辟了平衡路径,对普惠金融的数字化落地具有深远意义。
以上内容由遇见数据集搜集并总结生成



