five

jlh/home-credit-synthetic-example

收藏
Hugging Face2023-05-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jlh/home-credit-synthetic-example
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: unknown dataset_info: features: - name: TARGET dtype: float64 - name: NAME_CONTRACT_TYPE dtype: float64 - name: CODE_GENDER dtype: float64 - name: FLAG_OWN_CAR dtype: float64 - name: FLAG_OWN_REALTY dtype: float64 - name: CNT_CHILDREN dtype: float64 - name: AMT_INCOME_TOTAL dtype: float64 - name: AMT_CREDIT dtype: float64 - name: AMT_ANNUITY dtype: float64 - name: AMT_GOODS_PRICE dtype: float64 - name: NAME_TYPE_SUITE dtype: float64 - name: NAME_INCOME_TYPE dtype: float64 - name: NAME_EDUCATION_TYPE dtype: float64 - name: NAME_FAMILY_STATUS dtype: float64 - name: NAME_HOUSING_TYPE dtype: float64 - name: REGION_POPULATION_RELATIVE dtype: float64 - name: DAYS_BIRTH dtype: float64 - name: DAYS_EMPLOYED dtype: float64 - name: DAYS_REGISTRATION dtype: float64 - name: DAYS_ID_PUBLISH dtype: float64 - name: OWN_CAR_AGE dtype: float64 - name: FLAG_MOBIL dtype: float64 - name: FLAG_EMP_PHONE dtype: float64 - name: FLAG_WORK_PHONE dtype: float64 - name: FLAG_CONT_MOBILE dtype: float64 - name: FLAG_PHONE dtype: float64 - name: FLAG_EMAIL dtype: float64 - name: OCCUPATION_TYPE dtype: float64 - name: CNT_FAM_MEMBERS dtype: float64 - name: REGION_RATING_CLIENT dtype: float64 - name: REGION_RATING_CLIENT_W_CITY dtype: float64 - name: WEEKDAY_APPR_PROCESS_START dtype: float64 - name: HOUR_APPR_PROCESS_START dtype: float64 - name: REG_REGION_NOT_LIVE_REGION dtype: float64 - name: REG_REGION_NOT_WORK_REGION dtype: float64 - name: LIVE_REGION_NOT_WORK_REGION dtype: float64 - name: REG_CITY_NOT_LIVE_CITY dtype: float64 - name: REG_CITY_NOT_WORK_CITY dtype: float64 - name: LIVE_CITY_NOT_WORK_CITY dtype: float64 - name: ORGANIZATION_TYPE dtype: float64 - name: EXT_SOURCE_1 dtype: float64 - name: EXT_SOURCE_2 dtype: float64 - name: EXT_SOURCE_3 dtype: float64 - name: APARTMENTS_AVG dtype: float64 - name: BASEMENTAREA_AVG dtype: float64 - name: YEARS_BEGINEXPLUATATION_AVG dtype: float64 - name: YEARS_BUILD_AVG dtype: float64 - name: COMMONAREA_AVG dtype: float64 - name: ELEVATORS_AVG dtype: float64 - name: ENTRANCES_AVG dtype: float64 - name: FLOORSMAX_AVG dtype: float64 - name: FLOORSMIN_AVG dtype: float64 - name: LANDAREA_AVG dtype: float64 - name: LIVINGAPARTMENTS_AVG dtype: float64 - name: LIVINGAREA_AVG dtype: float64 - name: NONLIVINGAPARTMENTS_AVG dtype: float64 - name: NONLIVINGAREA_AVG dtype: float64 - name: APARTMENTS_MODE dtype: float64 - name: BASEMENTAREA_MODE dtype: float64 - name: YEARS_BEGINEXPLUATATION_MODE dtype: float64 - name: YEARS_BUILD_MODE dtype: float64 - name: COMMONAREA_MODE dtype: float64 - name: ELEVATORS_MODE dtype: float64 - name: ENTRANCES_MODE dtype: float64 - name: FLOORSMAX_MODE dtype: float64 - name: FLOORSMIN_MODE dtype: float64 - name: LANDAREA_MODE dtype: float64 - name: LIVINGAPARTMENTS_MODE dtype: float64 - name: LIVINGAREA_MODE dtype: float64 - name: NONLIVINGAPARTMENTS_MODE dtype: float64 - name: NONLIVINGAREA_MODE dtype: float64 - name: APARTMENTS_MEDI dtype: float64 - name: BASEMENTAREA_MEDI dtype: float64 - name: YEARS_BEGINEXPLUATATION_MEDI dtype: float64 - name: YEARS_BUILD_MEDI dtype: float64 - name: COMMONAREA_MEDI dtype: float64 - name: ELEVATORS_MEDI dtype: float64 - name: ENTRANCES_MEDI dtype: float64 - name: FLOORSMAX_MEDI dtype: float64 - name: FLOORSMIN_MEDI dtype: float64 - name: LANDAREA_MEDI dtype: float64 - name: LIVINGAPARTMENTS_MEDI dtype: float64 - name: LIVINGAREA_MEDI dtype: float64 - name: NONLIVINGAPARTMENTS_MEDI dtype: float64 - name: NONLIVINGAREA_MEDI dtype: float64 - name: FONDKAPREMONT_MODE dtype: float64 - name: HOUSETYPE_MODE dtype: float64 - name: TOTALAREA_MODE dtype: float64 - name: WALLSMATERIAL_MODE dtype: float64 - name: EMERGENCYSTATE_MODE dtype: float64 - name: OBS_30_CNT_SOCIAL_CIRCLE dtype: float64 - name: DEF_30_CNT_SOCIAL_CIRCLE dtype: float64 - name: OBS_60_CNT_SOCIAL_CIRCLE dtype: float64 - name: DEF_60_CNT_SOCIAL_CIRCLE dtype: float64 - name: DAYS_LAST_PHONE_CHANGE dtype: float64 - name: FLAG_DOCUMENT_2 dtype: float64 - name: FLAG_DOCUMENT_3 dtype: float64 - name: FLAG_DOCUMENT_4 dtype: float64 - name: FLAG_DOCUMENT_5 dtype: float64 - name: FLAG_DOCUMENT_6 dtype: float64 - name: FLAG_DOCUMENT_7 dtype: float64 - name: FLAG_DOCUMENT_8 dtype: float64 - name: FLAG_DOCUMENT_9 dtype: float64 - name: FLAG_DOCUMENT_10 dtype: float64 - name: FLAG_DOCUMENT_11 dtype: float64 - name: FLAG_DOCUMENT_12 dtype: float64 - name: FLAG_DOCUMENT_13 dtype: float64 - name: FLAG_DOCUMENT_14 dtype: float64 - name: FLAG_DOCUMENT_15 dtype: float64 - name: FLAG_DOCUMENT_16 dtype: float64 - name: FLAG_DOCUMENT_17 dtype: float64 - name: FLAG_DOCUMENT_18 dtype: float64 - name: FLAG_DOCUMENT_19 dtype: float64 - name: FLAG_DOCUMENT_20 dtype: float64 - name: FLAG_DOCUMENT_21 dtype: float64 - name: AMT_REQ_CREDIT_BUREAU_HOUR dtype: float64 - name: AMT_REQ_CREDIT_BUREAU_DAY dtype: float64 - name: AMT_REQ_CREDIT_BUREAU_WEEK dtype: float64 - name: AMT_REQ_CREDIT_BUREAU_MON dtype: float64 - name: AMT_REQ_CREDIT_BUREAU_QRT dtype: float64 - name: AMT_REQ_CREDIT_BUREAU_YEAR dtype: float64 splits: - name: real num_bytes: 9680000 num_examples: 10000 - name: synth num_bytes: 9680000 num_examples: 10000 download_size: 1688004 dataset_size: 19360000 ---
提供机构:
jlh
原始信息汇总

数据集概述

数据集特征

  • TARGET:目标变量,数据类型为float64
  • NAME_CONTRACT_TYPE:合同类型,数据类型为float64
  • CODE_GENDER:性别代码,数据类型为float64
  • FLAG_OWN_CAR:是否拥有汽车,数据类型为float64
  • FLAG_OWN_REALTY:是否拥有房产,数据类型为float64
  • CNT_CHILDREN:子女数量,数据类型为float64
  • AMT_INCOME_TOTAL:总收入,数据类型为float64
  • AMT_CREDIT:信用额度,数据类型为float64
  • AMT_ANNUITY:年金,数据类型为float64
  • AMT_GOODS_PRICE:商品价格,数据类型为float64
  • NAME_TYPE_SUITE:套房类型,数据类型为float64
  • NAME_INCOME_TYPE:收入类型,数据类型为float64
  • NAME_EDUCATION_TYPE:教育类型,数据类型为float64
  • NAME_FAMILY_STATUS:家庭状态,数据类型为float64
  • NAME_HOUSING_TYPE:住房类型,数据类型为float64
  • REGION_POPULATION_RELATIVE:相对地区人口,数据类型为float64
  • DAYS_BIRTH:出生天数,数据类型为float64
  • DAYS_EMPLOYED:就业天数,数据类型为float64
  • DAYS_REGISTRATION:注册天数,数据类型为float64
  • DAYS_ID_PUBLISH:身份证发布天数,数据类型为float64
  • OWN_CAR_AGE:汽车拥有年龄,数据类型为float64
  • FLAG_MOBIL:移动电话标志,数据类型为float64
  • FLAG_EMP_PHONE:工作电话标志,数据类型为float64
  • FLAG_WORK_PHONE:工作电话标志,数据类型为float64
  • FLAG_CONT_MOBILE:移动电话连续标志,数据类型为float64
  • FLAG_PHONE:电话标志,数据类型为float64
  • FLAG_EMAIL:电子邮件标志,数据类型为float64
  • OCCUPATION_TYPE:职业类型,数据类型为float64
  • CNT_FAM_MEMBERS:家庭成员数量,数据类型为float64
  • REGION_RATING_CLIENT:客户地区评级,数据类型为float64
  • REGION_RATING_CLIENT_W_CITY:带城市的客户地区评级,数据类型为float64
  • WEEKDAY_APPR_PROCESS_START:申请处理开始的工作日,数据类型为float64
  • HOUR_APPR_PROCESS_START:申请处理开始的小时,数据类型为float64
  • REG_REGION_NOT_LIVE_REGION:注册地区与居住地区不一致,数据类型为float64
  • REG_REGION_NOT_WORK_REGION:注册地区与工作地区不一致,数据类型为float64
  • LIVE_REGION_NOT_WORK_REGION:居住地区与工作地区不一致,数据类型为float64
  • REG_CITY_NOT_LIVE_CITY:注册城市与居住城市不一致,数据类型为float64
  • REG_CITY_NOT_WORK_CITY:注册城市与工作城市不一致,数据类型为float64
  • LIVE_CITY_NOT_WORK_CITY:居住城市与工作城市不一致,数据类型为float64
  • ORGANIZATION_TYPE:组织类型,数据类型为float64
  • EXT_SOURCE_1:外部源1,数据类型为float64
  • EXT_SOURCE_2:外部源2,数据类型为float64
  • EXT_SOURCE_3:外部源3,数据类型为float64
  • APARTMENTS_AVG:公寓平均数,数据类型为float64
  • BASEMENTAREA_AVG:地下室面积平均值,数据类型为float64
  • YEARS_BEGINEXPLUATATION_AVG:开始运营年数平均值,数据类型为float64
  • YEARS_BUILD_AVG:建筑年数平均值,数据类型为float64
  • COMMONAREA_AVG:公共区域面积平均值,数据类型为float64
  • ELEVATORS_AVG:电梯平均数,数据类型为float64
  • ENTRANCES_AVG:入口平均数,数据类型为float64
  • FLOORSMAX_AVG:最大楼层数平均值,数据类型为float64
  • FLOORSMIN_AVG:最小楼层数平均值,数据类型为float64
  • LANDAREA_AVG:土地面积平均值,数据类型为float64
  • LIVINGAPARTMENTS_AVG:居住公寓平均数,数据类型为float64
  • LIVINGAREA_AVG:居住面积平均值,数据类型为float64
  • NONLIVINGAPARTMENTS_AVG:非居住公寓平均数,数据类型为float64
  • NONLIVINGAREA_AVG:非居住面积平均值,数据类型为float64
  • APARTMENTS_MODE:公寓众数,数据类型为float64
  • BASEMENTAREA_MODE:地下室面积众数,数据类型为float64
  • YEARS_BEGINEXPLUATATION_MODE:开始运营年数众数,数据类型为float64
  • YEARS_BUILD_MODE:建筑年数众数,数据类型为float64
  • COMMONAREA_MODE:公共区域面积众数,数据类型为float64
  • ELEVATORS_MODE:电梯众数,数据类型为float64
  • ENTRANCES_MODE:入口众数,数据类型为float64
  • FLOORSMAX_MODE:最大楼层数众数,数据类型为float64
  • FLOORSMIN_MODE:最小楼层数众数,数据类型为float64
  • LANDAREA_MODE:土地面积众数,数据类型为float64
  • LIVINGAPARTMENTS_MODE:居住公寓众数,数据类型为float64
  • LIVINGAREA_MODE:居住面积众数,数据类型为float64
  • NONLIVINGAPARTMENTS_MODE:非居住公寓众数,数据类型为float64
  • NONLIVINGAREA_MODE:非居住面积众数,数据类型为float64
  • APARTMENTS_MEDI:公寓中位数,数据类型为float64
  • BASEMENTAREA_MEDI:地下室面积中位数,数据类型为float64
  • YEARS_BEGINEXPLUATATION_MEDI:开始运营年数中位数,数据类型为float64
  • YEARS_BUILD_MEDI:建筑年数中位数,数据类型为float64
  • COMMONAREA_MEDI:公共区域面积中位数,数据类型为float64
  • ELEVATORS_MEDI:电梯中位数,数据类型为float64
  • ENTRANCES_MEDI:入口中位数,数据类型为float64
  • FLOORSMAX_MEDI:最大楼层数中位数,数据类型为float64
  • FLOORSMIN_MEDI:最小楼层数中位数,数据类型为float64
  • LANDAREA_MEDI:土地面积中位数,数据类型为float64
  • LIVINGAPARTMENTS_MEDI:居住公寓中位数,数据类型为float64
  • LIVINGAREA_MEDI:居住面积中位数,数据类型为float64
  • NONLIVINGAPARTMENTS_MEDI:非居住公寓中位数,数据类型为float64
  • NONLIVINGAREA_MEDI:非居住面积中位数,数据类型为float64
  • FONDKAPREMONT_MODE:维修基金众数,数据类型为float64
  • HOUSETYPE_MODE:房屋类型众数,数据类型为float64
  • TOTALAREA_MODE:总面积众数,数据类型为float64
  • WALLSMATERIAL_MODE:墙体材料众数,数据类型为float64
  • EMERGENCYSTATE_MODE:紧急状态众数,数据类型为float64
  • OBS_30_CNT_SOCIAL_CIRCLE:过去30天社交圈观察次数,数据类型为float64
  • DEF_30_CNT_SOCIAL_CIRCLE:过去30天社交圈违约次数,数据类型为float64
  • OBS_60_CNT_SOCIAL_CIRCLE:过去60天社交圈观察次数,数据类型为float64
  • DEF_60_CNT_SOCIAL_CIRCLE:过去60天社交圈违约次数,数据类型为float64
  • DAYS_LAST_PHONE_CHANGE:上次电话变更天数,数据类型为float64
  • FLAG_DOCUMENT_2:文档2标志,数据类型为float64
  • FLAG_DOCUMENT_3:文档3标志,数据类型为float64
  • FLAG_DOCUMENT_4:文档4标志,数据类型为float64
  • FLAG_DOCUMENT_5:文档5标志,数据类型为float64
  • FLAG_DOCUMENT_6:文档6标志,数据类型为float64
  • FLAG_DOCUMENT_7:文档7标志,数据类型为float64
  • FLAG_DOCUMENT_8:文档8标志,数据类型为float64
  • FLAG_DOCUMENT_9:文档9标志,数据类型为float64
  • FLAG_DOCUMENT_10:文档10标志,数据类型为float64
  • FLAG_DOCUMENT_11:文档11标志,数据类型为float64
  • FLAG_DOCUMENT_12:文档12标志,数据类型为float64
  • FLAG_DOCUMENT_13:文档13标志,数据类型为float64
  • FLAG_DOCUMENT_14:文档14标志,数据类型为float64
  • FLAG_DOCUMENT_15:文档15标志,数据类型为float64
  • FLAG_DOCUMENT_16:文档16标志,数据类型为float64
  • FLAG_DOCUMENT_17:文档17标志,数据类型为float64
  • FLAG_DOCUMENT_18:文档18标志,数据类型为float64
  • FLAG_DOCUMENT_19:文档19标志,数据类型为float64
  • FLAG_DOCUMENT_20:文档20标志,数据类型为float64
  • FLAG_DOCUMENT_21:文档21标志,数据类型为float64
  • AMT_REQ_CREDIT_BUREAU_HOUR:每小时向信用局请求的金额,数据类型为float64
  • AMT_REQ_CREDIT_BUREAU_DAY:每天向信用局请求的金额,数据类型为float64
  • AMT_REQ_CREDIT_BUREAU_WEEK:每周向信用局请求的金额,数据类型为float64
  • AMT_REQ_CREDIT_BUREAU_MON:每月向信用局请求的金额,数据类型为float64
  • AMT_REQ_CREDIT_BUREAU_QRT:每季度向信用局请求的金额,数据类型为float64
  • AMT_REQ_CREDIT_BUREAU_YEAR:每年向信用局请求的金额,数据类型为float64

数据集大小

  • 下载大小:1688004字节。
  • 数据集大小:19360000字节。

数据集分割

  • real:实际数据集,大小为9680000字节,包含10000个示例。
  • synth:合成数据集,大小为9680000字节,包含10000个示例。
搜集汇总
数据集介绍
main_image_url
构建方式
在信贷风控领域,高质量且隐私合规的数据集是模型研发的基石。该数据集基于Home Credit公开竞赛的真实数据框架,采用合成技术构建,旨在复刻原始数据的关键统计特征与变量间的复杂关联。数据集包含10000条真实样本与10000条合成样本,两者在特征维度上完全对齐,涵盖TARGET标签、合同类型、性别、车辆与房产拥有情况、收入与信贷金额、教育程度、职业类型、居住与工作区域关联、外部信用评分来源、房产属性(如面积、建造年份、楼层数)、社交圈逾期观察计数、证件变更天数、文件标志位以及征信查询频率等逾百个数值型特征,所有字段均统一为float64格式,确保了数据类型的简洁与兼容性。
使用方法
研究者可直接通过HuggingFace Datasets库加载该数据集,利用'real'与'synth'两个分割分别进行模型训练与隐私风险评估。在使用中,建议将TARGET列作为二分类目标变量,其余122个特征作为输入,适用于构建信用违约预测模型。由于所有特征均为数值型且无缺失值,数据预处理阶段可大幅简化,直接进行标准化或归一化后输入机器学习框架。此外,合成数据部分为联邦学习或生成对抗网络(GAN)等隐私保护场景下的算法效果验证提供了天然的测试平台,允许在不暴露真实用户信息的前提下完成模型迭代与性能调优。
背景与挑战
背景概述
在金融科技迅猛发展的时代,信用风险评估作为信贷业务的核心环节,始终是学术界与工业界共同关注的焦点。jlh/home-credit-synthetic-example数据集由Home Credit集团的研究团队创建,旨在为信用评分模型的开发与验证提供标准化的合成数据资源。该数据集模拟了真实信贷申请场景中的多维特征,涵盖借款人的人口统计信息、财务状况、历史信用记录及外部数据源等逾百个变量,并包含明确的违约标签(TARGET)。自发布以来,该数据集因其对隐私保护的严格遵循与对真实数据分布的高度还原,成为信用风险建模领域的重要基准,推动了可解释机器学习、不平衡分类及特征工程等方向的研究进展。
当前挑战
该数据集所解决的领域问题主要集中于信用违约预测中的样本不平衡与高维特征稀疏性,其中违约样本占比极低,导致传统分类器易偏向多数类。构建过程中,挑战在于如何从原始敏感信贷数据中生成合成样本,同时保留真实数据的统计特性与变量间的非线性依赖关系,避免引入伪造模式。此外,合成数据需确保无个人身份信息泄露,并平衡隐私保护与预测效用的冲突,这对生成算法的保真度与鲁棒性提出了严苛要求。
常用场景
经典使用场景
在金融科技与信用风险评估领域,jlh/home-credit-synthetic-example数据集为构建和验证违约预测模型提供了理想起点。该数据集囊括贷款申请人的多维特征,涵盖人口统计信息、收入水平、信贷历史以及外部信用评分等关键指标,尤其适用于训练二分类模型以识别潜在违约风险。研究者常以此数据集为基准,探索特征工程、缺失值处理及类别不平衡等核心问题的解决策略,从而在可控环境中优化模型性能。
解决学术问题
该数据集有效应对了金融风控研究中数据隐私与可用性之间的长期矛盾。通过提供合成数据,它使学者能够在不触及真实客户敏感信息的前提下,开展信用评分算法的比较研究。这解决了因真实数据获取困难而导致的学术进展迟缓问题,促进了可解释人工智能与公平性评估在贷款决策中的应用探索,对构建更稳健、更透明的金融模型具有深远意义。
实际应用
在实际应用中,该数据集可作为金融科技公司内部模型开发与测试的沙盒环境。风控团队可利用其模拟贷款审批流程,快速迭代信用评估算法,降低因模型缺陷带来的资金损失。此外,它还能辅助监管科技领域,用于验证合规性要求的满足程度,确保自动化决策系统在真实部署前经过充分验证,从而提升金融服务的普惠性与安全性。
数据集最近研究
最新研究方向
在金融风控与信用评估领域,合成数据正成为突破真实数据隐私壁垒与样本稀缺瓶颈的关键利器。jlh/home-credit-synthetic-example数据集基于Home Credit信用风险场景构建,包含TARGET标签及百余项反映借款人社会经济特征、资产状况与信用历史的特征变量,为违约预测模型提供了高度仿真的训练素材。当前前沿研究聚焦于利用此类合成数据提升机器学习模型在样本不平衡、冷启动场景下的泛化能力,并与联邦学习、差分隐私等技术结合,在保障数据安全的同时实现模型效能的跃升。该数据集的出现不仅推动了信用评分算法的迭代,更在金融包容性与隐私合规之间开辟了平衡路径,对普惠金融的数字化落地具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作