mllab/alfa_bki

Name: mllab/alfa_bki
Creator: mllab
Published: 2023-11-14 15:09:41
License: 暂无描述

Hugging Face2023-11-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mllab/alfa_bki

下载链接

链接失效反馈

官方服务：

资源简介：

Alfa BKI是一个高质量的数据集，数据来源于俄罗斯信用历史局（БКИ）。该数据集包含了与信用产品相关的历史记录以及贷款申请人的违约情况。数据集的主要用途是训练模型，用于预测贷款申请人是否会违约。数据集的结构包括数据实例和数据字段，其中数据实例展示了每个样本的详细信息，数据字段则描述了每个字段的具体含义。

Alfa BKI is a high-quality dataset derived from the Russian Credit History Bureau (БКИ). This dataset contains historical records related to credit products and the default status of loan applicants. Its primary purpose is to train models for predicting whether a loan applicant will default. The structure of the dataset includes data instances and data fields: data instances present detailed information for each individual sample, while data fields elaborate on the specific meanings of each field.

提供机构：

mllab

原始信息汇总

数据集概述

Alfa BKI是一个独特的高质量数据集，收集自信用历史局（俄语：бюро кредитных историй/БКИ）的真实数据源。它包含了相应的信用产品和申请人贷款违约的历史记录。

支持的任务和排行榜

该数据集旨在用于训练模型，以预测申请人的贷款违约情况。

数据集结构

数据实例

以下是一个样本的示例：

json { app_id: 0, history: [ [ 0, 1, 18, 9, 2, 3, 16, 10, 11, 3, 3, 0, 2, 11, 6, 16, 5, 4, 8, 1, 1, 1, 1, 1, 16, 2, 17, 1, 1, 1, 0, 0, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 3, 3, 3, 3, 3, 3, 3, 3, 4, 3, 3, 3, 4, 1, 3, 4, 1, 0, 0 ], [ 0, 2, 18, 9, 14, 14, 12, 12, 0, 3, 3, 0, 2, 11, 6, 16, 5, 4, 8, 1, 1, 1, 1, 1, 16, 2, 17, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 4, 1, 3, 4, 1, 0, 0 ], [ 0, 3, 18, 9, 4, 8, 1, 11, 11, 0, 5, 0, 2, 8, 6, 16, 5, 4, 8, 1, 1, 1, 1, 1, 15, 2, 17, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 4, 1, 2, 3, 1, 1, 1 ], [ 0, 4, 4, 1, 9, 12, 16, 7, 12, 2, 3, 0, 2, 4, 6, 16, 5, 4, 8, 0, 1, 1, 1, 1, 16, 2, 17, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 3, 3, 3, 3, 3, 3, 3, 3, 4, 3, 3, 3, 4, 1, 3, 1, 1, 0, 0 ], [ 0, 5, 5, 12, 15, 2, 11, 12, 10, 2, 3, 0, 2, 4, 6, 16, 5, 4, 8, 1, 1, 1, 1, 1, 16, 2, 17, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 3, 3, 3, 3, 4, 3, 3, 3, 3, 3, 3, 3, 3, 4, 3, 3, 3, 4, 1, 3, 4, 1, 0, 0 ], [ 0, 6, 5, 0, 11, 8, 12, 11, 4, 2, 3, 0, 2, 4, 6, 16, 5, 4, 8, 1, 1, 1, 1, 1, 9, 5, 4, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 3, 4, 3, 3, 3, 4, 1, 2, 3, 1, 0, 1 ], [ 0, 7, 3, 9, 1, 2, 12, 14, 15, 5, 3, 0, 2, 3, 6, 16, 5, 4, 8, 1, 1, 1, 1, 1, 16, 2, 17, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 3, 3, 3, 4, 3, 3, 3, 3, 3, 3, 3, 3, 4, 3, 3, 3, 4, 1, 3, 4, 1, 0, 0 ], [ 0, 8, 2, 9, 2, 3, 12, 14, 15, 5, 3, 0, 2, 13, 6, 16, 5, 4, 8, 1, 1, 1, 1, 1, 16, 2, 17, 1, 1, 1, 0, 0, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 3, 3, 3, 3, 3, 3, 3, 3, 4, 3, 3, 3, 4, 1, 3, 4, 1, 0, 0 ], [ 0, 9, 1, 9, 11, 13, 14, 8, 2, 5, 1, 0, 2, 11, 6, 16, 5, 4, 8, 1, 1, 1, 1, 1, 1, 2, 17, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 3, 3, 3, 3, 3, 3, 4, 3, 3, 3, 4, 1, 2, 4, 1, 0, 0 ], [ 0, 10, 7, 9, 2, 10, 8, 8, 16, 4, 2, 0, 2, 11, 6, 16, 5, 4, 8, 1, 1, 1, 1, 1, 15, 2, 17, 0, 1, 1, 0, 0, 0, 0, 0, 0, 3, 3, 3, 3, 3, 4, 3, 3, 3, 3, 3, 3, 3, 3, 4, 3, 3, 3, 4, 1, 2, 4, 1, 0, 0 ] ], flag: 0 }

数据字段

id: 申请ID。
history: 一个交易数组，其中每个信用产品表示为一个37维数组，数组的每个元素表示以下列表中的相应特征：
- id: 申请ID。
- rn: 信用历史中信用产品的序列号。
- pre_since_opened: 从贷款开立日期到数据收集日期的天数。
- pre_since_confirmed: 从贷款信息确认日期到数据收集日期的天数。
- pre_pterm: 从贷款开立日期到贷款关闭日期的计划天数。
- pre_fterm: 从贷款开立日期到贷款关闭日期的实际天数。
- pre_till_pclose: 从数据收集日期到贷款关闭日期的计划天数。
- pre_till_fclose: 从数据收集日期到贷款关闭日期的实际天数。
- pre_loans_credit_limit: 信用额度。
- pre_loans_next_pay_summ: 下一个贷款还款金额。
- pre_loans_outstanding: 剩余未付贷款金额。
- pre_loans_total_overdue: 当前逾期债务。
- pre_loans_max_overdue_sum: 最大逾期债务。
- pre_loans_credit_cost_rate: 贷款的全成本。
- pre_loans5: 延迟5天以内的次数。
- pre_loans530: 延迟5到30天的次数。
- pre_loans3060: 延迟30到60天的次数。
- pre_loans6090: 延迟60到90天的次数。
- pre_loans90: 延迟超过90天的次数。
- is_zero_loans_5: 标志：没有延迟5天以内。
- is_zero_loans_530: 标志：没有延迟5到30天。
- is_zero_loans_3060: 标志：没有延迟30到60天。
- is_zero_loans_6090: 标志：没有延迟60到90天。
- is_zero_loans90: 标志：没有延迟超过90天。
- pre_util: 剩余未付贷款金额与信用额度的比率。
- pre_over2limit: 当前逾期债务与信用额度的比率。
- pre_maxover2limit: 最大逾期债务与信用额度的比率。
- is_zero_util: 标志：剩余未付贷款金额与信用额度的比率为0。
- is_zero_over2limit: 标志：当前逾期债务与信用额度的比率为0。
- is_zero_maxover2limit: 标志：最大逾期债务与信用额度的比率为0。
- enc_paym_{0..n}: 过去n个月的每月还款状态。
- enc_loans_account_holder_type: 对信用的态度类型。
- enc_loans_credit_status: 贷款状态。
- enc_loans_account_cur: 贷款货币。
- enc_loans_credit_type: 贷款类型。
- pclose_flag: 标志：从贷款开立日期到贷款关闭日期的计划天数未定义。
- fclose_flag: 标志：从贷款开立日期到贷款关闭日期的实际天数未确定。
flag: 目标，1 – 客户已违约。

搜集汇总

数据集介绍

构建方式

在金融风控领域，信贷违约预测是银行与金融机构的核心课题。Alfa BKI数据集源自俄罗斯信贷历史局（BKI）的真实数据源，旨在为违约预测模型提供高质量的训练素材。该数据集以申请者（app_id）为基本单元，每个样本包含一个历史交易数组（history），其中每一条记录代表一个信贷产品，以37维向量的形式呈现。这些向量涵盖了从贷款开立天数、信用额度、逾期金额到月度还款状态等详尽特征，并辅以标志性字段（flag）指示客户是否发生违约。通过将真实信贷事件序列化并结构化，该数据集构建了一种可复现的时序金融样本，为模型学习违约模式奠定了坚实基础。

特点

Alfa BKI数据集具有鲜明的领域特色与结构优势。其数据规模介于100万至1000万之间，属于大规模时序金融数据集，能够支撑深度学习模型的有效训练。核心特点在于其以信贷产品为单位的序列化历史记录，每个申请者的历史数组长度可变，真实模拟了多笔贷款交织的复杂信用行为。特征维度丰富，涵盖时间、金额、逾期频次、利用率及状态标志等多类指标，尤其通过预定义的特征索引（如pre_since_opened、pre_loans_outstanding）实现了对信贷生命周期的细粒度刻画。此外，目标变量flag以二值形式明确标记违约事实，为监督学习任务提供了清晰的优化方向。

使用方法

该数据集专为银行违约预测任务设计，可直接用于训练分类或时序模型。使用时，需将每个样本的history数组作为输入特征序列，其维度为（信贷产品数量, 37），而flag字段则作为二分类标签。研究者可依据应用场景对特征进行归一化或降维处理，亦可利用时间序列模型（如LSTM或Transformer）捕捉贷款间的动态依赖关系。数据已按HuggingFace标准格式组织，支持通过datasets库直接加载，便于集成至现有机器学习流水线。建议在训练前对缺失值或异常特征（如pclose_flag）进行预处理，以提升模型在真实信贷环境中的泛化能力。

背景与挑战

背景概述

在金融科技迅猛发展的当下，信用风险评估作为银行与金融机构的核心业务之一，其精准性直接关系到信贷资产的质量与系统性金融风险的防控。mllab/alfa_bki数据集应运而生，由俄罗斯研究团队基于真实信贷历史局（Бюро кредитных историй/БКИ）的数据源精心构建，旨在为违约预测这一经典金融任务提供高质量的训练素材。该数据集记录了海量申请人的信贷产品历史及其违约状态，其时间序列结构能够捕捉借款人行为随时间的动态演变，为深度学习模型在信用评分领域的应用开辟了新的可能。自发布以来，Alfa BKI凭借其真实性与规模优势，已成为俄罗斯乃至东欧地区金融AI研究的重要基准，推动了从传统统计模型向复杂序列模型过渡的进程。

当前挑战

Alfa BKI数据集所面临的挑战首先体现在其核心任务——违约预测的固有复杂性上。信贷历史中的违约事件往往受宏观经济波动、政策调整及个体非理性行为等多重因素交织影响，单纯依赖历史交易序列难以准确捕捉非线性因果关系，模型容易陷入过拟合或欠拟合的困境。其次，在数据集构建过程中，原始信贷数据存在显著的类别不平衡问题，违约样本占比极低，这要求研究者采用重采样、代价敏感学习或生成对抗网络等高级技术来缓解偏差。此外，数据中特征维度高达37维，且包含大量稀疏编码与缺失值标志，如何有效进行特征工程与降维，同时保留时间依赖性，成为建模过程中的关键瓶颈。最后，隐私合规与数据脱敏的严格要求，使得原始特征经过匿名化处理，进一步增加了模型可解释性与泛化能力的挑战。

常用场景

经典使用场景

Alfa BKI数据集源自俄罗斯征信局的真实信贷记录，为时序金融数据研究提供了宝贵资源。其经典使用场景聚焦于构建客户违约预测模型，通过分析贷款产品历史序列中的多维特征（如还款延迟、信用利用率、逾期比率等），利用深度学习或梯度提升方法捕捉动态信用行为模式，从而实现对借款人违约风险的精准评估。

解决学术问题

该数据集有效解决了信贷风控领域中的样本稀疏性与时序依赖性难题。学术研究中，它被用于探索如何从高维、异构的信贷历史数据中提取可泛化的违约信号，突破传统静态评分卡的局限性。其意义在于推动了时序信用评分模型的发展，为量化金融与机器学习交叉领域提供了基准测试平台，显著提升了违约预测的理论边界。

衍生相关工作

该数据集衍生了一系列经典工作，包括基于Transformer的时序信用编码器、对比学习框架下的违约预训练模型，以及融合图神经网络的信贷关联分析。研究者还利用它验证了多任务学习在同时预测违约概率与逾期严重程度上的有效性，并催生了可解释性方法（如注意力权重可视化）以揭示关键风险因子，推动了可信任AI在金融监管中的应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集