private credit-risk datasets from Tajikistan (A1),Uzbekistan (A4),Kazakhstan (A5),Jordan (A6),and Azerbaijan (A9)

Name: private credit-risk datasets from Tajikistan (A1),Uzbekistan (A4),Kazakhstan (A5),Jordan (A6),and Azerbaijan (A9)
Creator: 31zypl.ai,2University of Oxford,3University of Cambridge
Published: 2025-10-10 19:36:49
License: 暂无描述

arXiv2025-10-10 更新2025-11-19 收录

下载链接：

https://github.com/zypl-ai/stabilization_uplift/

下载链接

链接失效反馈

官方服务：

资源简介：

本研究使用了来自塔吉克斯坦、乌兹别克斯坦、哈萨克斯坦、约旦和阿塞拜疆的私人信贷风险评估数据集。这些数据集用于训练和评估机器学习模型在宏观经济冲击下的稳定性。每个数据集都包含信贷风险预测任务，并具有不同程度的类不平衡和宏观经济协变量。实验通过将数据分为冲击前（训练/测试）和冲击后（冲击测试）部分来评估模型性能，并使用合成异常值来增强模型训练。结果表明，添加少量合成异常值可以提高模型在冲击下的稳定性。

This study employs private credit risk assessment datasets sourced from Tajikistan, Uzbekistan, Kazakhstan, Jordan, and Azerbaijan. These datasets are utilized to train and evaluate the stability of machine learning models under macroeconomic shocks. Each dataset is tailored for the credit risk prediction task, featuring varying degrees of class imbalance and including macroeconomic covariates. Experiments evaluate model performance by splitting the data into pre-shock (training/testing) and post-shock (shock test) subsets, and adopt synthetic outliers to augment model training. The results reveal that adding a small number of synthetic outliers can enhance the stability of models under macroeconomic shocks.

提供机构：

31zypl.ai,2University of Oxford,3University of Cambridge

创建时间：

2025-10-10

搜集汇总

数据集介绍

构建方式

在金融风险评估领域，该数据集通过整合塔吉克斯坦、乌兹别克斯坦、哈萨克斯坦、约旦和阿塞拜疆五个发展中国家的私有信贷数据构建而成。采用时间外样本划分与样本外划分相结合的策略，将数据划分为冲击前训练集、测试集与冲击后测试集，其中冲击事件依据实际宏观经济事件如贸易冲突或武装冲突进行界定。通过zGAN生成对抗网络合成具有极端值特征的异常数据点，构建了包含真实数据与合成数据的混合训练集，有效模拟了发展中国家金融市场中常见的分布偏移现象。

特点

该数据集在特征维度上展现出显著的区域异质性，涵盖客户年龄、贷款金额、利率等传统信贷特征，同时整合了汇率、大宗商品价格等宏观经济指标。数据分布呈现出典型的类别不平衡特性，违约率分布在2%至12%之间，反映了发展中经济体信贷市场的真实风险结构。特别值得注意的是，数据集记录了从轻微到显著不等的分布偏移程度，其偏移量范围跨越0.003至0.24，为研究模型在突发经济冲击下的稳定性提供了丰富的实验场景。

使用方法

在模型训练阶段，研究者可采用基准模型与稳定化模型的对比框架，基准模型仅使用冲击前真实数据训练，而稳定化模型则采用真实数据与合成数据各占50%的混合训练集。通过蒙特卡洛方法进行51次数据划分，计算模型在冲击前后测试集上的AUC中位数，进而应用稳定化评分与稳定化提升指标量化模型抗偏移能力。实验表明，适度引入5%-10%的合成异常数据能够显著提升模型在分布偏移条件下的鲁棒性，为发展中国家的金融风险预测提供了有效的稳定性增强方案。

背景与挑战

背景概述

该数据集由zypl.ai与牛津大学、剑桥大学的研究团队于2025年联合构建，聚焦于中亚与高加索地区发展中国家的金融风险预测。核心研究目标在于应对宏观经济冲击导致的模型漂移问题，通过整合塔吉克斯坦、乌兹别克斯坦、哈萨克斯坦、约旦和阿塞拜疆的私有信贷数据，填补了该领域在脆弱经济体中系统性研究的空白。这些数据集通过捕捉地缘政治冲突、贸易波动等突发因素对金融稳定的影响，为构建抗漂移机器学习模型提供了关键实证基础。

当前挑战

在金融风险预测领域，该数据集需解决因汇率突变、武装冲突等外生冲击引发的概念漂移问题，传统模型在此类非平稳环境中表现显著退化。构建过程中面临多重挑战：其一，数据采集需克服发展中国家金融基础设施不完善导致的特征缺失与时序断裂；其二，宏观经济变量如铝价、棉花价格等具有强波动性，要求生成式模型精准重构极端值分布；其三，隐私保护机制需在合成数据生成与原始记录去标识化之间取得平衡，确保数据效用与合规性并存。

常用场景

经典使用场景

在金融风险管理领域，该数据集为研究模型漂移问题提供了关键实证基础。其最经典的应用场景在于评估机器学习模型在宏观经济冲击下的稳定性表现，特别是在塔吉克斯坦、乌兹别克斯坦等发展中国家信贷市场中，通过合成异常值注入技术来模拟突发经济波动对信用评分模型的影响。研究显示，TabPFN和FT-Transformer等先进模型在该数据集上通过5-10%的异常值增强后，稳定度提升值(SU)可达0.9981，显著优于传统基线方法。

实际应用

在实际金融风控场景中，该数据集支撑的稳定化技术已应用于多个中亚国家的信贷决策系统。通过zGAN生成的合成异常值，金融机构能够构建对宏观经济冲击更具韧性的信用风险评估模型。例如在阿塞拜疆的信贷实践中，采用5%异常值增强的TabPFN模型在武装冲突引发的数据分布偏移下仍保持0.9981的稳定度，显著降低了因模型失效导致的坏账风险。这种前瞻性的模型加固策略为发展中经济体的金融科技应用提供了重要技术保障。

衍生相关工作

基于该数据集催生了多项重要研究方向，包括zypl.ai团队开发的zGAN异常值生成框架，以及TabOOD表格离群分布生成方法。在理论层面，研究者们扩展了极端值理论(EVT)在合成数据生成中的应用，建立了基于总变差距离和Kolmogorov-Smirnov统计量的分布偏移量化体系。这些工作共同构成了金融AI领域模型稳定性的研究范式，为后续关于对抗性概念漂移检测、因果可解释性漂移分析等研究奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成