yuweiyin/FinBench

Name: yuweiyin/FinBench
Creator: yuweiyin
Published: 2023-08-02 01:02:19
License: 暂无描述

Hugging Face2023-08-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/yuweiyin/FinBench

下载链接

链接失效反馈

官方服务：

资源简介：

FinBench是一个用于评估机器学习模型性能的基准数据集，它结合了表格数据输入和概要文本输入。该数据集从Kaggle平台收集了数百个金融数据集，并筛选出十个高质量数据集用于金融风险预测，包括违约、欺诈和客户流失三种风险类型。数据集结构化处理，提供统一的数据结构，并通过HuggingFace平台提供易于加载的API。此外，数据集详细记录了任务描述、数据集名称、分类类别数量、特征数量以及训练、验证和测试集的正例比例等信息。

提供机构：

yuweiyin

原始信息汇总

数据集概述

数据集名称: FinBench

许可证: cc-by-nc-4.0

任务类别:

表格分类
文本分类

大小类别: 0.3M<n<1M

数据集统计

FinBench 是一个用于评估机器学习模型性能的基准，结合了表格数据输入和用户档案文本输入。该数据集从Kaggle平台收集了数百个金融数据集，筛选出十个高质量数据集用于金融风险预测。筛选标准包括数据量、流行度、列的意义性以及基线模型在这些数据集上的表现。

FinBench 包含三种类型的金融风险：违约、欺诈和流失。数据集经过统一的数据结构处理，并提供了一个易于加载的API。

任务统计

任务	描述	数据集	类别数	特征数	训练集 [正例%]	验证集 [正例%]	测试集 [正例%]
Credit-card Default	预测用户是否会违约信用卡	`cd1`	2	9	2738 [7.0%]	305 [6.9%]	1305 [6.2%]
		`cd2`	2	23	18900 [22.3%]	2100 [22.3%]	9000 [21.8%]
Loan Default	预测用户是否会违约贷款	`ld1`	2	12	2118 [8.9%]	236 [8.5%]	1010 [9.0%]
		`ld2`	2	11	18041 [21.7%]	2005 [20.8%]	8592 [21.8%]
		`ld3`	2	35	142060 [21.6%]	15785 [21.3%]	67648 [22.1%]
Credit-card Fraud	预测用户是否会进行欺诈	`cf1`	2	19	5352 [0.67%]	595 [1.1%]	2550 [0.90%]
		`cf2`	2	120	5418 [6.0%]	603 [7.3%]	2581 [6.0%]
Customer Churn	预测用户是否会流失（客户流失）	`cc1`	2	9	4189 [23.5%]	466 [22.7%]	1995 [22.4%]
		`cc2`	2	10	6300 [20.8%]	700 [20.6%]	3000 [19.47%]
		`cc3`	2	21	4437 [26.1%]	493 [24.9%]	2113 [27.8%]

数据来源

任务	数据集	来源
Credit-card Default	`cd1`	Kaggle
	`cd2`	Kaggle
Loan Default	`ld1`	Kaggle
	`ld2`	Kaggle
	`ld3`	Kaggle
Credit-card Fraud	`cf1`	Kaggle
	`cf2`	Kaggle
Customer Churn	`cc1`	Kaggle
	`cc2`	Kaggle
	`cc3`	Kaggle

数据集结构

数据集包含以下字段：

X_ml: 表格数据数组
X_ml_unscale: 缩放后的表格数据数组
y: 标签/真实值
num_classes: 类别总数
num_features: 特征总数
num_idx: 数值数据类型列的索引
cat_idx: 分类数据类型列的索引
cat_dim: 每个分类列的维度
cat_str: 分类列的类别名称
col_name: 列名
X_instruction_for_profile: 用于构建用户档案的指令
X_profile: 通过LLMs构建的用户档案

搜集汇总

数据集介绍

构建方式

FinBench数据集的构建始于从Kaggle平台收集数百个金融数据集，随后通过严格的筛选标准，选出十个高质量的数据集用于金融风险预测。筛选标准包括数据集的数量、受欢迎程度、列的意义以及基线模型在这些数据集上的表现。FinBench涵盖了三种金融风险：违约、欺诈和客户流失。所有数据集被统一处理为一致的数据结构，并在HuggingFace平台上提供便捷的API加载接口。

使用方法

使用FinBench数据集时，用户可以通过HuggingFace的load_dataset函数轻松加载所需的数据集。数据集提供了详细的字段信息，包括表格数据、标签、特征数量等，便于用户进行模型训练和评估。此外，数据集还支持对训练、验证和测试集的分别加载，方便用户进行交叉验证和模型测试。

背景与挑战

背景概述

FinBench，由Yuwei Yin等人于2023年创建，是一个专注于金融风险预测的基准数据集。该数据集整合了来自Kaggle平台的数百个金融数据集，经过严格筛选，最终选择了十个高质量数据集，涵盖了信用卡违约、贷款违约、信用卡欺诈和客户流失等三种主要金融风险。FinBench的构建旨在评估机器学习模型在处理表格数据和用户文本输入时的性能，为金融领域的风险预测提供了统一的评估标准。该数据集的发布不仅推动了金融风险预测技术的发展，也为相关领域的研究提供了宝贵的资源。

当前挑战

FinBench在构建过程中面临多项挑战。首先，数据集的筛选过程复杂，需考虑数据的数量、流行度、列的含义清晰度以及基线模型在这些数据集上的表现。其次，金融数据的敏感性和复杂性要求数据处理过程必须高度标准化和安全，以确保数据的准确性和可靠性。此外，数据集中涉及的金融风险预测任务，如信用卡违约和客户流失预测，本身具有高度的不平衡性和复杂性，这对模型的训练和评估提出了更高的要求。最后，如何有效地整合表格数据和用户文本输入，以提升模型的预测能力，也是FinBench面临的重要挑战。

常用场景

经典使用场景

在金融风险预测领域，FinBench数据集的经典使用场景主要集中在信用风险评估、贷款违约预测、信用卡欺诈检测以及客户流失分析等方面。通过整合来自Kaggle的高质量金融数据，FinBench为研究人员和从业者提供了一个统一的框架，用于训练和评估机器学习模型在不同金融风险预测任务中的表现。

解决学术问题

FinBench数据集解决了金融领域中常见的学术研究问题，如数据异质性、样本不平衡以及特征工程的复杂性。通过提供标准化和结构化的数据集，FinBench有助于推动金融风险预测模型的研究，特别是在处理多源数据和多任务学习方面，为学术界提供了宝贵的资源和基准。

实际应用

在实际应用中，FinBench数据集被广泛用于金融机构的风险管理、信用评分系统、反欺诈检测以及客户关系管理等场景。通过利用FinBench提供的丰富数据和预处理工具，金融机构能够更准确地预测和防范潜在的金融风险，从而提升业务运营的效率和安全性。

数据集最近研究