five

yuweiyin/FinBench|金融风险预测数据集|机器学习模型评估数据集

收藏
hugging_face2023-08-02 更新2024-03-04 收录
金融风险预测
机器学习模型评估
下载链接:
https://hf-mirror.com/datasets/yuweiyin/FinBench
下载链接
链接失效反馈
资源简介:
FinBench是一个用于评估机器学习模型性能的基准数据集,它结合了表格数据输入和概要文本输入。该数据集从Kaggle平台收集了数百个金融数据集,并筛选出十个高质量数据集用于金融风险预测,包括违约、欺诈和客户流失三种风险类型。数据集结构化处理,提供统一的数据结构,并通过HuggingFace平台提供易于加载的API。此外,数据集详细记录了任务描述、数据集名称、分类类别数量、特征数量以及训练、验证和测试集的正例比例等信息。

FinBench是一个用于评估机器学习模型性能的基准数据集,它结合了表格数据输入和概要文本输入。该数据集从Kaggle平台收集了数百个金融数据集,并筛选出十个高质量数据集用于金融风险预测,包括违约、欺诈和客户流失三种风险类型。数据集结构化处理,提供统一的数据结构,并通过HuggingFace平台提供易于加载的API。此外,数据集详细记录了任务描述、数据集名称、分类类别数量、特征数量以及训练、验证和测试集的正例比例等信息。
提供机构:
yuweiyin
原始信息汇总

数据集概述

数据集名称: FinBench

许可证: cc-by-nc-4.0

任务类别:

  • 表格分类
  • 文本分类

大小类别: 0.3M<n<1M

数据集统计

FinBench 是一个用于评估机器学习模型性能的基准,结合了表格数据输入和用户档案文本输入。该数据集从Kaggle平台收集了数百个金融数据集,筛选出十个高质量数据集用于金融风险预测。筛选标准包括数据量、流行度、列的意义性以及基线模型在这些数据集上的表现。

FinBench 包含三种类型的金融风险:违约、欺诈和流失。数据集经过统一的数据结构处理,并提供了一个易于加载的API。

任务统计

任务 描述 数据集 类别数 特征数 训练集 [正例%] 验证集 [正例%] 测试集 [正例%]
Credit-card Default 预测用户是否会违约信用卡 cd1 2 9 2738 [7.0%] 305 [6.9%] 1305 [6.2%]
cd2 2 23 18900 [22.3%] 2100 [22.3%] 9000 [21.8%]
Loan Default 预测用户是否会违约贷款 ld1 2 12 2118 [8.9%] 236 [8.5%] 1010 [9.0%]
ld2 2 11 18041 [21.7%] 2005 [20.8%] 8592 [21.8%]
ld3 2 35 142060 [21.6%] 15785 [21.3%] 67648 [22.1%]
Credit-card Fraud 预测用户是否会进行欺诈 cf1 2 19 5352 [0.67%] 595 [1.1%] 2550 [0.90%]
cf2 2 120 5418 [6.0%] 603 [7.3%] 2581 [6.0%]
Customer Churn 预测用户是否会流失(客户流失) cc1 2 9 4189 [23.5%] 466 [22.7%] 1995 [22.4%]
cc2 2 10 6300 [20.8%] 700 [20.6%] 3000 [19.47%]
cc3 2 21 4437 [26.1%] 493 [24.9%] 2113 [27.8%]

数据来源

任务 数据集 来源
Credit-card Default cd1 Kaggle
cd2 Kaggle
Loan Default ld1 Kaggle
ld2 Kaggle
ld3 Kaggle
Credit-card Fraud cf1 Kaggle
cf2 Kaggle
Customer Churn cc1 Kaggle
cc2 Kaggle
cc3 Kaggle

数据集结构

数据集包含以下字段:

  • X_ml: 表格数据数组
  • X_ml_unscale: 缩放后的表格数据数组
  • y: 标签/真实值
  • num_classes: 类别总数
  • num_features: 特征总数
  • num_idx: 数值数据类型列的索引
  • cat_idx: 分类数据类型列的索引
  • cat_dim: 每个分类列的维度
  • cat_str: 分类列的类别名称
  • col_name: 列名
  • X_instruction_for_profile: 用于构建用户档案的指令
  • X_profile: 通过LLMs构建的用户档案
AI搜集汇总
数据集介绍
main_image_url
构建方式
FinBench数据集的构建始于从Kaggle平台收集数百个金融数据集,随后通过严格的筛选标准,选出十个高质量的数据集用于金融风险预测。筛选标准包括数据集的数量、受欢迎程度、列的意义以及基线模型在这些数据集上的表现。FinBench涵盖了三种金融风险:违约、欺诈和客户流失。所有数据集被统一处理为一致的数据结构,并在HuggingFace平台上提供便捷的API加载接口。
使用方法
使用FinBench数据集时,用户可以通过HuggingFace的load_dataset函数轻松加载所需的数据集。数据集提供了详细的字段信息,包括表格数据、标签、特征数量等,便于用户进行模型训练和评估。此外,数据集还支持对训练、验证和测试集的分别加载,方便用户进行交叉验证和模型测试。
背景与挑战
背景概述
FinBench,由Yuwei Yin等人于2023年创建,是一个专注于金融风险预测的基准数据集。该数据集整合了来自Kaggle平台的数百个金融数据集,经过严格筛选,最终选择了十个高质量数据集,涵盖了信用卡违约、贷款违约、信用卡欺诈和客户流失等三种主要金融风险。FinBench的构建旨在评估机器学习模型在处理表格数据和用户文本输入时的性能,为金融领域的风险预测提供了统一的评估标准。该数据集的发布不仅推动了金融风险预测技术的发展,也为相关领域的研究提供了宝贵的资源。
当前挑战
FinBench在构建过程中面临多项挑战。首先,数据集的筛选过程复杂,需考虑数据的数量、流行度、列的含义清晰度以及基线模型在这些数据集上的表现。其次,金融数据的敏感性和复杂性要求数据处理过程必须高度标准化和安全,以确保数据的准确性和可靠性。此外,数据集中涉及的金融风险预测任务,如信用卡违约和客户流失预测,本身具有高度的不平衡性和复杂性,这对模型的训练和评估提出了更高的要求。最后,如何有效地整合表格数据和用户文本输入,以提升模型的预测能力,也是FinBench面临的重要挑战。
常用场景
经典使用场景
在金融风险预测领域,FinBench数据集的经典使用场景主要集中在信用风险评估、贷款违约预测、信用卡欺诈检测以及客户流失分析等方面。通过整合来自Kaggle的高质量金融数据,FinBench为研究人员和从业者提供了一个统一的框架,用于训练和评估机器学习模型在不同金融风险预测任务中的表现。
解决学术问题
FinBench数据集解决了金融领域中常见的学术研究问题,如数据异质性、样本不平衡以及特征工程的复杂性。通过提供标准化和结构化的数据集,FinBench有助于推动金融风险预测模型的研究,特别是在处理多源数据和多任务学习方面,为学术界提供了宝贵的资源和基准。
实际应用
在实际应用中,FinBench数据集被广泛用于金融机构的风险管理、信用评分系统、反欺诈检测以及客户关系管理等场景。通过利用FinBench提供的丰富数据和预处理工具,金融机构能够更准确地预测和防范潜在的金融风险,从而提升业务运营的效率和安全性。
数据集最近研究
最新研究方向
在金融风险预测领域,FinBench数据集的最新研究方向主要集中在利用预训练语言模型(LLMs)进行客户画像的精细调整,以提升风险预测的准确性。通过整合表格数据和文本输入,研究者们致力于开发能够更全面理解客户行为和信用状况的模型。这一方向不仅推动了金融科技的发展,也为金融机构提供了更强大的风险管理工具,从而在复杂的金融环境中实现更精准的风险控制。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。

arXiv 收录