yuweiyin/FinBench|金融风险预测数据集|机器学习模型评估数据集
收藏数据集概述
数据集名称: FinBench
许可证: cc-by-nc-4.0
任务类别:
- 表格分类
- 文本分类
大小类别: 0.3M<n<1M
数据集统计
FinBench 是一个用于评估机器学习模型性能的基准,结合了表格数据输入和用户档案文本输入。该数据集从Kaggle平台收集了数百个金融数据集,筛选出十个高质量数据集用于金融风险预测。筛选标准包括数据量、流行度、列的意义性以及基线模型在这些数据集上的表现。
FinBench 包含三种类型的金融风险:违约、欺诈和流失。数据集经过统一的数据结构处理,并提供了一个易于加载的API。
任务统计
任务 | 描述 | 数据集 | 类别数 | 特征数 | 训练集 [正例%] | 验证集 [正例%] | 测试集 [正例%] |
---|---|---|---|---|---|---|---|
Credit-card Default | 预测用户是否会违约信用卡 | cd1 |
2 | 9 | 2738 [7.0%] | 305 [6.9%] | 1305 [6.2%] |
cd2 |
2 | 23 | 18900 [22.3%] | 2100 [22.3%] | 9000 [21.8%] | ||
Loan Default | 预测用户是否会违约贷款 | ld1 |
2 | 12 | 2118 [8.9%] | 236 [8.5%] | 1010 [9.0%] |
ld2 |
2 | 11 | 18041 [21.7%] | 2005 [20.8%] | 8592 [21.8%] | ||
ld3 |
2 | 35 | 142060 [21.6%] | 15785 [21.3%] | 67648 [22.1%] | ||
Credit-card Fraud | 预测用户是否会进行欺诈 | cf1 |
2 | 19 | 5352 [0.67%] | 595 [1.1%] | 2550 [0.90%] |
cf2 |
2 | 120 | 5418 [6.0%] | 603 [7.3%] | 2581 [6.0%] | ||
Customer Churn | 预测用户是否会流失(客户流失) | cc1 |
2 | 9 | 4189 [23.5%] | 466 [22.7%] | 1995 [22.4%] |
cc2 |
2 | 10 | 6300 [20.8%] | 700 [20.6%] | 3000 [19.47%] | ||
cc3 |
2 | 21 | 4437 [26.1%] | 493 [24.9%] | 2113 [27.8%] |
数据来源
任务 | 数据集 | 来源 |
---|---|---|
Credit-card Default | cd1 |
Kaggle |
cd2 |
Kaggle | |
Loan Default | ld1 |
Kaggle |
ld2 |
Kaggle | |
ld3 |
Kaggle | |
Credit-card Fraud | cf1 |
Kaggle |
cf2 |
Kaggle | |
Customer Churn | cc1 |
Kaggle |
cc2 |
Kaggle | |
cc3 |
Kaggle |
数据集结构
数据集包含以下字段:
X_ml
: 表格数据数组X_ml_unscale
: 缩放后的表格数据数组y
: 标签/真实值num_classes
: 类别总数num_features
: 特征总数num_idx
: 数值数据类型列的索引cat_idx
: 分类数据类型列的索引cat_dim
: 每个分类列的维度cat_str
: 分类列的类别名称col_name
: 列名X_instruction_for_profile
: 用于构建用户档案的指令X_profile
: 通过LLMs构建的用户档案

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
CliMedBench
CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。
arXiv 收录