Credit Approval Dataset

github2020-04-23 更新2024-05-31 收录

下载链接：

https://github.com/chanhee-kang/Machine-Learning-with-UCI-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从A1到A16的属性，包括连续型和非连续型数据，以及存在?的缺失值。目标数据为二元分类，以+或-形式出现在A16中。

This dataset comprises attributes ranging from A1 to A16, encompassing both continuous and non-continuous data types, along with missing values denoted by '?'. The target data is binary classification, represented by either '+' or '-' in attribute A16.

创建时间：

2019-12-16

原始信息汇总

数据集概述

数据集名称

Title / Machine Learning Model Test
Credit Approval Dataset

数据集来源

UCI Machine Learning Lab
UCI data repository

数据集链接

Credit Approval Dataset

数据集内容

属性数量：16个（A1至A16）
数据类型：包含连续型和非连续型数据
缺失值：存在以“?”表示的缺失值
目标数据：二元分类，以“+”和“-”形式出现在A16中

数据预处理步骤

数据清洗：处理以“?”表示的缺失值
数据类型转换：将A2, A3, A8, A11, A14, A15的连续型数据转换为float类型
目标数据转换：将A16中的“+”和“-”转换为0和1

模型评估方法

10-fold交叉验证
评估指标：Accuracy, Precision, Recall, F-1 Score

模型评估结果

最高准确度：Random Forest模型，达到0.902
最高精确度：Random Forest模型，达到0.855
最高召回率：CNN模型，达到0.870
最高F1分数：CNN模型，达到0.830

结论

最优模型：Random Forest, CNN, Decision Tree
性能较低模型：Multilayer Perceptron

参考文献

Bhukya, D. and Ramachandram, S. (2010). Decision Tree Induction: An Approach for Data Classification Using AVL-Tree. International Journal of Computer and Electrical Engineering, pp.660-665.
Chen, L. and Tang, H. (2004). Improved computation of beliefs based on confusion matrix for combining multiple classifiers. Electronics Letters, 40(4), p.238.
Fourie, C. (2003). Deep learning? What deep learning?. South African Journal of Higher Education, 17(1).
Koo, I., Lee, N. and Kil, R. (2008). Parameterized cross-validation for nonlinear regression models. Neurocomputing, 71(16-18), pp.3089-3095.
Mantas, C., Castellano, J., Moral-García, S. and Abellán, J. (2018). A comparison of random forest based algorithms: random credal random forest versus oblique random forest. Soft Computing, 23(21), pp.10739-10754.
Mühlenbein, H. (1990). Limitations of multi-layer perceptron networks - steps towards genetic neural networks. Parallel Computing, 14(3), pp.249-260.
Uchida, K., Tanaka, M. and Okutomi, M. (2018). Coupled convolution layer for convolutional neural network. Neural Networks, 105, pp.197-205.

搜集汇总

数据集介绍

构建方式

Credit Approval Dataset은 UCI Machine Learning Lab에서 제공하는 이진 분류 데이터セット으로，16개의 속성을 포함하고 있습니다. 이 데이터셋은 연속형과 비 연속형 데이터가 혼합되어 있으며，결측치도 존재합니다. 데이터 전처리 과정에서 결측치 제거，데이터 타입 변환，속성과 클래스 분리 등의 과정을 거쳐，이진 분류 문제를 해결하기 위한 입력 데이터를 준비합니다. 또한，10-fold 교차 검증 방법을 사용하여 모델의 학습 및 평가를 수행합니다.

使用方法

Credit Approval Dataset을 사용하려면，먼저 데이터 전처리 과정을 거쳐 결측치를 제거하고，데이터 타입을 변환하며，속성과 클래스를 분리합니다. 그런 다음，Decision Tree，Multilayer Perceptron،Random Forest，CNN 등 다양한 기계 학습 모델을 사용하여 모델을 학습시키고 평가합니다. 마지막으로，10-fold 교차 검증 방법을 사용하여 모델의 성능을 평가하고，최적의 모델을 선택합니다.

背景与挑战

背景概述

Credit Approval Dataset是由UCI机器学习实验室整理发布的一个二分类数据集，旨在通过机器学习模型判断申请人是否有资格获得信用卡。该数据集创建于机器学习在金融领域应用日益广泛的背景下，由研究人员针对信用卡申请的实际情况构建。数据集包含了16个属性，既有连续型数据也有非连续型数据，并有缺失值。Credit Approval Dataset在金融风险评估、信贷审核等研究领域具有重要的影响力，为相关研究提供了重要的数据支持。

当前挑战

Credit Approval Dataset在构建和应用过程中面临的挑战主要包括：1) 如何有效处理数据中的缺失值，保证模型的准确性和泛化能力；2) 如何在保护个人隐私的前提下，对数据进行有效的特征提取和利用；3) 不同类型的机器学习模型在该数据集上的性能比较和优化；4) 模型在实际应用中的过拟合问题以及如何进行有效的正则化处理。

常用场景

经典使用场景

Credit Approval Dataset作为经典的二分类数据集，其最典型的使用场景在于金融机构信贷审批流程中，通过对申请者的个人信息和其他相关属性进行分析，预测申请者是否有偿还能力，从而决定是否批准信贷。该数据集包含了申请者的年龄、收入、职业等属性，通过机器学习模型的学习，能够辅助金融机构自动化决策过程，提高审批效率和准确性。

解决学术问题

该数据集解决了学术研究中如何利用机器学习模型处理具有缺失值和混合数据类型的问题。它为研究人员提供了一个实际的应用场景，使得他们可以研究不同类型的机器学习模型在处理真实世界数据时的表现，以及如何通过数据预处理来改善模型性能。这对于提高机器学习模型的鲁棒性和泛化能力具有重要意义。

实际应用

在实际应用中，Credit Approval Dataset被广泛应用于银行、金融科技公司等机构的信贷风险评估。通过构建预测模型，机构能够快速筛选出潜在的信贷违约风险，从而降低信贷损失。此外，该数据集还可用于开发信用评分系统，帮助金融机构更精准地对客户进行信用评级。

数据集最近研究