Bank Marketing Dataset|银行营销数据集|机器学习数据集
收藏Bank Marketing Predictive Model
数据集概述
本项目涉及分析和预测客户是否会基于银行营销数据集中的各种属性订阅定期存款。数据集包括年龄、职业、婚姻状况、教育、余额和先前营销活动结果等信息。通过应用机器学习技术,目标是构建一个能够准确预测客户决策的预测模型。
数据集目标
项目的主要目标是开发一个预测模型,以确定客户是否会订阅定期存款。这包括:
- 数据预处理: 清洗和准备数据集以进行分析。
- 特征选择和降维: 识别最相关的特征并减少维度以提高模型性能。
- 模型训练: 训练各种监督学习模型以预测目标变量。
- 模型评估: 根据准确性和其他性能指标评估模型,以选择最佳模型。
通过实现这一目标,项目旨在提供影响客户决策的关键因素的洞察,并增强银行的营销策略。
数据预处理步骤
数据预处理包括以下步骤:
- 处理缺失值: 识别并处理数据集中的缺失值。
- 分类变量转换: 使用独热编码将分类变量转换为数值变量。
- 数值特征归一化: 归一化数值特征以确保它们处于相似的尺度。
- 去除异常值: 识别并去除数据集中的异常值以提高模型性能。
- 处理不平衡数据: 使用SMOTE等技术处理不平衡数据。
- 删除不必要特征: 删除对分析不相关的特征。
探索性数据分析 (EDA)
EDA过程包括检查数据集以揭示模式、关系和洞察,这些洞察可以指导建模过程。这包括:
- 汇总统计: 生成数值和分类特征的汇总统计。
- 分布图: 绘制特征分布以理解其分布和中心趋势。
- 相关性分析: 评估数值特征之间的相关性以识别潜在关系。
特征选择方法
特征选择涉及为模型训练选择相关特征的子集。使用以下方法:
- 互信息: 测量两个变量之间的相互依赖性以选择相关特征。
- 随机森林特征重要性: 使用训练好的随机森林模型的特征重要性分数来选择特征。
降维技术
降维技术用于减少特征数量同时保留大部分信息。应用以下方法:
- 主成分分析 (PCA): 通过将原始特征转换为一组新的正交成分来减少维度。
- 奇异值分解 (SVD): 将数据矩阵分解为三个矩阵以减少维度。
- 非负矩阵分解 (NMF): 将数据矩阵分解为两个低维矩阵,元素为非负。
模型训练和评估
训练和评估各种监督学习模型以预测客户是否会订阅定期存款。包括以下模型:
- 逻辑回归
- 决策树
- 随机森林
- 梯度提升
- 支持向量机 (SVM)
- k-近邻 (KNN)
模型根据其准确性、精确度、召回率、F1分数和ROC-AUC进行评估。
结论
最佳表现模型:
- 使用SVD降维的随机森林模型达到了最高的测试准确率(0.78256),表明SVD是适用于该数据集的合适降维技术。
有效技术:
- PCA和SVD在保留数据方差和提高模型性能方面有效。
特征选择单独不足:
- 仅依赖特征选择(常见特征方法)可能无法提供足够的准确预测信息。
未来工作
- 超参数调优: 进一步调整每个模型的超参数,特别是降维方法的超参数,可能会提高性能。
- 组合方法: 探索将特征选择与降维结合,看看是否提供更强大的特征集。
- 正则化技术: 应用正则化技术以缓解决策树和随机森林等模型中的过拟合问题。
- 高级模型: 评估更高级模型(如XGBoost或深度学习技术)在简化数据集上的性能。
- 交叉验证: 实施交叉验证以确保模型性能在不同数据分割中的稳健性。
参考文献
以下参考文献提供了数据集以及分析中使用的技术和模型的额外信息:
-
Bank Marketing Dataset:
- Kaggle: https://www.kaggle.com/datasets/janiobachmann/bank-marketing-dataset/data
- UCI Machine Learning Repository: https://archive.ics.uci.edu/dataset/222/bank+marketing
-
Principal Component Analysis (PCA):
- Wikipedia: https://en.wikipedia.org/wiki/Principal_component_analysis
- Scikit-learn Documentation: https://scikit-learn.org/stable/modules/decomposition.html#pca
-
Singular Value Decomposition (SVD):
- Wikipedia: https://en.wikipedia.org/wiki/Singular_value_decomposition
- Scikit-learn Documentation: https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.TruncatedSVD.html
-
Non-negative Matrix Factorization (NMF):
- Wikipedia: https://en.wikipedia.org/wiki/Non-negative_matrix_factorization
- Scikit-learn Documentation: https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.NMF.html
-
Mutual Information:
- Wikipedia: https://en.wikipedia.org/wiki/Mutual_information
- Scikit-learn Documentation: https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.mutual_info_classif.html
-
Random Forest:
- Wikipedia: https://en.wikipedia.org/wiki/Random_forest
- Scikit-learn Documentation: https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html
-
Support Vector Machine (SVM):
- Wikipedia: https://en.wikipedia.org/wiki/Support_vector_machine
- Scikit-learn Documentation: https://scikit-learn.org/stable/modules/svm.html
-
Gradient Boosting:
- Wikipedia: https://en.wikipedia.org/wiki/Gradient_boosting
- Scikit-learn Documentation: https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html
-
K-Nearest Neighbors (KNN):
- Wikipedia: https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm
- Scikit-learn Documentation: https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html

中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录