Bank Marketing UCI dataset

github2020-07-30 更新2024-05-31 收录

下载链接：

https://github.com/AleksandarMitrevski/deposits-targeted-marketing-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含葡萄牙一家零售银行在2008年5月至2013年6月期间收集的实际数据，涉及通过电话营销向客户提供长期存款投资机会的活动。数据集包括41,188个样本，每个样本包含营销结果（成功或失败）以及20个客户特征，这些特征分为电话营销属性、产品详情、客户人口统计信息、社会和经济影响特征。

This dataset comprises actual data collected by a Portuguese retail bank from May 2008 to June 2013, pertaining to campaigns aimed at offering long-term deposit investment opportunities to customers through telemarketing. The dataset includes 41,188 samples, each detailing the outcome of the marketing effort (success or failure) along with 20 customer attributes. These attributes are categorized into telemarketing properties, product details, customer demographic information, and socio-economic impact features.

创建时间：

2020-07-30

原始信息汇总

数据集概述

数据集来源与目的

来源: 数据集基于UCI Bank Marketing dataset，收集自葡萄牙一家零售银行。
目的: 用于创建预测模型，支持针对长期存款的目标营销决策。

数据集内容

时间范围: 数据收集于2008年5月至2013年6月。
样本数量: 原始数据包含52,944次电话联系记录，成功率为12.38%。实际提供的数据集包含41,188个样本。
特征: 每个样本包含20个特征，分为以下几类：
- 电话营销属性
- 产品详情
- 客户人口统计信息
- 社会和经济影响特征
数据处理:
- 数据集已进行特征选择。
- 缺失值处理：仅在分类特征中存在缺失，使用“未知”作为单独类别处理。
- 数值特征标准化，分类特征进行独热编码。
- 使用PCA进行维度降低，前27个PCA成分解释了超过95%的方差。

预测模型构建

数据划分: 原始数据随机分为90%训练集和10%测试集。训练集中15%用于模型选择和评估。
模型算法: 使用Logistic Regression, Gradient Boosted Decision Trees, Random Forests, Partial Least Squares - Discriminant Analysis, K Nearest Neighbors, Support Vector Machines, 和Neural Network的集成模型。
模型评估: 使用AUC作为性能评估指标，同时提供混淆矩阵元素以供其他指标计算。

模型性能

最佳模型: Neural Network的集成模型，测试集AUC为0.7542。
最弱模型: Partial Least Squares - Discriminant Analysis，测试集AUC为0.6748。

知识发现

使用SHAP的KernelExplainer分析Neural Network集成模型，生成力图和总结图以解释模型预测。

结论

数据集经过一系列预处理和模型构建，最终的Neural Network集成模型表现出最佳性能，有助于银行进行有效的长期存款电话营销。

搜集汇总

数据集介绍

构建方式

Bank Marketing UCI数据集构建于2008年5月至2013年6月期间，数据来源于葡萄牙一家零售银行的电话营销活动。该数据集旨在通过电话营销活动预测客户是否愿意投资长期存款。数据收集过程中，全球金融危机的影响被纳入考虑，尤其是在2008年金融危机高峰期，客户更倾向于储蓄。数据集经过特征选择，最终包含41,188个样本，每个样本包含20个特征，涵盖客户的人口统计信息、社会经济特征、产品细节以及电话营销属性。

使用方法

该数据集的使用方法包括数据预处理、特征工程和模型训练。首先，数据集被随机划分为训练集和测试集，比例为90%和10%。训练集进一步划分为模型选择和模型评估的子集。缺失值被编码为“unknown”，数值特征被标准化，分类特征通过独热编码转换为数值形式。随后，使用主成分分析（PCA）进行降维处理，以减少特征维度。模型训练采用了多种算法，包括逻辑回归、梯度提升决策树、随机森林等，并通过10折交叉验证进行超参数调优。最终，模型的性能通过AUC指标进行评估，并使用SHAP方法解释模型的预测结果。

背景与挑战

背景概述

Bank Marketing UCI dataset 是由葡萄牙一家零售银行在2008年5月至2013年6月期间收集的真实数据，旨在通过电话营销推广长期存款产品。该数据集由Moro等人于2014年发布，主要用于预测客户对银行电话营销活动的响应。数据集包含41,188个样本，每个样本记录了20个特征，涵盖了客户的人口统计信息、社会经济特征以及营销活动的相关属性。该数据集在金融营销领域具有重要影响力，尤其是在客户行为预测和精准营销策略优化方面，为研究人员提供了丰富的数据支持。

当前挑战

Bank Marketing UCI dataset 的主要挑战在于其数据的不平衡性和高维度特征的处理。首先，数据集中成功响应的样本仅占12.38%，类别不平衡问题显著，这对模型的训练和评估提出了较高要求。其次，尽管数据集已经过特征选择，但仍包含20个特征，其中部分为分类变量，需通过独热编码进一步扩展维度，增加了计算复杂度。此外，数据集中存在缺失值，尤其是分类特征中的“未知”值，需在预处理阶段进行特殊处理。这些挑战要求研究人员在模型构建过程中采用高效的降维技术和正则化方法，以避免过拟合并提升模型的泛化能力。

常用场景

经典使用场景

Bank Marketing UCI数据集在金融营销领域具有广泛的应用，尤其是在预测客户对长期存款产品的响应率方面。该数据集通过电话营销活动的历史数据，帮助研究人员构建预测模型，以识别潜在的高响应客户群体。这种预测模型不仅能够优化营销资源的分配，还能提高客户转化率，从而为银行带来更高的收益。

解决学术问题

该数据集解决了金融营销中的客户响应预测问题，尤其是在高维特征空间下的分类问题。通过提供丰富的客户特征数据，研究人员可以探索不同特征对客户决策的影响，并开发出高效的机器学习模型。这些模型能够帮助银行在复杂的市场环境中做出更精准的营销决策，减少无效营销活动的成本。

实际应用

在实际应用中，Bank Marketing UCI数据集被广泛用于银行和金融机构的客户关系管理系统中。通过分析客户的年龄、职业、经济状况等特征，银行可以制定个性化的营销策略，提升客户满意度和忠诚度。此外，该数据集还被用于开发自动化营销工具，帮助银行在竞争激烈的市场中保持优势。

数据集最近研究