bank-additional-full.csv

github2021-12-20 更新2024-05-31 收录

下载链接：

https://github.com/alexkataev/Case-Study-UCI-Bank-Marketing-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集与葡萄牙一家银行的直接营销活动（电话呼叫）相关。分类目标是为了预测客户是否会订阅定期存款（变量y）。数据集包含了41188个样本和20个输入，按日期排序，从2008年5月到2010年11月。

This dataset pertains to a direct marketing campaign (telephone calls) conducted by a Portuguese bank. The classification objective is to predict whether a client will subscribe to a term deposit (variable y). The dataset comprises 41,188 samples and 20 inputs, chronologically ordered from May 2008 to November 2010.

创建时间：

2021-12-16

原始信息汇总

数据集概述

数据集名称

Case-Study-UCI-Bank-Marketing-Dataset

数据集来源

源自葡萄牙银行机构的直接营销活动（电话呼叫）数据。
数据来源参考文献：[Moro et al., 2014] S. Moro, P. Cortez and P. Rita. A Data-Driven Approach to Predict the Success of Bank Telemarketing. Decision Support Systems, Elsevier, 62:22-31, June 2014

数据集信息

包含四个子数据集：
1. bank-additional-full.csv：包含所有41188个样本和20个输入变量，按日期排序。
2. bank-additional.csv：随机选取的4119个样本，包含20个输入变量。
3. bank-full.csv：包含所有样本和17个输入变量。
4. bank.csv：随机选取的样本，包含17个输入变量。

分类目标

预测客户是否会订阅定期存款（变量y）。

属性信息

输入变量

银行客户数据：
1. age：年龄（数值型）
2. job：工作类型（分类型）
3. marital：婚姻状况（分类型）
4. education：教育水平（分类型）
5. default：信用是否违约（分类型）
6. housing：是否有住房贷款（分类型）
7. loan：是否有个人贷款（分类型）
与当前营销活动最后一次接触相关： 8. contact：联系方式（分类型） 9. month：最后一次接触的月份（分类型） 10. day_of_week：最后一次接触的星期（分类型） 11. duration：最后一次接触的持续时间（数值型）
其他属性： 12. campaign：本次活动中对该客户的接触次数（数值型） 13. pdays：自上次接触以来的天数（数值型） 14. previous：之前活动中对该客户的接触次数（数值型） 15. poutcome：上次营销活动的结果（分类型）
社会和经济背景属性： 16. emp.var.rate：就业变化率（数值型） 17. cons.price.idx：消费者价格指数（数值型） 18. cons.conf.idx：消费者信心指数（数值型） 19. euribor3m：欧元同业拆借利率3个月（数值型） 20. nr.employed：雇员人数（数值型）

输出变量

y：客户是否订阅了定期存款（二元：yes, no）

搜集汇总

数据集介绍

构建方式

该数据集源自葡萄牙一家银行直接营销活动的电话记录，涵盖了从2008年5月至2010年11月的所有客户互动数据。数据集通过多次电话联系客户，收集了包括客户个人信息、最近一次联系的详细信息、以及社会经济背景等多维度数据，最终形成了一个包含41188条记录和20个输入特征的完整数据集。

使用方法

该数据集主要用于预测客户是否会订阅银行定期存款，适用于分类模型的训练与评估。使用时，研究者可根据具体需求选择合适的特征子集，并结合时间序列分析或机器学习算法进行模型构建。建议在使用前对数据进行预处理，如处理缺失值、编码分类变量等，以提高模型的预测精度。

背景与挑战

背景概述

银行营销数据集（bank-additional-full.csv）是由葡萄牙银行机构通过电话营销活动收集的，旨在预测客户是否会订阅定期存款。该数据集由Moro、Cortez和Rita于2014年提出，作为其研究《基于数据驱动的银行电话营销成功预测》的一部分，发表在《决策支持系统》期刊上。数据集包含了从2008年5月至2010年11月的41188条记录，涵盖了20个输入特征，涉及客户个人信息、营销活动细节以及社会经济背景等多方面内容。该数据集的发布为银行营销领域的研究提供了宝贵的资源，尤其是在客户行为预测和营销策略优化方面，具有重要的学术和实践价值。

当前挑战

该数据集在构建和应用过程中面临多项挑战。首先，数据集中的特征如‘duration’（通话时长）对目标变量有显著影响，但在实际应用中，通话时长在通话前是未知的，因此该特征的使用需谨慎。其次，数据集涉及的特征种类繁多，包括数值型和类别型变量，如何有效处理和整合这些特征以提高预测模型的准确性是一个重要挑战。此外，数据集中的类别不平衡问题（即‘yes’和‘no’类别的比例不均）也是模型训练中的一个难点，需要采用适当的采样技术或算法来解决。最后，数据集的时间序列特性要求模型在处理时考虑时间因素，以确保预测的实时性和准确性。

常用场景

经典使用场景

在金融营销领域，bank-additional-full.csv数据集的经典使用场景主要集中在预测客户是否会订阅银行定期存款。通过分析客户的个人信息、职业、婚姻状况、教育水平以及与银行的历史互动数据，研究人员可以构建分类模型，以预测客户对定期存款的响应。这种预测不仅有助于优化营销资源分配，还能提高营销活动的精准度和效率。

解决学术问题

该数据集解决了金融营销中的关键学术问题，即如何通过数据驱动的方法提高营销活动的成功率。通过分析客户的行为模式和社会经济背景，研究人员可以深入理解影响客户决策的因素，从而为银行提供科学的决策支持。这不仅推动了金融营销领域的研究进展，还为其他行业的精准营销提供了借鉴。

实际应用

在实际应用中，bank-additional-full.csv数据集被广泛用于银行的客户关系管理（CRM）系统中。通过预测客户对定期存款的响应，银行可以制定个性化的营销策略，优化客户接触频率和方式，从而提高客户满意度和忠诚度。此外，该数据集还被用于培训和验证机器学习模型，以确保其在实际业务中的有效性和可靠性。

数据集最近研究