Bank Marketing Dataset
收藏github2024-08-06 更新2024-08-07 收录
下载链接:
https://github.com/datalopes1/bank_marketing_success
下载链接
链接失效反馈官方服务:
资源简介:
数据与葡萄牙一家银行机构的直接营销活动有关。营销活动基于电话呼叫进行。通常需要多次联系同一客户以确认是否签订产品(定期存款)。数据可在UC Irvine机器学习仓库找到,并由S. Moro、R. Laureano和P. Cortez提供。
This dataset pertains to direct marketing campaigns of a Portuguese banking institution. The campaigns were conducted via telephone calls. Typically, multiple contacts with the same customer are required to confirm whether they have subscribed to the product (term deposit). This dataset is available in the UC Irvine Machine Learning Repository, and was provided by S. Moro, R. Laureano and P. Cortez.
创建时间:
2024-08-01
原始信息汇总
银行营销活动成功预测数据集
数据集概述
该数据集与葡萄牙一家银行的直接营销活动相关。营销活动基于电话呼叫进行。通常需要多次联系同一客户以确认是否签订产品(定期存款)。数据集来源于UC Irvine - Machine Learning Repository,由S. Moro, R. Laureano和P. Cortez提供。
特征描述
| 列名 | 描述 |
|---|---|
age |
年龄 |
job |
职业 |
marital |
婚姻状况 |
education |
教育水平 |
default |
信用违约(是/否) |
balance |
年平均余额 |
housing |
住房贷款(是/否) |
loan |
个人贷款(是/否) |
contact |
联系方式 |
day |
月内最后一次联系的日期 |
month |
最后一次联系的月份 |
duration |
通话时长(秒) |
campaign |
本次活动中联系的次数 |
pdays |
上次活动联系后的天数(-1表示未联系) |
previous |
上次活动中联系的次数 |
poutcome |
上次活动的结果 |
y |
本次活动的成功与否(是/否) |
数据文件
bank-full.csv:包含所有样本,按日期排序(从2008年5月至2010年11月),用于训练。bank.csv:包含上述数据的10%随机样本,用于预测。
项目目标
- 进行数据探索性分析,为未来活动寻找洞察。
- 创建机器学习模型,预测基于此数据集的营销活动成功率。
分析结果
结论
- 年长客户更有可能接受产品。
- 管理层、技术人员和服务提供者等职业的客户更容易接受定期存款,针对这些职业的细分营销可能带来良好结果。
- 信用良好且无抵押贷款的客户更有可能接受产品,应重点针对这些客户进行营销。
- 手机是最有效的联系方式。
- 第二和第三季度是营销活动成功率最高的时期,尤其是5-6月和7-8月。
- 平均通话时长为7.25分钟,这可以作为电话营销人员的培训指标。
- 之前活动中响应积极的客户在新活动中也倾向于接受产品。
模型结果
使用LGBMClassifier模型达到以下指标:
| 指标 | 结果 |
|---|---|
| Log Loss | 0.2030 |
| Accuracy | 0.9050 |
| ROC AUC | 0.9290 |
建议
- 优先联系信用良好且无抵押贷款的客户,以及在上次活动中接受产品的客户。
- 进行2至7次通话,超过此限制的客户在完成所有其他客户联系后再联系。
- 通话时长应尽量延长至最多7分钟,超过此时间成功率下降。
- 创建针对特定职业的细分营销活动,并尝试在成功率高的时期(如7-8月)进行。
搜集汇总
数据集介绍

构建方式
该数据集源自葡萄牙一家银行的直接营销活动,通过电话联系客户。数据收集自2008年5月至2010年11月,涵盖了多次营销活动的详细记录。数据集包括两个主要文件:`bank-full.csv`包含所有样本,按日期排序,用于训练;`bank.csv`则是从`bank-full.csv`中随机抽取的10%样本,用于预测和验证。数据集的构建旨在通过历史营销活动的数据,预测未来营销活动的成功率,从而优化营销策略。
特点
该数据集具有丰富的特征,包括客户的基本信息(如年龄、职业、婚姻状况、教育水平)、财务状况(如年度平均余额、是否有住房贷款或个人贷款)、以及营销活动的具体细节(如联系方式、联系日期、通话时长、活动期间联系次数等)。此外,数据集还记录了客户在先前营销活动中的响应情况,以及当前营销活动的成功与否。这些特征为分析客户行为和优化营销策略提供了全面的数据支持。
使用方法
使用该数据集时,首先需要进行数据清洗和预处理,包括处理缺失值、异常值以及对分类变量进行编码。随后,可以通过探索性数据分析(EDA)来理解各特征与目标变量之间的关系,识别关键影响因素。在模型构建阶段,可以采用机器学习算法(如LightGBM)进行分类预测,评估模型的性能指标(如Log Loss、Accuracy、ROC AUC)。最终,基于模型结果,可以制定针对性的营销策略,提升营销活动的成功率。
背景与挑战
背景概述
Bank Marketing Dataset是由葡萄牙一家金融机构发起的直接营销活动数据集,主要用于预测营销活动的成功率。该数据集由S. Moro, R. Laureano和P. Cortez在2008年至2010年间收集,并发布于UC Irvine的机器学习仓库。数据集的核心研究问题是如何通过电话营销活动提高定期存款的签约率。该数据集不仅为银行营销策略提供了宝贵的数据支持,还为相关领域的研究提供了丰富的实证数据,推动了营销预测模型的发展。
当前挑战
Bank Marketing Dataset在构建过程中面临多项挑战。首先,数据集包含大量类别变量和数值变量,需要进行复杂的特征工程以提取有效信息。其次,数据中存在显著的类别不平衡问题,即成功签约的客户比例较低,这增加了模型训练的难度。此外,数据集中的某些特征如通话时长和联系次数存在异常值,需要进行预处理以确保模型的准确性。最后,如何有效地利用历史营销活动的结果来预测未来活动的成功率,也是一个重要的研究挑战。
常用场景
经典使用场景
Bank Marketing Dataset的经典使用场景主要集中在预测银行营销活动的成功率。通过分析客户的年龄、职业、婚姻状况、教育水平、财务状况等特征,研究人员可以构建机器学习模型,预测客户是否会接受银行提供的定期存款产品。这种预测不仅有助于优化营销策略,还能提高营销活动的效率和投资回报率。
衍生相关工作
Bank Marketing Dataset的发布催生了一系列相关研究和工作。例如,基于该数据集的机器学习模型被用于开发更高效的营销策略,优化客户细分和目标定位。此外,该数据集还激发了对金融数据隐私和安全的研究,推动了数据保护技术的进步。学术界和业界都从中受益,推动了金融科技的发展。
数据集最近研究
最新研究方向
在银行营销领域,Bank Marketing Dataset的最新研究方向主要集中在通过机器学习模型优化营销策略,以提高客户对定期存款产品的接受率。研究者们利用该数据集进行深入的探索性数据分析(EDA),识别出影响营销成功率的关键因素,如客户年龄、职业、婚姻状况、教育水平等。此外,研究还关注于构建和优化分类模型,如LightGBM,以预测营销活动的成功率,并通过调整模型参数和特征工程来提升模型的准确性和泛化能力。这些研究不仅有助于银行更精准地定位潜在客户,还能有效提升营销活动的效率和效果,从而在竞争激烈的市场环境中占据优势。
以上内容由遇见数据集搜集并总结生成



