mstz/bank
收藏Hugging Face2023-04-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mstz/bank
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来自UCI ML repository,记录了银行在第二次广告活动中联系的潜在客户信息,包括客户信息、与广告活动的互动以及是否订阅了银行计划。数据集包含多个特征,如年龄、职业、婚姻状况、教育程度等,并用于二元分类任务,即判断客户是否订阅了银行计划。
该数据集来自UCI ML repository,记录了银行在第二次广告活动中联系的潜在客户信息,包括客户信息、与广告活动的互动以及是否订阅了银行计划。数据集包含多个特征,如年龄、职业、婚姻状况、教育程度等,并用于二元分类任务,即判断客户是否订阅了银行计划。
提供机构:
mstz
原始信息汇总
数据集概述
数据集名称
- 名称: Bank
数据集来源
- 来源: UCI ML repository
- 链接: Bank dataset
数据集描述
- 描述: 该数据集记录了银行在第二次广告活动中接触的潜在客户信息,包括客户与广告活动的互动以及是否订阅了银行提出的计划。
数据集特征
- 特征列表:
Name Type ageint64jobstringmarital_statusstringeducationint8has_defaultedint8account_balanceint64has_housing_loanint8has_personal_loanint8month_of_last_contactstringnumber_of_calls_in_ad_campaignstringdays_since_last_contact_of_previous_campaignint16number_of_calls_before_this_campaignint16successfull_subscriptionint8
数据集任务与配置
- 任务: Binary classification
- 配置:
- encoding: 编码字典,显示编码特征的原始值。
- subscription: 判断客户是否订阅了银行计划。
数据集大小与任务类别
- 大小: 1K<n<10K
- 任务类别: tabular-classification
数据集使用示例
python from datasets import load_dataset
dataset = load_dataset("mstz/bank", "subscription")["train"]
搜集汇总
数据集介绍

构建方式
在金融营销领域,精准预测客户行为是提升业务转化率的关键。该数据集源自UCI机器学习知识库,记录了银行在二次广告营销活动中与潜在客户的互动过程。数据构建基于真实营销活动,通过结构化表格形式收集了客户的人口统计学特征、财务状况、历史交互记录及最终订阅结果,涵盖了年龄、职业、婚姻状况、教育水平、账户余额、贷款状态等多维度变量。数据经过标准化编码处理,确保特征值的一致性与可计算性,为后续建模提供了高质量的监督学习样本。
特点
作为面向分类任务的表格型数据集,其核心特点在于聚焦于银行营销场景下的客户响应预测。数据集包含超过百万条记录,规模适中,适用于二分类与多分类任务。特征设计兼具静态属性与动态行为指标,如上次联系月份、历史通话次数等时序信息,增强了模型的时序感知能力。标签字段明确指示客户是否订阅银行计划,为评估营销效果提供了直接依据。数据集以CSV格式存储,结构清晰,便于直接加载与预处理,支持快速实验迭代。
使用方法
该数据集适用于监督学习框架下的分类模型训练与评估。用户可通过HuggingFace的datasets库直接加载指定配置,例如使用'subscription'配置进行二分类任务。加载后,数据可进一步划分为训练集、验证集与测试集,用于构建预测模型,如逻辑回归、决策树或神经网络。特征工程中需注意类别变量的编码转换,并利用历史交互特征捕捉客户行为模式。模型训练完成后,可通过准确率、召回率等指标评估营销策略的有效性,为银行优化广告投放提供数据驱动的决策支持。
背景与挑战
背景概述
在金融营销领域,精准预测客户行为是提升业务转化率的关键。Bank数据集源于UCI机器学习知识库,记录了银行在二次广告营销活动中与潜在客户的互动数据,旨在探究客户是否订阅银行计划。该数据集由研究机构于2012年创建,核心研究问题聚焦于通过客户特征与交互历史构建分类模型,以优化营销策略。其在金融数据分析与机器学习应用领域具有广泛影响力,为银行客户行为预测提供了重要的实证基础。
当前挑战
Bank数据集致力于解决金融营销中的客户订阅预测问题,其挑战在于处理高度不平衡的类别分布,即订阅客户远少于未订阅客户,这可能导致模型偏向多数类。构建过程中,数据来源于真实营销活动,面临特征编码复杂性,如将职业、婚姻状况等分类变量转化为数值表示,同时需处理缺失值与异常值,确保数据质量与模型泛化能力。此外,时序特征如上次联系天数与活动月份的有效整合,也对特征工程提出了较高要求。
常用场景
经典使用场景
在金融营销领域,Bank数据集作为经典的客户行为分析工具,广泛用于构建和评估二分类预测模型。研究者通过整合年龄、职业、账户余额等多元特征,训练机器学习算法以精准识别潜在订阅者,从而优化营销策略的精准度与效率。
实际应用
实际应用中,Bank数据集助力银行机构实施数据驱动的精准营销,通过预测客户订阅倾向降低推广成本并提升转化率。同时,它支持风险管理与客户细分,为个性化金融产品推荐系统提供可靠的数据支撑。
衍生相关工作
围绕Bank数据集,衍生出多项经典研究,包括基于特征工程的客户画像构建、集成学习在营销预测中的性能比较,以及公平性算法在金融歧视缓解中的探索。这些工作进一步拓展了数据集在社会科学与计算交叉领域的价值。
以上内容由遇见数据集搜集并总结生成



