mstz/bank

Name: mstz/bank
Creator: mstz
Published: 2023-04-15 11:16:43
License: 暂无描述

Hugging Face2023-04-15 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mstz/bank

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集来自UCI ML repository，记录了银行在第二次广告活动中联系的潜在客户信息，包括客户信息、与广告活动的互动以及是否订阅了银行计划。数据集包含多个特征，如年龄、职业、婚姻状况、教育程度等，并用于二元分类任务，即判断客户是否订阅了银行计划。

提供机构：

mstz

原始信息汇总

数据集概述

数据集名称

名称: Bank

数据集来源

来源: UCI ML repository
链接: Bank dataset

数据集描述

描述: 该数据集记录了银行在第二次广告活动中接触的潜在客户信息，包括客户与广告活动的互动以及是否订阅了银行提出的计划。

数据集特征

特征列表:

Name	Type
`age`	`int64`
`job`	`string`
`marital_status`	`string`
`education`	`int8`
`has_defaulted`	`int8`
`account_balance`	`int64`
`has_housing_loan`	`int8`
`has_personal_loan`	`int8`
`month_of_last_contact`	`string`
`number_of_calls_in_ad_campaign`	`string`
`days_since_last_contact_of_previous_campaign`	`int16`
`number_of_calls_before_this_campaign`	`int16`
`successfull_subscription`	`int8`

数据集任务与配置

任务: Binary classification
配置:
- encoding: 编码字典，显示编码特征的原始值。
- subscription: 判断客户是否订阅了银行计划。

数据集大小与任务类别

大小: 1K<n<10K
任务类别: tabular-classification

数据集使用示例

python from datasets import load_dataset

dataset = load_dataset("mstz/bank", "subscription")["train"]

搜集汇总

数据集介绍

构建方式

在金融营销领域，精准预测客户行为是提升业务转化率的关键。该数据集源自UCI机器学习知识库，记录了银行在二次广告营销活动中与潜在客户的互动过程。数据构建基于真实营销活动，通过结构化表格形式收集了客户的人口统计学特征、财务状况、历史交互记录及最终订阅结果，涵盖了年龄、职业、婚姻状况、教育水平、账户余额、贷款状态等多维度变量。数据经过标准化编码处理，确保特征值的一致性与可计算性，为后续建模提供了高质量的监督学习样本。

特点

作为面向分类任务的表格型数据集，其核心特点在于聚焦于银行营销场景下的客户响应预测。数据集包含超过百万条记录，规模适中，适用于二分类与多分类任务。特征设计兼具静态属性与动态行为指标，如上次联系月份、历史通话次数等时序信息，增强了模型的时序感知能力。标签字段明确指示客户是否订阅银行计划，为评估营销效果提供了直接依据。数据集以CSV格式存储，结构清晰，便于直接加载与预处理，支持快速实验迭代。

使用方法

该数据集适用于监督学习框架下的分类模型训练与评估。用户可通过HuggingFace的datasets库直接加载指定配置，例如使用'subscription'配置进行二分类任务。加载后，数据可进一步划分为训练集、验证集与测试集，用于构建预测模型，如逻辑回归、决策树或神经网络。特征工程中需注意类别变量的编码转换，并利用历史交互特征捕捉客户行为模式。模型训练完成后，可通过准确率、召回率等指标评估营销策略的有效性，为银行优化广告投放提供数据驱动的决策支持。

背景与挑战

背景概述

在金融营销领域，精准预测客户行为是提升业务转化率的关键。Bank数据集源于UCI机器学习知识库，记录了银行在二次广告营销活动中与潜在客户的互动数据，旨在探究客户是否订阅银行计划。该数据集由研究机构于2012年创建，核心研究问题聚焦于通过客户特征与交互历史构建分类模型，以优化营销策略。其在金融数据分析与机器学习应用领域具有广泛影响力，为银行客户行为预测提供了重要的实证基础。

当前挑战

Bank数据集致力于解决金融营销中的客户订阅预测问题，其挑战在于处理高度不平衡的类别分布，即订阅客户远少于未订阅客户，这可能导致模型偏向多数类。构建过程中，数据来源于真实营销活动，面临特征编码复杂性，如将职业、婚姻状况等分类变量转化为数值表示，同时需处理缺失值与异常值，确保数据质量与模型泛化能力。此外，时序特征如上次联系天数与活动月份的有效整合，也对特征工程提出了较高要求。

常用场景

经典使用场景

在金融营销领域，Bank数据集作为经典的客户行为分析工具，广泛用于构建和评估二分类预测模型。研究者通过整合年龄、职业、账户余额等多元特征，训练机器学习算法以精准识别潜在订阅者，从而优化营销策略的精准度与效率。

实际应用

实际应用中，Bank数据集助力银行机构实施数据驱动的精准营销，通过预测客户订阅倾向降低推广成本并提升转化率。同时，它支持风险管理与客户细分，为个性化金融产品推荐系统提供可靠的数据支撑。

衍生相关工作

围绕Bank数据集，衍生出多项经典研究，包括基于特征工程的客户画像构建、集成学习在营销预测中的性能比较，以及公平性算法在金融歧视缓解中的探索。这些工作进一步拓展了数据集在社会科学与计算交叉领域的价值。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集