five

MBD

收藏
Hugging Face2024-08-14 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/ai-lab/MBD
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含匿名化的历史数据,用于预测银行客户在未来一个月内购买四种产品的倾向。数据集包括客户的交易活动、对话嵌入和地理活动等信息,分为四个配置:client_split用于客户分组,detail包含详细信息,ptls采用pytorch-lifestream格式,targets包含预测目标数据。

This dataset contains anonymized historical data for predicting the propensity of bank customers to purchase four products within the next month. It includes information such as customers' transaction activities, dialogue embeddings, and geographic activities, and is divided into four configurations: client_split: used for customer grouping; detail: contains detailed information; ptls: adopts the pytorch-lifestream format; targets: stores prediction target data.
创建时间:
2024-08-08
原始信息汇总

数据集概述

简介

预测客户购买产品的倾向性是许多公司的重要任务,有助于:

  • 评估客户需求,形成产品档案;
  • 提高推荐质量,形成套餐优惠,制定个性化条件;
  • 正确制定与客户的沟通策略;
  • 根据客户感兴趣产品的盈利性,估计客户未来能为公司带来的收入(客户终身价值 - CLTV)。

为解决此类问题,通常使用客户的各种数据:

  • 客户档案;
  • 历史购买和沟通记录;
  • 交易活动;
  • 永久或临时居住地的地理位置信息;
  • 等。

特别重要的是表征客户行为模式的数据(事件链),因为它们有助于理解客户行为的模式,评估其行为变化的动态。结合来自各种来源的行为数据,有助于更全面地描述客户在预测其需求方面的特征,这反过来又产生了最有效地组合各种模式以提高开发模型的性能和质量的任务。

数据

数据集包含匿名的历史数据,包含以下信息:交易活动(transactions)、对话嵌入(dialogs)、地理位置活动(geostream),涵盖银行部分客户在12个月内的数据。

目标:预测每个用户在报告日期后一个月内是否采取四种产品中的一种,历史数据在targets中。

数据配置

  • client_split: 将客户分成折叠

    • client_id: 客户ID
    • fold: 折叠编号
  • detail:

    • dialog: 对话嵌入
      • client_id: 客户ID
      • event_time: 对话日期
      • embedding: 对话嵌入
    • geo: 地理位置活动
      • client_id: 客户ID
      • event_time: 事件时间
      • fold: 折叠编号
      • geohash_4: 地理位置哈希级别4
      • geohash_5: 地理位置哈希级别5
      • geohash_6: 地理位置哈希级别6
    • trx: 交易活动
      • client_id: 客户ID
      • event_time: 交易日期
      • amount: 交易金额
      • fold: 折叠编号
      • event_type: 交易类型
      • event_subtype: 交易类型细化
      • currency: 货币
      • src_type11: 发送方特征1
      • src_type12: 发送方特征1细化
      • dst_type11: 承包商特征1
      • dst_type12: 承包商特征1细化
      • src_type21: 发送方特征2
      • src_type22: 发送方特征2细化
      • src_type31: 发送方特征3
      • src_type32: 发送方特征3细化
  • ptls: 数据与detail类似,但采用pytorch-lifestream格式

    • dialog: 对话嵌入
      • client_id: 客户ID
      • event_time: 对话日期数组
      • embedding: 对话嵌入数组
    • geo: 地理位置活动
      • client_id: 客户ID
      • event_time: 事件时间数组
      • fold: 折叠编号
      • geohash_4: 地理位置哈希级别4数组
      • geohash_5: 地理位置哈希级别5数组
      • geohash_6: 地理位置哈希级别6数组
    • trx: 交易活动
      • client_id: 客户ID
      • event_time: 交易日期数组
      • amount: 交易金额数组
      • fold: 折叠编号
      • event_type: 交易类型数组
      • event_subtype: 交易类型细化数组
      • currency: 货币数组
      • src_type11: 发送方特征1数组
      • src_type12: 发送方特征1细化数组
      • dst_type11: 承包商特征1数组
      • dst_type12: 承包商特征1细化数组
      • src_type21: 发送方特征2数组
      • src_type22: 发送方特征2细化数组
      • src_type31: 发送方特征3数组
      • src_type32: 发送方特征3细化数组
  • targets:

    • mon: 报告月份
    • target_1: 第一个报告月份的产品发放标记
    • target_2: 第二个报告月份的产品发放标记
    • target_3: 第三个报告月份的产品发放标记
    • target_4: 第四个报告月份的产品发放标记
    • trans_count: 交易数量
    • diff_trans_date: 交易时间差
    • client_id: 客户ID

数据集加载

下载单个文件

python from datasets import load_dataset

dataset = load_dataset("ai-lab/MBD", client_split)

下载整个仓库

python from datasets import load_dataset

dataset = load_dataset("ai-lab/MBD")

搜集汇总
数据集介绍
main_image_url
构建方式
MBD数据集的构建基于银行客户的匿名历史数据,涵盖了12个月内的交易活动、对话嵌入和地理位置活动。数据集通过将客户划分为五个等量的折叠,以便进行交叉验证。每个折叠包含相同数量的唯一客户,确保模型评估的公平性和全面性。此外,数据集还提供了简化版本MBD-mini,包含10%的客户数据,便于开发和测试阶段使用。
使用方法
MBD数据集的使用方法灵活多样,用户可以通过Hugging Face的`load_dataset`函数下载单个文件或整个数据集。数据集支持多种格式,包括PyTorch-Lifestream格式,便于在深度学习框架中使用。用户可以根据需求选择下载简化版本MBD-mini,以加快开发和测试速度。数据集的交叉验证设计使得用户能够轻松进行模型评估和优化,确保模型的泛化能力。
背景与挑战
背景概述
MBD数据集旨在帮助预测客户在报告日期后一个月内购买各种产品的倾向。该数据集由某银行客户的匿名历史数据组成,涵盖了12个月内的交易活动、对话嵌入和地理位置活动。数据集的核心研究问题是通过分析客户的交易行为、对话语义和地理活动模式,预测其未来购买行为。该数据集由AI Lab创建,并于2024年发布,其研究成果对金融科技领域的客户行为分析和个性化推荐系统具有重要影响。
当前挑战
MBD数据集在解决客户购买行为预测问题时面临多重挑战。首先,数据的高维性和复杂性使得特征提取和模型训练变得困难,尤其是对话嵌入和地理活动数据的处理需要复杂的算法支持。其次,数据的稀疏性和不均衡性可能导致模型过拟合或欠拟合,影响预测的准确性。此外,数据集的构建过程中,如何确保客户隐私的同时保持数据的可用性和有效性也是一个重要挑战。最后,跨验证的折叠划分虽然有助于模型评估,但也增加了数据处理和模型训练的复杂性。
常用场景
经典使用场景
MBD数据集在金融科技领域中被广泛用于客户行为预测模型的开发与验证。通过整合客户的交易活动、对话嵌入和地理位置数据,该数据集为研究人员提供了一个多维度的视角,用于分析客户在未来一个月内购买特定产品的倾向。这种预测能力对于银行和金融机构优化营销策略、提升客户满意度具有重要意义。
解决学术问题
MBD数据集解决了金融领域中的客户行为预测问题,尤其是如何通过历史数据预测客户未来的购买行为。该数据集通过提供丰富的交易、对话和地理位置信息,帮助研究人员构建更精确的预测模型,从而填补了传统方法在数据多样性和时间序列分析上的不足。这一突破为金融科技领域的学术研究提供了新的方向。
实际应用
在实际应用中,MBD数据集被用于银行和金融机构的客户关系管理系统中。通过分析客户的交易模式、对话内容和地理位置活动,金融机构能够更精准地识别潜在客户需求,并制定个性化的营销策略。这种数据驱动的决策方式不仅提高了营销效率,还显著提升了客户转化率。
数据集最近研究
最新研究方向
在金融科技领域,客户行为预测一直是研究的核心议题之一。MBD数据集通过整合交易活动、对话嵌入和地理位置数据,为研究人员提供了一个多维度的客户行为分析框架。近年来,基于该数据集的研究主要集中在利用深度学习模型提升客户购买倾向预测的准确性。特别是对话嵌入的应用,使得模型能够捕捉客户交互中的语义信息,从而更精准地预测其未来行为。此外,地理位置数据的引入为研究客户的地理活动模式提供了新的视角,进一步丰富了预测模型的输入特征。这些研究不仅推动了金融科技领域的技术进步,也为银行和金融机构提供了更智能化的客户管理工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作