Multimodal Banking Dataset (MBD)
收藏arXiv2024-09-26 更新2024-09-28 收录
下载链接:
https://huggingface.co/datasets/ai-lab/MBD
下载链接
链接失效反馈官方服务:
资源简介:
Multimodal Banking Dataset (MBD) 是由Sber AI Lab 莫斯科创建的一个工业级公开多模态银行数据集,包含超过150万企业客户的详细事件序列数据。数据集涵盖了9.5亿笔银行交易、10亿次地理位置事件、500万次技术支持对话的嵌入以及每月四种银行产品的购买记录。数据集经过适当的匿名化处理,确保客户隐私。MBD旨在解决银行客户需求预测和匹配问题,通过多模态数据分析,推动金融领域的大规模多模态算法的发展。
Multimodal Banking Dataset (MBD) is an industrial-grade publicly available multimodal banking dataset developed by Sber AI Lab in Moscow. It contains detailed event sequence data from over 1.5 million corporate clients, encompassing 950 million bank transactions, 1 billion geolocation events, embeddings generated from 5 million technical support conversations, and purchase records of four types of banking products per month. The dataset has undergone proper anonymization to protect customer privacy. MBD aims to address the challenges of bank customer demand forecasting and matching, and promote the development of large-scale multimodal algorithms in the financial sector through multimodal data analysis.
提供机构:
Sber AI Lab 莫斯科
创建时间:
2024-09-26
原始信息汇总
数据集概述
该数据集旨在帮助预测客户在报告日期后的一个月内购买各种产品的倾向。数据集包括银行客户在12个月内的交易活动、对话嵌入和地理活动等匿名历史数据。
数据集版本
- MBD-mini: 该数据集的简化版本,包含较少的客户和较短的时间跨度,但保留了与完整数据集相同的结构和特征。MBD-mini基于MBD中10%的唯一客户数据。
数据结构
数据集包含以下信息:
- 交易活动 (transactions): 包括交易金额、类型和日期等详细信息。
- 对话嵌入 (dialogs): 从客户交互中提取的嵌入,捕捉对话中的语义信息。
- 地理活动 (geostream): 代表客户地理活动模式的位置数据。
数据分割
数据集根据client_split分为5个折叠,用于交叉验证。每个折叠包含相同数量的唯一客户。
数据字段
client_split
- client_id: 客户ID
- fold: 折叠编号
detail
dialog
- client_id: 客户ID
- event_time: 对话日期
- embedding: 对话嵌入
- fold: 折叠编号
geo
- client_id: 客户ID
- event_time: 事件日期时间
- fold: 折叠编号
- geohash_4: Geohash级别4
- geohash_5: Geohash级别5
- geohash_6: Geohash级别6
trx
- client_id: 客户ID
- event_time: 交易日期
- amount: 交易金额
- fold: 折叠编号
- event_type: 交易类型
- event_subtype: 交易类型细化
- currency: 货币
- src_type11: 发送方特征1
- src_type12: 发送方特征1细化
- dst_type11: 承包方特征1
- dst_type12: 承包方特征1细化
- src_type21: 发送方特征2
- src_type22: 发送方特征2细化
- src_type31: 发送方特征3
- src_type32: 发送方特征3细化
ptls
dialog
- client_id: 客户ID
- event_time: 对话日期
- embedding: 对话嵌入
- fold: 折叠编号
geo
- client_id: 客户ID
- event_time: 事件日期时间
- fold: 折叠编号
- geohash_4: Geohash级别4
- geohash_5: Geohash级别5
- geohash_6: Geohash级别6
trx
- client_id: 客户ID
- event_time: 交易日期
- amount: 交易金额
- fold: 折叠编号
- event_type: 交易类型
- event_subtype: 交易类型细化
- currency: 货币
- src_type11: 发送方特征1
- src_type12: 发送方特征1细化
- dst_type11: 承包方特征1
- dst_type12: 承包方特征1细化
- src_type21: 发送方特征2
- src_type22: 发送方特征2细化
- src_type31: 发送方特征3
- src_type32: 发送方特征3细化
targets
- mon: 报告月份
- target_1: 第一个报告月份的产品发放标记
- target_2: 第二个报告月份的产品发放标记
- target_3: 第三个报告月份的产品发放标记
- target_4: 第四个报告月份的产品发放标记
- trans_count: 交易数量
- diff_trans_date: 交易时间差
- client_id: 客户ID
- fold: 折叠编号
搜集汇总
数据集介绍

构建方式
Multimodal Banking Dataset (MBD) 的构建基于对超过150万企业客户的详细数据收集,涵盖了四种不同的模态:9.5亿笔银行交易、10亿次地理位置事件、500万次技术支持对话的嵌入以及每月四种银行产品的购买汇总。数据集的构建过程包括从2021年和2022年选择完整的客户样本,确保覆盖所有季节性变化。随后,对这些数据进行匿名化处理,以确保客户隐私的保护,同时保留数据的整体结构和分析价值。
特点
MBD 数据集的显著特点在于其多模态性和大规模性。它不仅包含了丰富的交易和地理位置数据,还整合了对话嵌入,使得研究者能够全面分析客户的行为模式。此外,数据集的时间序列结构为预测和匹配任务提供了坚实的基础。匿名化处理确保了数据的安全性和隐私保护,使得该数据集在实际应用中具有高度的可靠性和适用性。
使用方法
MBD 数据集主要用于解决两类实际业务问题:下个月的购买预测(campaigning)和客户模态匹配。研究者可以通过分析交易、地理位置和对话数据的时间序列,构建多模态模型来预测客户的购买行为。同时,数据集支持模态匹配任务,帮助识别不同模态数据之间的关联性。通过使用该数据集,研究者可以开发和验证新的多模态算法,推动金融领域中大规模事件序列分析技术的发展。
背景与挑战
背景概述
随着消费者数字足迹的不断增长,金融机构收集了大量关于客户财务活动的数据,这些数据通常具有时间序列结构,形成了所谓的‘事件序列’。为了应对隐私问题和缺乏大规模多模态事件序列数据集的挑战,Sber AI Lab的研究团队于2024年9月推出了Multimodal Banking Dataset (MBD)。该数据集包含超过150万企业客户的多模态数据,包括9.5亿笔银行交易、10亿次地理位置事件、500万次技术支持对话的嵌入以及每月四种银行产品的购买汇总。MBD的推出旨在填补这一研究领域的空白,推动多模态事件序列分析算法的发展,特别是在金融领域的应用。
当前挑战
MBD数据集在构建过程中面临多项挑战。首先,数据的多模态特性带来了异步事件、事件强度差异、罕见事件以及某些模态缺失等问题,这增加了模型开发的复杂性。其次,数据匿名化过程需要确保客户隐私的同时,不影响模型的性能。此外,尽管已有一些单模态事件序列数据集,但缺乏大规模多模态数据集限制了相关研究的进展。MBD通过提供丰富的多模态数据,旨在解决这些挑战,推动金融领域多模态算法的实际应用。
常用场景
经典使用场景
Multimodal Banking Dataset (MBD) 的经典使用场景主要集中在金融领域的客户需求分析和预测。该数据集通过整合多种数据模态,包括银行交易、地理位置事件、技术支持对话和产品购买记录,为研究人员提供了一个丰富的数据资源。其核心应用之一是预测客户在未来一个月内的产品购买行为(campaigning),以及匹配不同模态下的客户数据。这些任务的解决依赖于数据集中的时间序列和空间属性,为金融机构提供了精准的市场营销和客户服务策略。
解决学术问题
MBD 数据集解决了金融领域中多模态事件序列数据分析的常见学术问题。由于隐私保护的限制,此前缺乏大规模公开的多模态数据集,这严重制约了相关研究的发展。MBD 的引入填补了这一空白,使得研究人员能够探索和开发适用于复杂多模态数据的算法。这不仅推动了金融科技领域的创新,还为其他依赖多模态数据分析的领域提供了宝贵的参考,具有深远的学术意义和影响。
衍生相关工作
MBD 数据集的发布催生了一系列相关研究工作。例如,研究人员基于该数据集开发了多种多模态融合模型,以提升客户行为预测的准确性。同时,也有工作探讨了如何更有效地进行数据匿名化和隐私保护,以确保在数据共享和使用中的合规性。此外,MBD 还激发了对多模态数据处理技术的深入研究,推动了金融科技领域的技术进步和应用创新。
以上内容由遇见数据集搜集并总结生成



