RaboBank Dataset
收藏arXiv2021-09-22 更新2024-06-21 收录
下载链接:
https://github.com/akratiiet/RaboBank Dataset
下载链接
链接失效反馈官方服务:
资源简介:
RaboBank Dataset是由荷兰跨国银行和金融服务公司Coöperatieve Rabobank U.A.收集的数据集,包含1,624,030个银行账户及其间的交易记录。数据集覆盖了2010年至2020年间,涉及4,127,043笔交易。该数据集可用于构建无权和加权交易网络,分析金融交易系统的微观和宏观层面,以及改进金融领域的下游任务,如欺诈检测和用户分类。此外,数据集还可用于金融模拟器设计,研究群体用户行为。这是首个公开分享的银行内部交易数据集,旨在揭示银行交易网络与其他无标度网络的独特特征。
The RaboBank Dataset is a collection curated by Coöperatieve Rabobank U.A., a Dutch multinational banking and financial services corporation. It encompasses 1,624,030 bank accounts and the transaction records between them. Spanning the period from 2010 to 2020, the dataset involves a total of 4,127,043 transactions. This dataset can be used to construct unweighted and weighted transaction networks, analyze the micro- and macro-level properties of financial transaction systems, and optimize downstream financial tasks such as fraud detection and user classification. Additionally, it can also be applied to the design of financial simulators and the research of group user behaviors. As the first publicly shared internal bank transaction dataset, it aims to reveal the unique characteristics of bank transaction networks when compared with other scale-free networks.
提供机构:
埃因霍温理工大学
创建时间:
2021-09-22
搜集汇总
数据集介绍

构建方式
在金融网络分析领域,RaboBank Dataset的构建体现了对银行交易数据的系统性处理。该数据集源自荷兰合作银行2010年至2020年间超过160万用户的交易记录,通过将银行账户映射为节点,交易关系映射为边,构建了一个包含162.4万个节点和382.3万条边的有向网络。每条边赋予两种权重:交易总金额与交易总次数,从而形成未加权网络G、金额加权网络G^T和次数加权网络G^N。数据经过匿名化处理,并聚焦于最大弱连通分量,确保了网络结构的完整性与代表性。
使用方法
该数据集适用于金融网络分析与计算社会科学的多类研究任务。研究者可基于其网络拓扑与加权属性,开展资金流动模拟、社区检测及异常交易识别等应用。例如,通过分析节点中心性指标如PageRank与边介数中心性,可识别关键账户与交易路径;利用社区发现算法能揭示用户群体的交易行为模式;结合加权聚类系数与强度分布,可进一步探索交易频率与金额的关联性。数据集以标准格式公开,支持网络分析工具的直接导入,为跨学科实证研究提供了可靠基础。
背景与挑战
背景概述
在复杂网络分析领域,金融交易网络的研究长期聚焦于贸易网络或银行间交易网络,而银行内部交易数据的公开与分析则相对匮乏。RaboBank数据集由荷兰埃因霍温理工大学与荷兰合作银行于2020年联合构建,首次公开了涵盖2010年至2020年间超过160万用户、412万余笔交易的银行内部交易记录。该数据集以复杂网络形式呈现,节点代表银行账户,边代表交易关系,并赋予交易金额与频次双重权重。其核心研究问题在于揭示微观资金流动模式与宏观交易系统结构之间的关联,为欺诈检测、用户分类等下游任务提供拓扑视角的指导,同时弥补了现有金融模拟器在集体行为建模方面的不足。作为首个公开的银行内部交易数据集,它不仅推动了金融网络分析向更细粒度发展,也为理解社会资金演化机制提供了珍贵实证基础。
当前挑战
该数据集致力于解决银行内部交易网络的结构特性分析与比较研究问题,其核心挑战在于如何从海量交易数据中提取有意义的网络特征,并揭示其与经典无标度网络的异同。具体而言,领域问题的挑战包括:交易网络兼具信息网络与社会网络属性,其度分布、强度分布虽符合幂律特征,但节点出入度与出入强度之间缺乏相关性,这与传统信息网络如万维网存在显著差异;同时,网络表现出非随机演化特征,如高阶团结构的富集与社区核心边缘结构的存在,但边权重与弱连接之间的关联模式又不同于社交网络,这为构建契合其动态的演化模型带来理论难题。构建过程中的挑战则涉及数据隐私与匿名化处理,在保护用户敏感信息的同时需保持网络结构完整性;此外,从原始交易记录构建加权网络时,需有效整合交易金额与频次等多维权重,并处理大规模网络计算的高复杂度问题,如最短路径与中心性度量的近似计算。
常用场景
经典使用场景
在金融网络分析领域,RaboBank数据集作为首个公开的银行内部交易网络数据,为研究资金流动的微观机制提供了珍贵资源。该数据集通过构建包含160万节点和380万边的交易网络,并赋予边以交易金额和交易次数双重权重,使得研究者能够深入探索无标度网络在金融交易中的独特拓扑特性。其经典应用场景集中于分析网络的基本特征,如度分布、强度分布以及聚类系数,从而揭示用户交易行为的结构模式,为理解社会资金流动的宏观系统奠定基础。
解决学术问题
该数据集有效解决了金融网络分析中缺乏真实内部交易数据的学术空白。传统研究多依赖贸易网络或银行间交易数据,其模式与内部交易存在显著差异;而合成数据生成器如PaySim虽能模拟交易,却难以捕捉真实网络的复杂动力学。RaboBank数据集通过提供长达十一年的真实交易记录,使学者能够系统检验网络的无标度特性、社区结构及核心-边缘分层,进而推动对资金流动演化机制的理论建模,并为异常检测、用户分类等下游任务提供拓扑视角的指导。
实际应用
在实际应用层面,RaboBank数据集为金融风险管理和服务优化提供了实证支持。基于该数据集构建的交易网络能够识别异常交易模式,助力银行系统早期发现欺诈行为或可疑用户;其社区结构分析可揭示用户群体的集体行为,辅助设计更精准的金融产品推荐策略。此外,网络的核心-边缘分析有助于理解资金从外围向中心节点的汇聚路径,为货币政策模拟和系统性风险评估提供数据基础,提升金融系统的稳健性与服务效率。
数据集最近研究
最新研究方向
在金融网络分析领域,RaboBank Dataset作为首个公开的银行内部交易数据集,为理解资金流动的微观机制与宏观系统提供了独特视角。该数据集基于2010年至2020年间超过160万用户的交易记录构建,涵盖未加权及加权网络,其前沿研究聚焦于利用复杂网络理论揭示交易拓扑结构与动态演化规律。当前热点方向包括基于网络中心性度量的异常检测与欺诈识别,以及通过社区结构与核心-边缘分析探究资金在群体中的聚集与扩散模式。这些研究不仅推动了金融模拟器的设计从个体行为向集体行为拓展,也为政策制定者在防范系统性风险、优化交易监控体系方面提供了数据驱动的见解,对金融安全与网络科学交叉领域具有深远影响。
相关研究论文
- 1The Banking Transactions Dataset and its Comparative Analysis with Scale-free Networks埃因霍温理工大学 · 2021年
以上内容由遇见数据集搜集并总结生成



