Bitcoin Transaction Graph Dataset
收藏arXiv2024-11-16 更新2024-11-18 收录
下载链接:
https://figshare.com/articles/dataset/BitcoinTemporalGraph/26305093
下载链接
链接失效反馈官方服务:
资源简介:
Bitcoin Transaction Graph Dataset是由法国巴黎综合理工学院和Coinshares共同创建的一个大规模比特币交易图数据集。该数据集包含25200万个节点和78500万条边,覆盖了近13年的67000万笔交易,每条边和节点都带有时间戳。数据集的创建过程包括从比特币区块链中提取原始数据,并通过一系列的筛选和聚类方法构建图结构。该数据集主要用于比特币网络的研究,旨在通过分析交易模式来识别潜在的风险和犯罪行为,如洗钱、欺诈等,从而提高比特币网络的安全性和透明度。
Bitcoin Transaction Graph Dataset is a large-scale Bitcoin transaction graph dataset jointly created by École Polytechnique in France and Coinshares. This dataset contains 252 million nodes and 785 million edges, covering 670 million transactions spanning nearly 13 years, with timestamps associated with every node and edge. The dataset creation process involves extracting raw data from the Bitcoin blockchain and constructing the graph structure via a series of filtering and clustering methods. This dataset is primarily intended for Bitcoin network research, aiming to identify potential risks and criminal activities such as money laundering and fraud through transaction pattern analysis, thereby enhancing the security and transparency of the Bitcoin network.
提供机构:
法国巴黎综合理工学院,Coinshares
创建时间:
2024-11-16
搜集汇总
数据集介绍

构建方式
比特币交易图数据集的构建基于近13年的比特币交易历史,涵盖了670万笔交易。该数据集以图的形式呈现,包含2.52亿个节点和7.85亿条边,每个节点和边均带有时间戳。节点代表比特币网络中的实体,如个人、组织或机构,而边则表示这些实体之间的价值转移。数据集的构建过程中,首先从比特币区块链中提取所有交易数据,然后通过聚类算法将相关联的脚本归类为同一实体,从而形成图中的节点。此外,数据集还排除了CoinJoin和彩色币交易,以确保分析的准确性和一致性。
特点
比特币交易图数据集具有多个显著特点。首先,它是目前公开可用的最大比特币交易数据集,涵盖了广泛的时间跨度和交易量,为深入研究提供了丰富的数据资源。其次,数据集中的每个节点和边都带有时间戳,这为时间序列分析和动态网络研究提供了可能。此外,数据集还包含3.3万个基于实体类型的节点标签和近10万个带有实体名称和类型的比特币地址标签,这些标签有助于进行监督学习和分类任务。最后,数据集的构建过程中采用了多种数据清洗和处理技术,确保了数据的质量和可靠性。
使用方法
比特币交易图数据集可用于多种研究目的。首先,研究人员可以利用该数据集进行图神经网络模型的训练和评估,以预测节点标签或识别异常交易模式。其次,数据集的时间戳信息使得研究者能够分析比特币网络的动态变化,如节点和边的数量随时间的变化趋势。此外,数据集还可以用于研究不同实体类型之间的交互模式,以及这些交互如何受到政治、经济或金融环境的影响。最后,该数据集的公开可用性为复现研究结果和开展进一步的比特币相关研究提供了便利。
背景与挑战
背景概述
比特币交易图数据集由Hugo Schnoering和Michalis Vazirgiannis于2024年创建,旨在解决比特币交易分析中的数据稀缺问题。该数据集包含了252百万个节点和785百万条边,覆盖了近13年的比特币交易数据,是迄今为止最大的公开比特币交易数据集。其核心研究问题在于通过图结构分析比特币用户间的交易模式,以揭示网络的健康状况和增长趋势,同时识别潜在的金融犯罪风险。该数据集的发布极大地推动了比特币研究领域的发展,为研究人员提供了丰富的数据资源,以探索和验证各种假设。
当前挑战
比特币交易图数据集面临的挑战主要包括数据构建和分析两个方面。首先,构建过程中需要处理庞大的区块链数据,提取相关信息并构建图结构,这一过程需要高度专业化的比特币知识,对研究者构成了技术壁垒。其次,数据分析中需应对隐私保护和金融犯罪检测的复杂性,如通过CoinJoin等技术增加的隐私层,以及识别和排除如CoinJoin和彩色币交易等特殊交易类型。此外,数据集的标签生成依赖于外部数据源,如BitcoinTalk论坛和ChatGPT,这带来了数据准确性和代表性的挑战。
常用场景
经典使用场景
比特币交易图数据集的经典使用场景在于通过分析比特币用户之间的交易图,揭示数字经济中的价值流动模式。该数据集包含252百万个节点和785百万条边,覆盖了近13年的交易数据,为研究者提供了丰富的资源。通过构建和分析这些交易图,研究者可以深入探索比特币网络的动态变化,识别异常交易模式,从而为网络安全和反洗钱等领域提供有力支持。
解决学术问题
比特币交易图数据集解决了现有数据集在比特币研究中的局限性,特别是在数据规模和时间跨度上的不足。该数据集通过提供大规模、长时间跨度的交易图,使得研究者能够进行更深入的分析,从而解决诸如网络动态变化、异常交易检测和金融犯罪识别等学术问题。此外,该数据集的公开可用性促进了比特币领域的研究进展,为未来的研究奠定了坚实的基础。
衍生相关工作
比特币交易图数据集的发布催生了大量相关研究工作,特别是在图神经网络(GNN)和金融犯罪检测领域。研究者利用该数据集训练和验证了多种GNN模型,如GCN、GraphSage、GAT和GIN,以预测节点标签和识别异常交易。此外,该数据集还促进了对比特币网络动态变化和用户行为模式的研究,推动了比特币生态系统的理解和优化。这些衍生工作不仅丰富了比特币领域的研究内容,也为其他数字货币和区块链技术的研究提供了宝贵的参考。
以上内容由遇见数据集搜集并总结生成



