five

Bitcoin Transaction Graph Dataset|比特币数据集|交易图分析数据集

收藏
arXiv2024-11-16 更新2024-11-18 收录
比特币
交易图分析
下载链接:
https://figshare.com/articles/dataset/BitcoinTemporalGraph/26305093
下载链接
链接失效反馈
资源简介:
Bitcoin Transaction Graph Dataset是由法国巴黎综合理工学院和Coinshares共同创建的一个大规模比特币交易图数据集。该数据集包含25200万个节点和78500万条边,覆盖了近13年的67000万笔交易,每条边和节点都带有时间戳。数据集的创建过程包括从比特币区块链中提取原始数据,并通过一系列的筛选和聚类方法构建图结构。该数据集主要用于比特币网络的研究,旨在通过分析交易模式来识别潜在的风险和犯罪行为,如洗钱、欺诈等,从而提高比特币网络的安全性和透明度。
提供机构:
法国巴黎综合理工学院,Coinshares
创建时间:
2024-11-16
AI搜集汇总
数据集介绍
main_image_url
构建方式
比特币交易图数据集的构建基于近13年的比特币交易历史,涵盖了670万笔交易。该数据集以图的形式呈现,包含2.52亿个节点和7.85亿条边,每个节点和边均带有时间戳。节点代表比特币网络中的实体,如个人、组织或机构,而边则表示这些实体之间的价值转移。数据集的构建过程中,首先从比特币区块链中提取所有交易数据,然后通过聚类算法将相关联的脚本归类为同一实体,从而形成图中的节点。此外,数据集还排除了CoinJoin和彩色币交易,以确保分析的准确性和一致性。
特点
比特币交易图数据集具有多个显著特点。首先,它是目前公开可用的最大比特币交易数据集,涵盖了广泛的时间跨度和交易量,为深入研究提供了丰富的数据资源。其次,数据集中的每个节点和边都带有时间戳,这为时间序列分析和动态网络研究提供了可能。此外,数据集还包含3.3万个基于实体类型的节点标签和近10万个带有实体名称和类型的比特币地址标签,这些标签有助于进行监督学习和分类任务。最后,数据集的构建过程中采用了多种数据清洗和处理技术,确保了数据的质量和可靠性。
使用方法
比特币交易图数据集可用于多种研究目的。首先,研究人员可以利用该数据集进行图神经网络模型的训练和评估,以预测节点标签或识别异常交易模式。其次,数据集的时间戳信息使得研究者能够分析比特币网络的动态变化,如节点和边的数量随时间的变化趋势。此外,数据集还可以用于研究不同实体类型之间的交互模式,以及这些交互如何受到政治、经济或金融环境的影响。最后,该数据集的公开可用性为复现研究结果和开展进一步的比特币相关研究提供了便利。
背景与挑战
背景概述
比特币交易图数据集由Hugo Schnoering和Michalis Vazirgiannis于2024年创建,旨在解决比特币交易分析中的数据稀缺问题。该数据集包含了252百万个节点和785百万条边,覆盖了近13年的比特币交易数据,是迄今为止最大的公开比特币交易数据集。其核心研究问题在于通过图结构分析比特币用户间的交易模式,以揭示网络的健康状况和增长趋势,同时识别潜在的金融犯罪风险。该数据集的发布极大地推动了比特币研究领域的发展,为研究人员提供了丰富的数据资源,以探索和验证各种假设。
当前挑战
比特币交易图数据集面临的挑战主要包括数据构建和分析两个方面。首先,构建过程中需要处理庞大的区块链数据,提取相关信息并构建图结构,这一过程需要高度专业化的比特币知识,对研究者构成了技术壁垒。其次,数据分析中需应对隐私保护和金融犯罪检测的复杂性,如通过CoinJoin等技术增加的隐私层,以及识别和排除如CoinJoin和彩色币交易等特殊交易类型。此外,数据集的标签生成依赖于外部数据源,如BitcoinTalk论坛和ChatGPT,这带来了数据准确性和代表性的挑战。
常用场景
经典使用场景
比特币交易图数据集的经典使用场景在于通过分析比特币用户之间的交易图,揭示数字经济中的价值流动模式。该数据集包含252百万个节点和785百万条边,覆盖了近13年的交易数据,为研究者提供了丰富的资源。通过构建和分析这些交易图,研究者可以深入探索比特币网络的动态变化,识别异常交易模式,从而为网络安全和反洗钱等领域提供有力支持。
解决学术问题
比特币交易图数据集解决了现有数据集在比特币研究中的局限性,特别是在数据规模和时间跨度上的不足。该数据集通过提供大规模、长时间跨度的交易图,使得研究者能够进行更深入的分析,从而解决诸如网络动态变化、异常交易检测和金融犯罪识别等学术问题。此外,该数据集的公开可用性促进了比特币领域的研究进展,为未来的研究奠定了坚实的基础。
衍生相关工作
比特币交易图数据集的发布催生了大量相关研究工作,特别是在图神经网络(GNN)和金融犯罪检测领域。研究者利用该数据集训练和验证了多种GNN模型,如GCN、GraphSage、GAT和GIN,以预测节点标签和识别异常交易。此外,该数据集还促进了对比特币网络动态变化和用户行为模式的研究,推动了比特币生态系统的理解和优化。这些衍生工作不仅丰富了比特币领域的研究内容,也为其他数字货币和区块链技术的研究提供了宝贵的参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

IR-500K

IR-500K是一个大型红外数据集,包含500,000张红外图像,涵盖了各种场景和物体在不同环境条件下的图像。

github 收录

UAVDT

UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录

Global Wind Atlas (GWA)

Global Wind Atlas (GWA) 是一个全球风能资源数据集,提供了高分辨率的风速和风能密度数据。该数据集覆盖全球范围,包括陆地和海洋,旨在支持风能项目的规划和评估。数据集提供了多种风速和风能密度指标,以及风向和风能分布图。

globalwindatlas.info 收录

MOT17

MOT17 挑战。所有 MOT16 序列都与新的、更准确的地面实况一起使用。每个序列提供 3 组检测:DPM、Faster-RCNN、

OpenDataLab 收录