five

Bitcoin Transaction Graph Dataset|比特币数据集|交易图分析数据集

收藏
arXiv2024-11-16 更新2024-11-18 收录
比特币
交易图分析
下载链接:
https://figshare.com/articles/dataset/BitcoinTemporalGraph/26305093
下载链接
链接失效反馈
资源简介:
Bitcoin Transaction Graph Dataset是由法国巴黎综合理工学院和Coinshares共同创建的一个大规模比特币交易图数据集。该数据集包含25200万个节点和78500万条边,覆盖了近13年的67000万笔交易,每条边和节点都带有时间戳。数据集的创建过程包括从比特币区块链中提取原始数据,并通过一系列的筛选和聚类方法构建图结构。该数据集主要用于比特币网络的研究,旨在通过分析交易模式来识别潜在的风险和犯罪行为,如洗钱、欺诈等,从而提高比特币网络的安全性和透明度。
提供机构:
法国巴黎综合理工学院,Coinshares
创建时间:
2024-11-16
AI搜集汇总
数据集介绍
main_image_url
构建方式
比特币交易图数据集的构建基于近13年的比特币交易历史,涵盖了670万笔交易。该数据集以图的形式呈现,包含2.52亿个节点和7.85亿条边,每个节点和边均带有时间戳。节点代表比特币网络中的实体,如个人、组织或机构,而边则表示这些实体之间的价值转移。数据集的构建过程中,首先从比特币区块链中提取所有交易数据,然后通过聚类算法将相关联的脚本归类为同一实体,从而形成图中的节点。此外,数据集还排除了CoinJoin和彩色币交易,以确保分析的准确性和一致性。
特点
比特币交易图数据集具有多个显著特点。首先,它是目前公开可用的最大比特币交易数据集,涵盖了广泛的时间跨度和交易量,为深入研究提供了丰富的数据资源。其次,数据集中的每个节点和边都带有时间戳,这为时间序列分析和动态网络研究提供了可能。此外,数据集还包含3.3万个基于实体类型的节点标签和近10万个带有实体名称和类型的比特币地址标签,这些标签有助于进行监督学习和分类任务。最后,数据集的构建过程中采用了多种数据清洗和处理技术,确保了数据的质量和可靠性。
使用方法
比特币交易图数据集可用于多种研究目的。首先,研究人员可以利用该数据集进行图神经网络模型的训练和评估,以预测节点标签或识别异常交易模式。其次,数据集的时间戳信息使得研究者能够分析比特币网络的动态变化,如节点和边的数量随时间的变化趋势。此外,数据集还可以用于研究不同实体类型之间的交互模式,以及这些交互如何受到政治、经济或金融环境的影响。最后,该数据集的公开可用性为复现研究结果和开展进一步的比特币相关研究提供了便利。
背景与挑战
背景概述
比特币交易图数据集由Hugo Schnoering和Michalis Vazirgiannis于2024年创建,旨在解决比特币交易分析中的数据稀缺问题。该数据集包含了252百万个节点和785百万条边,覆盖了近13年的比特币交易数据,是迄今为止最大的公开比特币交易数据集。其核心研究问题在于通过图结构分析比特币用户间的交易模式,以揭示网络的健康状况和增长趋势,同时识别潜在的金融犯罪风险。该数据集的发布极大地推动了比特币研究领域的发展,为研究人员提供了丰富的数据资源,以探索和验证各种假设。
当前挑战
比特币交易图数据集面临的挑战主要包括数据构建和分析两个方面。首先,构建过程中需要处理庞大的区块链数据,提取相关信息并构建图结构,这一过程需要高度专业化的比特币知识,对研究者构成了技术壁垒。其次,数据分析中需应对隐私保护和金融犯罪检测的复杂性,如通过CoinJoin等技术增加的隐私层,以及识别和排除如CoinJoin和彩色币交易等特殊交易类型。此外,数据集的标签生成依赖于外部数据源,如BitcoinTalk论坛和ChatGPT,这带来了数据准确性和代表性的挑战。
常用场景
经典使用场景
比特币交易图数据集的经典使用场景在于通过分析比特币用户之间的交易图,揭示数字经济中的价值流动模式。该数据集包含252百万个节点和785百万条边,覆盖了近13年的交易数据,为研究者提供了丰富的资源。通过构建和分析这些交易图,研究者可以深入探索比特币网络的动态变化,识别异常交易模式,从而为网络安全和反洗钱等领域提供有力支持。
解决学术问题
比特币交易图数据集解决了现有数据集在比特币研究中的局限性,特别是在数据规模和时间跨度上的不足。该数据集通过提供大规模、长时间跨度的交易图,使得研究者能够进行更深入的分析,从而解决诸如网络动态变化、异常交易检测和金融犯罪识别等学术问题。此外,该数据集的公开可用性促进了比特币领域的研究进展,为未来的研究奠定了坚实的基础。
衍生相关工作
比特币交易图数据集的发布催生了大量相关研究工作,特别是在图神经网络(GNN)和金融犯罪检测领域。研究者利用该数据集训练和验证了多种GNN模型,如GCN、GraphSage、GAT和GIN,以预测节点标签和识别异常交易。此外,该数据集还促进了对比特币网络动态变化和用户行为模式的研究,推动了比特币生态系统的理解和优化。这些衍生工作不仅丰富了比特币领域的研究内容,也为其他数字货币和区块链技术的研究提供了宝贵的参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。

www.nrel.gov 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录