five

BABD-13

收藏
arXiv2022-05-05 更新2024-06-21 收录
下载链接:
https://www.kaggle.com/datasets/lemonx/babd13
下载链接
链接失效反馈
官方服务:
资源简介:
BABD-13数据集由中国地质大学(武汉)计算机学院创建,是目前公开可用的最大标记比特币地址行为数据集。该数据集包含13种比特币地址类型,5类指标共148个特征,以及544,462个标记数据。数据集的创建过程涉及从比特币公共API收集交易记录,并从多个来源标记地址。BABD-13主要用于分析比特币地址的行为模式,支持机器学习模型在多分类任务中的应用,旨在提高对正常与可疑比特币地址的识别准确性。

The BABD-13 dataset, created by the School of Computer Science, China University of Geosciences (Wuhan), is the largest publicly available labeled dataset for Bitcoin address behaviors to date. This dataset covers 13 types of Bitcoin addresses, 148 features across 5 categories of metrics, and 544,462 labeled samples. The development of this dataset involved collecting transaction records from public Bitcoin APIs and labeling addresses from multiple sources. BABD-13 is primarily used for analyzing behavioral patterns of Bitcoin addresses, supporting the application of machine learning models in multi-classification tasks, and aims to improve the accuracy of identifying normal and suspicious Bitcoin addresses.
提供机构:
中国地质大学(武汉)计算机学院
创建时间:
2022-04-10
搜集汇总
数据集介绍
main_image_url
构建方式
BABD-13数据集是通过收集和分析比特币交易数据构建而成的。该数据集包含了从2019年7月12日至2021年5月26日之间的比特币交易数据,其中包括了13种不同类型的比特币地址,5个分类指标,以及148个特征。数据集的构建采用了有向异构多图模型,以减少信息损失并提高分析准确性。为了收集数据,研究者们使用了公开的比特币账本数据,并从多个来源收集了标签化的比特币地址数据。
特点
BABD-13数据集具有以下特点:1. 规模庞大:包含了544,462个标签化的数据,是目前公开可用的最大的比特币地址行为数据集之一。2. 类型丰富:包含了13种不同类型的比特币地址,如勒索、网络安全服务、暗网市场等。3. 特征全面:包含了148个特征,分为5个分类指标,包括纯量指标、纯度指标、纯时间指标、组合指标和局部结构指标。4. 性能优异:使用该数据集进行的多分类任务,机器学习模型的准确率在93.24%到97.13%之间。
使用方法
使用BABD-13数据集的方法如下:1. 数据准备:首先需要将比特币账本数据转换为有向异构多图模型。2. 特征提取:从构建的多图模型中提取148个特征,分为5个分类指标。3. 模型训练:使用提取的特征对机器学习模型进行训练,如k近邻算法、决策树、随机森林、多层感知器和XGBoost。4. 模型评估:使用测试集评估模型的性能,如准确率、精确率、召回率和F1分数。5. 特征分析:分析不同特征的重要性,并选择对模型性能影响较大的特征进行进一步研究。6. 模型改进:根据特征分析结果,选择更重要的特征进行模型训练,以提高模型的性能。
背景与挑战
背景概述
在数字货币交易追踪领域,比特币作为一种流行的加密货币,其交易的可追溯性引起了广泛关注。为了深入研究比特币地址的行为模式,Xiang等人构建了一个名为BABD-13的数据集。该数据集收集了从2019年7月12日至2021年5月26日期间的比特币交易数据,包含了13种类型的比特币地址,5类共148个特征,以及544,462个标签数据。这是迄今为止公开可用的最大的标记比特币地址行为数据集。研究者使用该数据集对常见的机器学习模型进行了评估,包括k-最近邻算法、决策树、随机森林、多层感知器和XGBoost。实验结果表明,这些模型在多分类任务上的准确率在93.24%到97.13%之间。此外,研究者还提出了一个k-hop子图生成算法,用于从整个比特币交易图中提取特定地址节点的k-hop子图,并分析了不同类型比特币地址的行为模式。
当前挑战
尽管BABD-13数据集在比特币地址行为分析方面取得了显著成果,但仍面临一些挑战。首先,数据集的构建过程中,如何确保标签数据的准确性和完整性是一个重要问题。其次,现有的比特币地址类型划分可能不够全面和准确,需要进一步的研究和改进。此外,在分析比特币地址行为模式时,如何有效地提取和利用局部结构特征是一个关键挑战。最后,随着比特币交易的不断发展,数据集需要不断更新以保持其相关性和实用性。
常用场景
经典使用场景
BABD-13数据集在比特币地址行为模式分析中扮演着重要角色。它为研究比特币交易图的结构特征提供了基础,并通过对地址节点的分析,揭示了不同类型比特币地址的行为模式。此外,该数据集还被用于评估常见的机器学习模型在多分类任务上的表现,以及提取结构特征并生成k-hop子图,以深入理解比特币地址行为。最后,通过对不同类型比特币地址的行为模式进行分析,为未来的研究提供了基础。
衍生相关工作
BABD-13数据集衍生了许多相关的工作,包括但不限于:1)使用比特币交易数据构建比特币交易图,并分析地址节点;2)使用常见的机器学习模型(如k-最近邻算法、决策树、随机森林、多层感知器和XGBoost)评估比特币地址行为;3)提出一种k-hop子图生成算法,从整个比特币交易图中提取k-hop子图;4)分析不同类型比特币地址的行为模式。这些相关的工作进一步推动了比特币地址行为分析领域的发展,并为未来的研究提供了重要的基础。
数据集最近研究
最新研究方向
在当前数字经济迅速发展的背景下,比特币等加密货币的交易行为分析已成为网络安全和金融监管领域的前沿研究方向。BABD-13数据集的提出,为这一领域的研究提供了宝贵的数据基础。该数据集包含了13种类型的比特币地址、5类共148个特征的指标,以及544,462条标注数据,是目前公开可用的最大的比特币地址行为数据集。通过该数据集,研究者们可以运用机器学习模型,如k-最近邻算法、决策树、随机森林、多层感知器和XGBoost等,对地址行为进行多分类任务,并取得了93.24%至97.13%的准确率。此外,BABD-13还引入了k-hop子图生成算法,用于从整个比特币交易图中提取特定地址节点的子图,从而更好地理解地址行为模式。
相关研究论文
  • 1
    BABD: A Bitcoin Address Behavior Dataset for Pattern Analysis中国地质大学(武汉)计算机学院 · 2022年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作