Elliptic Dataset
收藏github2023-11-15 更新2024-05-31 收录
下载链接:
https://github.com/advaitrane/GCN_Elliptic-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
用于比特币交易的Elliptic数据集,包含交易图数据。
The Elliptic dataset for Bitcoin transactions, containing transaction graph data.
创建时间:
2019-10-29
原始信息汇总
GCN_Elliptic-Dataset 概述
数据集描述
- 来源:Elliptic比特币交易数据集,可从 Kaggle 下载。
- 注意事项:
- 请勿更改CSV文件的名称。
- 如需更改数据集文件夹名称,请在训练和测试时通过命令行参数指定更改后的路径。
代码文件
util.py:包含加载数据的函数。model.py:实现具有两层的图卷积网络。train_GCN.py:用于训练GCN的Python脚本。test_GCN.py:使用训练得到的权重测试GCN的Python脚本。train_SkipGCN.py:用于训练SkipGCN的Python脚本。test_SkipGCN.py:使用训练得到的权重测试SkipGCN的Python脚本。GCN_Elliptic Dataset.ipynb:执行所有任务的主要Jupyter笔记本。
使用方法
训练GCN
python train_GCN.py -d [:dataset directory path] -e [:number of epochs] -l [:learning rate] -t [:number of timesteps to train] -m [:directory to save model weights]
测试GCN
python test_GCN.py -d [:dataset directory path] -t [:timestep to start testing] -m [:model weights directory]
训练SkipGCN
python train_SkipGCN.py -d [:dataset directory path] -e [:number of epochs] -l [:learning rate] -hs [:hidden layer size] -t [:number of timesteps to train] -m [:directory to save model weights]
注意:训练SkipGCN可能不稳定,可能导致输出中出现NAN。可以通过更改隐藏层大小来解决问题。
测试SkipGCN
python test_SkipGCN.py -d [:dataset directory path] -t [:timestep to start testing] -hs [:hidden layer size] -m [:model weights directory]
搜集汇总
数据集介绍

构建方式
Elliptic Dataset的构建基于比特币交易图数据,该数据集通过从Elliptic平台获取的比特币交易记录进行整理和标注。数据以图结构的形式呈现,节点代表比特币交易,边代表交易之间的关联。数据集中的交易被分为合法和非法两类,并通过时间步长进行划分,以便于时间序列分析。数据集的构建过程充分考虑了比特币交易网络的复杂性和动态性,确保了数据的真实性和代表性。
特点
Elliptic Dataset的特点在于其独特的图结构表示方式,能够捕捉比特币交易网络中的复杂关系。数据集包含了超过200,000个节点和超过230,000条边,涵盖了49个时间步长的交易数据。每个节点具有丰富的特征信息,包括交易金额、时间戳等,边则反映了交易之间的资金流动。此外,数据集还提供了详细的标签信息,便于进行监督学习任务。这些特点使得该数据集成为研究比特币交易网络和金融欺诈检测的理想选择。
使用方法
Elliptic Dataset的使用方法主要围绕图卷积网络(GCN)的训练和测试展开。用户可以通过提供的Python脚本进行模型的训练和测试,脚本支持自定义参数如学习率、训练轮数和时间步长等。数据集的使用流程包括数据加载、模型训练、模型测试和结果评估。用户需确保数据文件的路径正确,并根据需要调整模型参数以获得最佳性能。此外,数据集还提供了预训练的模型权重,便于用户快速进行模型验证和比较。
背景与挑战
背景概述
Elliptic Dataset 是一个专注于比特币交易图数据的公开数据集,旨在通过图神经网络(GCN)等技术解决加密货币交易中的欺诈检测问题。该数据集由Elliptic公司于2019年发布,涵盖了超过200,000笔比特币交易,每笔交易被标记为合法或非法。数据集的核心研究问题在于如何利用图结构数据识别复杂的金融欺诈行为,尤其是在去中心化的加密货币交易网络中。该数据集的出现为金融科技领域的研究者提供了一个重要的实验平台,推动了图神经网络在金融欺诈检测中的应用。
当前挑战
Elliptic Dataset 面临的挑战主要集中在两个方面。首先,加密货币交易的匿名性和复杂性使得欺诈检测任务极具挑战性,尤其是在交易图数据中,欺诈行为往往隐藏在复杂的网络结构中,难以通过传统的机器学习方法有效识别。其次,在数据集的构建过程中,如何准确标注每笔交易的合法性是一个关键问题,尤其是在缺乏明确监管框架的加密货币市场中,标注的准确性和一致性难以保证。此外,图神经网络的训练和优化也面临计算资源消耗大、模型稳定性差等问题,尤其是在处理大规模交易图数据时,模型的训练时间和内存占用成为显著瓶颈。
常用场景
经典使用场景
Elliptic Dataset 是一个专门用于比特币交易图分析的公开数据集,广泛应用于图神经网络(GNN)的研究中。该数据集通过捕捉比特币交易网络中的节点和边关系,为研究者提供了一个理想的实验平台,用于探索图卷积网络(GCN)等模型在金融欺诈检测中的应用。通过该数据集,研究者能够模拟和分析复杂的交易网络,识别潜在的非法交易行为。
衍生相关工作
基于 Elliptic Dataset,研究者们开发了多种图神经网络模型,如 GCN 和 SkipGCN,这些模型在比特币交易网络分析中表现出色。此外,该数据集还催生了一系列相关研究,包括交易网络的可视化分析、动态网络建模以及多任务学习在金融欺诈检测中的应用。这些研究不仅推动了图神经网络技术的发展,还为金融科技领域的创新提供了新的思路和方法。
数据集最近研究
最新研究方向
近年来,随着区块链技术的迅猛发展,比特币交易数据的分析成为金融科技领域的热点研究方向。Elliptic Dataset作为比特币交易图数据的代表性数据集,为图卷积网络(GCN)的应用提供了丰富的实验基础。当前研究主要聚焦于利用GCN及其变体(如SkipGCN)对交易图中的异常行为进行检测,特别是针对洗钱、欺诈等非法活动的识别。通过引入时间序列信息,研究者能够动态捕捉交易网络中的模式变化,从而提升模型的预测精度。此外,该数据集还被广泛应用于图神经网络的可解释性研究,旨在揭示复杂交易网络中的关键节点和路径,为金融监管提供决策支持。这些研究不仅推动了图神经网络在金融领域的应用,也为区块链技术的安全性和透明度提供了新的解决方案。
以上内容由遇见数据集搜集并总结生成



