five

EX-Graph

收藏
arXiv2024-03-17 更新2024-06-21 收录
下载链接:
https://exgraph.deno.dev/
下载链接
链接失效反馈
官方服务:
资源简介:
EX-Graph是由新加坡国立大学创建的一个创新性开源数据集,首次真实地连接了以太坊和X平台。该数据集结合了以太坊交易记录(200万个节点和3000万条边)以及X平台的关注数据(100万个节点和300万条边),通过OpenSea验证了30,667个以太坊地址与X账户的关联。EX-Graph不仅捕捉了区块链上的金融交易,还涵盖了X平台上关于以太坊的社交互动,提供了一个更为全面的以太坊视图。该数据集通过详细的统计分析和实验,证明了通过验证匹配链接整合X数据显著提升了以太坊任务的性能,不仅促进了区块链研究,还推动了图学习的进步。EX-Graph的应用领域包括以太坊链接预测、洗钱交易地址检测以及以太坊与X账户匹配链接的预测,旨在解决区块链分析中的匿名性和数据限制问题。
提供机构:
新加坡国立大学
创建时间:
2023-10-02
搜集汇总
数据集介绍
main_image_url
构建方式
EX-Graph的构建始于多源数据的系统性采集。首先,通过部署本地以太坊虚拟机(EVM)客户端,获取了2022年3月至8月间涉及NFT交易的完整链上记录,涵盖约260万个以太坊地址及近3000万条交易边。其次,利用OpenSea的'User' API端点,提取了已验证的以太坊地址与X账户之间的匹配链接,共计30,667条。随后,借助X开发者API的'Followers'与'Friends'端点,采集了这些匹配账户的社交网络数据,构建了包含约110万个X节点及376万条关注关系的图结构。最终,将所有数据整合为一个异构图,其中包含以太坊交易、X关注关系及跨域匹配三种类型的边,并辅以从Dune平台收集的1,445个洗盘交易标签地址,形成了一个规模宏大、结构清晰的数据集。
特点
EX-Graph的核心特点在于其开创性地实现了链上金融数据与链下社交网络数据的真实关联,是当前规模最大、且唯一经过验证的跨域数据集。其显著特征包括:第一,异质性,数据集融合了以太坊交易图、X关注图及匹配链接三种异构信息,为多模态分析提供了基础。第二,真实性,所有跨域匹配链接均源自OpenSea的官方验证,确保了实体对应关系的可靠性。第三,信息丰富性,为每个以太坊地址提取了8维结构特征,并为匹配的X账户提取了包含BERT语义嵌入的770维特征,通过PCA降维至8维以保持特征空间一致性。第四,数据不平衡性,洗盘交易地址仅占极小比例,真实反映了金融欺诈数据的分布特性。这些特性使得EX-Graph在区块链分析领域具有独特的价值。
使用方法
EX-Graph适用于多种下游任务,其使用方法灵活多样。对于以太坊链接预测,研究人员可将图按时间戳划分为训练集(70%)、验证集(10%)和测试集(20%),聚焦于与X账户匹配的以太坊地址,通过对比是否引入X特征来评估社交数据对交易关系预测的增益。在洗盘交易地址检测任务中,鉴于数据高度不平衡,需采用平衡采样策略,将所有洗盘地址作为正样本,随机抽取等量正常地址作为负样本,并优先关注召回率指标。对于匹配链接预测,则需将整个异构图的最大连通子图作为输入,随机划分匹配边(70/10/20),通过预测未知的以太坊地址与X账户关联来扩展数据集。所有任务均可借助DeepWalk、GCN、GAT等图神经网络模型实现,代码与数据已开源在GitHub平台。
背景与挑战
背景概述
区块链技术以其去中心化、不可篡改和匿名性著称,以太坊作为其中最具代表性的平台之一,承载了庞大的交易网络与智能合约生态。然而,链上地址的匿名性使得分析活动缺乏语义信息,限制了图神经网络等方法的效能。为突破这一瓶颈,新加坡国立大学的研究团队于2024年在ICLR会议上发布了EX-Graph数据集,该数据集首次将以太坊交易图与社交平台X的关注网络进行真实链接,涵盖约300万个节点、3300万条边以及30667条经过OpenSea验证的匹配链接。EX-Graph不仅为链上行为分析引入了丰富的链外特征,还为跨域实体对齐和图学习提供了开创性的基准资源,显著推动了区块链与社交网络交叉领域的研究发展。
当前挑战
EX-Graph所解决的核心挑战在于链上数据的特征稀疏性与匿名性导致的图学习性能退化。传统以太坊数据集仅依赖交易结构特征,难以捕捉地址背后的真实行为模式。构建过程中,研究团队面临多重难题:首先,需从OpenSea获取准确且可验证的以太坊地址与X账户匹配关系,而非依赖不可靠的ENS用户名推测;其次,X平台的API速率限制使得大规模关注关系数据的采集异常耗时;此外,洗盘交易地址极度稀少(仅1445个标记地址),带来严重的数据不平衡问题,使得模型在召回率上表现不佳。实验表明,引入X特征后可显著提升链上链接预测与洗盘检测的性能,但数据稀疏性与匹配链接的有限性仍是未来研究的瓶颈。
常用场景
经典使用场景
在区块链与社交网络交叉研究的浪潮中,EX-Graph作为首个大规模开源异构数据集,将以太坊交易图谱与X社交图谱深度融合。其经典应用场景聚焦于利用跨域匹配链接,将链上匿名地址与已验证的X账户关联,从而引入丰富的离线语义特征。研究者可基于此数据集,在以太坊交易网络中开展链接预测任务,通过融合X账户的社交行为特征,显著提升对交易趋势的预测能力。例如,在实验中,结合X特征的模型在AUC-ROC指标上最高提升8%,验证了社交信息对链上分析的赋能价值。
实际应用
在实际应用中,EX-Graph为区块链安全与金融监管提供了创新工具。通过整合X社交数据,该数据集能够辅助交易所和监管机构识别异常交易模式,例如检测洗盘交易地址——一种通过虚假交易操纵NFT价格的欺诈行为。此外,其匹配链接预测能力可自动发现更多以太坊地址与X账户的对应关系,助力构建更完整的用户画像。这一特性在反洗钱、加密货币市场监控以及去中心化金融风险预警中具有直接应用价值,有效弥合了链上匿名行为与链下身份验证之间的鸿沟。
衍生相关工作
EX-Graph的发布催生了一系列前沿研究工作。在方法论层面,研究者基于其异构图结构发展了跨域图神经网络模型,用于联合学习链上交易与链下社交的共享表征。例如,DAGNN和APPNP等模型在匹配链接预测任务中取得74%的AUC,推动了异构图学习的发展。在应用层面,该数据集启发了融合多模态数据的区块链分析范式,如将X推文文本嵌入与交易图谱结合以预测NFT市场趋势。此外,其洗盘检测任务催生了针对金融欺诈的平衡采样策略与特征工程方法,为后续去中心化金融安全研究树立了基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作