yhackspacher/ethereum-crawl
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/yhackspacher/ethereum-crawl
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个区块链网络节点爬虫数据集,包含多个配置,如共识节点访问、执行节点访问、爬虫会话和属性等。数据记录了网络节点的详细信息,包括节点ID(PeerID)、多地址(Maddrs)、协议(Protocols)、代理版本(AgentVersion)、连接和爬虫持续时间、时间戳、错误信息(如连接错误和爬虫错误),以及特定于区块链的属性,如分叉摘要(fork_digest)、下一个分叉纪元(next_fork_epoch)、同步网络(syncnets)和操作栈信息(opstack_chain_id、opstack_version)。数据集还包含合并的访问数据和训练数据,用于分析节点行为和网络状态。
This dataset is a blockchain network node crawler dataset, comprising multiple configurations such as consensus visits, execution visits, crawl sessions, and properties. It records detailed information about network nodes, including node ID (PeerID), multi-addresses (Maddrs), protocols (Protocols), agent version (AgentVersion), connection and crawl durations, timestamps, error information (e.g., connect error and crawl error), and blockchain-specific attributes such as fork digest, next fork epoch, sync networks (syncnets), and opstack information (opstack_chain_id, opstack_version). The dataset also includes merged visit data and training data for analyzing node behavior and network status.
提供机构:
yhackspacher
搜集汇总
数据集介绍

构建方式
Ethereum-crawl数据集旨在系统性地捕获以太坊点对点网络的动态拓扑结构及其节点行为特征。该数据集通过分布式爬虫机制,对以太坊共识层(CL)与执行层(EL)的节点进行周期性探测访问。爬虫会记录每个被访问节点的身份标识、多地址、协议版本、连接与爬取耗时等信息,并区分节点访问的成功与否,存储对应的错误状态。数据构建过程中,根据爬取会话分层管理,从初始爬取结果中筛选出最终可用的节点访问记录,进而将共识层与执行层的访问信息按节点IP进行关联合并,生成最终的融合数据集,为后续训练模型提供了结构化、多维度的基础数据。
特点
该数据集的一大特色在于其多层次的精细化结构,涵盖了从原始爬取会话到最终融合数据的完整流程。数据集中包含共识层与执行层节点的独立访问记录(consensus_visits与execution_visits),以及经过筛选后的高质量最终访问集合(final_visits_consensus与final_visits_execution)。尤为突出的是,融合数据集(final_visits_merged)将同一IP的共识层与执行层节点信息成对对齐,清晰揭示了以太坊节点的双重角色属性。此外,train_data配置则从中提取了关键特征如客户端版本、协议列表及属性数量,专为机器学习模型的训练而设计,显著提升了数据在模式识别与网络分析中的实用性。
使用方法
用户可通过HuggingFace Datasets库便捷加载该数据集的任意配置,例如使用`load_dataset("ethereum-crawl", "consensus_visits")`获取共识层节点访问数据。每个配置下的数据均以`train`分割形式提供,可直接用于探索性分析或模型输入。对于针对节点对齐或综合性网络建模的需求,推荐加载`final_visits_merged`配置,其中包含来自共识层与执行层节点的成对特征,便于研究节点间的协作关系与网络拓扑特征。此外,`train_data`配置已预先提取了适用于机器学习的特征子集,用户可直接用于训练分类或回归模型,省去了繁琐的数据清洗与特征工程步骤。
背景与挑战
背景概述
Ethereum-crawl数据集诞生于对以太坊点对点网络拓扑结构与节点行为进行深度探测的迫切需求之中。随着以太坊生态系统的不断扩张,其底层网络层——涵盖共识层与执行层——的稳定性与安全性成为研究焦点。该数据集由相关区块链网络研究机构系统性地采集与整理,核心研究问题在于如何通过大规模主动探测(即爬虫)来刻画以太坊节点的真实分布、版本特征、连接属性及协议支持状况。通过对超过十一万条共识层访问记录与七万余条执行层访问记录的收集,该数据集为理解以太坊网络的动态演化、发现潜在的网络脆弱点以及优化客户端通信策略提供了宝贵的实证基础,对推动去中心化网络的量化研究具有重要影响力。
当前挑战
该数据集所要解决的领域问题核心在于以太坊网络的复杂性与不透明性。传统网络测量手段难以应对去中心化、动态变化的节点环境,节点频繁上下线、NAT与防火墙的阻隔以及客户端版本的碎片化,构成了对网络全貌精准描绘的首要挑战。在数据构建过程中,挑战同样显著:如何在有限的时间内实现大规模节点的并发探测,如何区分和处理共识层与执行层节点因协议差异导致的连接失败错误,以及如何从海量、嘈杂的原始响应中提取并规整如attnets(参与的分片网络)、fork_digest(分叉摘要)等关键元数据,均对数据采集架构的鲁棒性和数据处理流程的精细化提出了严苛要求。
常用场景
经典使用场景
以太坊作为区块链领域的基石,其节点网络的拓扑结构与通信行为对于理解去中心化系统的鲁棒性至关重要。ethereum-crawl 数据集通过大规模爬取共识层与执行层的对等节点,记录了包括PeerID、多地址、协议版本、连接持续时间及网络属性等详尽的元数据。研究者可利用这些数据重建节点间的连接图谱,分析网络延迟与连接错误模式,从而揭示节点分布的地理特征与版本升级的传播规律。其经典用途在于刻画以太坊点对点网络的动态演化过程,为模拟网络攻击场景或优化通信协议提供实证基础。
解决学术问题
该数据集直击区块链网络研究中长期悬而未决的实证数据匮乏痛点。传统研究多依赖理论模型或模拟数据,难以真实反映主网环境的复杂性。ethereum-crawl 通过融合共识层与执行层的节点访问记录,使学者能够量化分析网络分片后的联通性变化、节点故障的时空分布以及版本异构性对同步效率的影响。它解决了诸如‘分叉后网络分裂程度如何量化’或‘异常节点如何干扰正常通信’等核心问题,深化了学术界对区块链网络安全界限的理解,为设计更具韧性的共识机制提供了数据驱动的验证锚点。
衍生相关工作
基于ethereum-crawl 数据集的衍生工作已在多个研究维度开花结果。部分工作聚焦于构建节点分类模型,利用AgentVersion与协议特征区分全节点与轻节点,进而分析其行为差异对网络稳定性的影响。另有研究将其与流式网络分析框架结合,实时监测节点加入与退出的动态,开创了异常节点检测的新范式。在去中心化金融(DeFi)领域,数据中的opstack版本信息被用于分析特定Layer2网络中的节点分布,辅助评估跨链桥的安全性。这些工作不仅验证了数据集在实证研究中的普适价值,也推动了从静态网络测量到动态拓扑推演的方法论跃迁。
以上内容由遇见数据集搜集并总结生成



