five

EtherBee

收藏
arXiv2025-05-24 更新2025-05-28 收录
下载链接:
https://doi.org/10.17605/OSF.IO/C5UPF
下载链接
链接失效反馈
官方服务:
资源简介:
EtherBee是一个全球性的数据集,它整合了详细的以太坊节点指标、网络流量元数据和蜜罐交互日志,这些数据是从十个地理位置分散的观测点收集而来的,收集时间跨度为三个月。通过将节点数据与细粒度的网络会话和安全事件相关联,EtherBee提供了对以太坊对等网络中的良性活动、恶意活动、节点稳定性和网络层面威胁的独特见解。本数据集的发布旨在促进对去中心化网络性能、可靠性和安全的进一步研究。

EtherBee is a global dataset that integrates detailed Ethereum node metrics, network traffic metadata, and honeypot interaction logs. These data were collected from ten geographically dispersed observation points over a three-month period. By correlating node data with fine-grained network sessions and security events, EtherBee offers unique insights into benign activities, malicious activities, node stability, and network-level threats within Ethereum peer-to-peer networks. The release of this dataset aims to facilitate further research into the performance, reliability, and security of decentralized networks.
提供机构:
俄克拉荷马大学
创建时间:
2025-05-24
搜集汇总
数据集介绍
main_image_url
构建方式
EtherBee数据集的构建采用了多模态数据采集策略,通过在五大洲部署十个AWS服务器节点,同步运行以太坊共识层(Lighthouse)和执行层(Nethermind)客户端,并配置蜜罐系统与网络流量捕获工具。采用Arkime进行全流量元数据索引,结合Elasticsearch集群实现30.1TB原始数据的三维整合,包括节点性能指标、P2P会话元数据及1.33亿次攻击日志。数据采集历时三个月,通过WireGuard加密网格实现跨地域数据同步,最终形成时间对齐的多维度观测矩阵。
特点
该数据集的核心价值在于首次实现了以太坊网络行为的多维度耦合分析,包含94,659个独立IP的交互记录与20.97TB网络会话元数据。其独特之处在于将节点级指标(如区块同步延迟、验证者参与度)与安全事件(包括DDoS攻击和CVE漏洞利用)进行时空关联,通过地理加权焦点算法揭示节点连接的拓扑演变。数据覆盖全球主要区域,捕获了正常P2P通信与恶意活动的完整谱系,为研究网络去中心化程度与安全威胁提供实证基础。
使用方法
研究者可通过时间序列分析挖掘节点性能与网络事件的关联规律,例如利用加权地理焦点模型量化网络拓扑集中化趋势。安全分析时可交叉参照蜜罐日志与网络会话数据,识别攻击特征与节点脆弱性的对应关系。数据集支持从微观(单个节点重组事件)到宏观(跨洲际网络流量模式)的多尺度研究,OSF平台提供的16TB压缩数据包含标准化格式的节点指标CSV、Arkime会话JSON及结构化攻击日志,建议使用Elasticsearch或Pandas进行多维分析。
背景与挑战
背景概述
EtherBee数据集由俄克拉荷马大学的Scott Seidenberger和Anindya Maiti团队于2025年5月发布,旨在填补以太坊节点性能与安全研究领域的数据空白。作为首个整合全球十个地理观测点的节点指标、网络流量元数据及蜜罐交互日志的多模态数据集,其通过为期三个月的持续监测,捕获了33.7亿条涵盖良性活动与恶意攻击的细粒度记录。该数据集为分析以太坊P2P网络的通信模式、节点稳定性及网络级威胁提供了全新视角,尤其揭示了客户端优化可能导致的地理集中化现象,对区块链去中心化基础设施的韧性研究具有里程碑意义。
当前挑战
构建EtherBee面临双重挑战:在研究层面,需解决以太坊网络动态拓扑结构下全局节点行为表征的难题,包括跨地域延迟差异对数据一致性的影响,以及去中心化架构导致的观测盲区问题;在技术实现上,需处理227TB原始数据的多源异构性,协调执行层与共识层客户端(Nethermind与Lighthouse)的指标采集,并设计可扩展的Elasticsearch存储架构以关联网络会话、节点指标与1.33亿次攻击日志。数据集发布后,研究者仍需应对如何量化地理集中化与网络韧性间的平衡、区分正常流量与高级持续性威胁等分析挑战。
常用场景
经典使用场景
在区块链网络研究中,EtherBee数据集因其全球覆盖的节点性能测量、网络流量元数据及蜜罐交互日志而成为经典工具。该数据集通过整合来自十个地理分散观测点的多模态数据,为研究者提供了分析以太坊P2P网络行为、节点稳定性及安全威胁的独特视角。其典型应用场景包括评估网络延迟对节点连接的影响,以及识别恶意攻击模式,为优化区块链网络性能和安全策略提供数据支持。
衍生相关工作
基于EtherBee衍生的研究显著推进了区块链网络测量领域的发展。典型工作包括开发新型P2P评分机制以平衡延迟与地理多样性,以及构建网络威胁情报模型。相关成果发表在《IEEE区块链国际会议》等顶会上,其中对客户端修剪算法引发中心化的实证分析被后续研究广泛引用,推动了以太坊网络协议的改进。
数据集最近研究
最新研究方向
随着区块链技术的快速发展,以太坊作为智能合约平台的核心基础设施,其节点性能与网络安全性研究日益受到学术界和工业界的关注。EtherBee数据集的推出,为探索以太坊P2P网络的性能优化、地理去中心化趋势及网络安全威胁提供了前所未有的多模态数据支持。当前研究热点聚焦于节点地理集中化现象,通过分析网络流量元数据与节点交互日志,揭示了客户端基于延迟的Peer修剪机制如何无意中加剧网络地理集中化,进而影响网络的抗审查性和韧性。此外,结合蜜罐日志与节点性能数据的前沿研究,正深入挖掘针对以太坊节点的复杂攻击模式,为构建更健壮的去中心化网络架构提供实证基础。这一数据集不仅填补了现有资源在节点级安全数据与网络会话关联分析上的空白,也为区块链网络性能优化与安全防护策略的设计开辟了新的研究方向。
相关研究论文
  • 1
    EtherBee: A Global Dataset of Ethereum Node Performance Measurements Coupled with Honeypot Interactions and Full Network Sessions俄克拉荷马大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作