five

Ethereum_blockchain_parquet

收藏
Hugging Face2025-04-06 更新2025-04-07 收录
下载链接:
https://huggingface.co/datasets/vnegi10/Ethereum_blockchain_parquet
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个以太坊区块链数据集,包含blocks和transactions两个部分。blocks部分包含区块哈希、作者、区块号、消耗的gas、附加数据、时间戳、基础gas费、链ID等字段。transactions部分包含区块号、交易索引、交易哈希、nonce、发送地址、接收地址、交易值、输入数据、gas限制、实际消耗的gas、gas价格、交易类型、最大优先费、最大费用、交易是否成功、输入数据字节数、输入零字节数、输入非零字节数、链ID等字段。数据集的时间范围从2016年11月17日到2025年3月25日。
创建时间:
2025-03-26
原始信息汇总

数据集概述

基本信息

  • 许可证: GPL-3.0
  • 语言: 英语
  • 创建方式: 机器生成
  • 标签:
    • ethereum-blockchain
    • parquet
  • 下载大小: 20.9 GB

数据来源

  • 使用基于Rust的工具cryo结合Ankr提供的web3 API提取区块链数据为parquet文件。
  • 需要创建Ankr账户,即使使用免费模式。

时间范围

  • 最小时间戳: 2016-11-17 00:40:08
  • 最大时间戳: 2025-03-25 21:17:35

表结构

块表 (blocks/*.parquet)

plaintext Schema([(block_hash, Binary), (author, Binary), (block_number, UInt32), (gas_used, UInt64), (extra_data, Binary), (timestamp, UInt32), (base_fee_per_gas, UInt64), (chain_id, UInt64)])

交易表 (transactions/*.parquet)

plaintext Schema([(block_number, UInt32), (transaction_index, UInt64), (transaction_hash, Binary), (nonce, UInt64), (from_address, Binary), (to_address, Binary), (value_binary, Binary), (value_string, String), (value_f64, Float64), (input, Binary), (gas_limit, UInt64), (gas_used, UInt64), (gas_price, UInt64), (transaction_type, UInt32), (max_priority_fee_per_gas, UInt64), (max_fee_per_gas, UInt64), (success, Boolean), (n_input_bytes, UInt32), (n_input_zero_bytes, UInt32), (n_input_nonzero_bytes, UInt32), (chain_id, UInt64)])

表连接

  • 块表和交易表可通过block_number列进行连接。

示例查询

Polars LazyFrame 示例

块数据查询

python import polars as pl

def sample_query_blocks(folder): q1 = ( pl.scan_parquet(folder, glob=True) .with_columns([ pl.col("block_hash").bin.encode("hex").alias("block_hash_encode"), pl.col("author").bin.encode("hex").alias("author_encode"), pl.col("extra_data").bin.encode("hex").alias("extra_data_encode"), pl.from_epoch(pl.col("timestamp"), time_unit="s").alias("timestamp") ]) .drop("block_hash", "author", "extra_data") .limit(5) ) return q1.collect()

交易数据查询

python import polars as pl

def sample_query_tx(folder): q1 = ( pl.scan_parquet(folder, glob=True) .with_columns([ pl.col("from_address").bin.encode("hex").alias("from_address_encode"), pl.col("to_address").bin.encode("hex").alias("to_address_encode"), pl.col("transaction_hash").bin.encode("hex").alias("transaction_hash_encode") ]) .select("block_number", "from_address_encode", "to_address_encode", "transaction_hash_encode", "value_f64", "gas_limit", "gas_used", "gas_price") .limit(5) ) return q1.collect()

搜集汇总
数据集介绍
main_image_url
构建方式
在区块链技术迅猛发展的背景下,Ethereum_blockchain_parquet数据集通过Rust工具cryo结合Ankr提供的web3 API,实现了以太坊区块链数据的高效提取与存储。数据采集过程严格遵循30次/分钟的请求速率限制,并以每25个区块为间隔进行采样,确保数据的时间分辨率为5分钟。原始数据经过精心处理,最终以Parquet格式存储,涵盖了从2016年11月至2025年3月的时间跨度,为研究者提供了长达近十年的区块链活动记录。
使用方法
研究者可通过Polars等现代数据处理工具轻松加载和分析该数据集。示例代码展示了如何将二进制字段转换为十六进制表示,以及如何将时间戳转换为易读的日期格式。数据集支持灵活的查询操作,用户可以根据研究需求筛选特定时间段的区块,或关联分析交易与区块信息。对于大规模数据分析,建议采用分布式计算框架处理20.9GB的数据体量,以充分发挥Parquet格式的列式存储优势。
背景与挑战
背景概述
Ethereum_blockchain_parquet数据集是近年来区块链数据分析领域的重要资源,由Paradigm团队利用Rust工具cryo结合Ankr的web3 API构建而成。该数据集涵盖了2016年至2025年间以太坊区块链的区块和交易数据,以高效的Parquet格式存储,为研究者提供了高分辨率的时间序列分析能力。其核心价值在于解决了区块链数据标准化和结构化访问的难题,使得复杂链上行为的量化研究成为可能,对加密货币经济学、智能合约安全等研究方向具有显著推动作用。
当前挑战
该数据集面临的主要挑战体现在两方面:在领域问题层面,以太坊数据的异构性和动态性使得交易模式识别、Gas费用预测等分析任务极具复杂性,尤其是EIP-1559协议引入后交易费机制的双层结构增加了建模难度。在构建技术层面,受限于Ankr API的30次/分钟请求速率,数据采集需采用25个区块间隔的降采样策略,这可能导致高频交易特征的丢失;同时20.9GB的庞大体量对存储和计算基础设施提出了较高要求,二进制字段的编解码处理也增加了数据预处理复杂度。
常用场景
经典使用场景
在区块链技术研究领域,Ethereum_blockchain_parquet数据集以其高效的Parquet格式存储了以太坊区块链的区块和交易数据,为研究者提供了便捷的数据访问方式。该数据集广泛应用于区块链网络行为分析、智能合约性能评估以及加密货币交易模式研究,成为探索以太坊生态系统的关键工具。
解决学术问题
该数据集有效解决了区块链研究中数据获取困难、处理效率低下的问题。通过提供结构化的区块和交易信息,研究者能够深入分析以太坊网络的吞吐量、交易费用机制以及智能合约的执行效率,为区块链扩容方案和共识算法优化提供了坚实的数据基础。
实际应用
在实际应用中,该数据集被加密货币交易所用于监控异常交易行为,帮助合规团队识别潜在的洗钱活动。同时,DeFi项目开发者利用这些数据优化gas费用预测模型,提升用户体验。区块链审计公司则依赖这些数据进行智能合约安全漏洞的追溯分析。
数据集最近研究
最新研究方向
随着区块链技术的迅猛发展,Ethereum_blockchain_parquet数据集在加密货币和智能合约领域的研究中扮演了重要角色。该数据集通过Parquet格式高效存储了以太坊区块链的区块和交易数据,为研究者提供了丰富的数据支持。近年来,研究者们利用该数据集在多个前沿方向展开探索,包括交易行为分析、智能合约漏洞检测、区块链网络优化以及去中心化金融(DeFi)应用的安全性评估。特别是在以太坊2.0升级和EIP-1559协议实施的背景下,该数据集为研究Gas费用机制和网络拥堵问题提供了关键数据。此外,结合机器学习技术,研究者还尝试通过该数据集预测市场波动和识别异常交易行为,进一步推动了区块链数据分析的深度和广度。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作