Zellic/smart-contract-fiesta
收藏Hugging Face2023-04-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Zellic/smart-contract-fiesta
下载链接
链接失效反馈官方服务:
资源简介:
Zellic 2023智能合约源代码索引数据集是一个公开可用的以太坊主网智能合约源代码集合,旨在为公众提供一个易于下载的智能合约源代码数据集,以推动智能合约安全研究的前沿。数据集包含了截至区块16860349的所有已部署智能合约的地址和字节码哈希索引,以及通过公开资源收集的合约源代码。数据集通过字节码哈希去重,并提供了合约源代码的组织结构和元数据信息。
The Zellic 2023 Smart Contract Source Code Index Dataset is a publicly available collection of Ethereum mainnet smart contract source codes. It aims to provide the public with an easily downloadable smart contract source code dataset to advance the cutting-edge of smart contract security research. The dataset includes the addresses and bytecode hash indexes of all deployed smart contracts up to block 16860349, as well as contract source codes collected from public resources. The dataset is deduplicated by bytecode hash, and provides the organizational structure and metadata of the contract source codes.
提供机构:
Zellic
原始信息汇总
数据集概述
数据集名称
- 名称: Zellic 2023 Smart Contract Source Index
- 别名: Zellic Smart Contract Source Index
数据集描述
- 目的: 提供一个公开可下载的以太坊主网智能合约源代码数据集,旨在推动智能合约安全研究的进展。
- 应用: 包括静态分析、机器学习等。
数据集内容
- 方法论:
- 收集所有部署在以太坊主网上的合约地址及其EVM字节码的Keccak256哈希。
- 通过修改的Geth实例从创世区块开始全同步构建索引。
- 通过字节码哈希去重源代码。
- 统计信息:
- 独特源代码数量: 149,386
- 有代码的合约数量: 3,897,319
- 全球索引中的智能合约数量: 30,586,657
- 字符数: 6,473,548,073
- 单词数: 712,444,206
- 代码行数: 90,562,628
- 注释行数: 62,503,873
- 空白行数: 24,485,549
- 总行数: 177,552,050
- 独特单词数: 939,288
数据集结构
- 索引:
- 文件名:
address_bytecodehash_index - 内容: 包含所有已部署智能合约地址与其EVM字节码的Keccak256哈希的映射。
- 文件名:
- 合约源代码:
- 存储位置:
organized_contracts目录下,按字节码哈希组织。 - 包含内容: 源文件及
metadata.json,后者包含编译器版本和优化设置等信息。 - 源格式: 单文件、多文件、Solidity编译器JSON输入。
- 存储位置:
其他信息
- 合约语言: 不仅限于Solidity,还包括Vyper等其他语言。
- 源代码提取: 提供了一个Bash脚本用于提取所有源代码。
搜集汇总
数据集介绍

构建方式
该数据集通过从以太坊主网区块16860349开始,逐步构建了一个包含所有已部署智能合约地址及其对应EVM字节码哈希的索引。通过使用修改后的Geth实例进行全链同步,每当检测到新合约创建或旧合约自毁时,相应地更新索引。随后,从公开可访问的在线资源中收集合约源代码,并通过计算每个合约的Keccak256哈希值进行去重,确保每个字节码哈希仅对应一个源代码版本。
特点
该数据集具有高度的完整性和去重性,涵盖了149,386个独特的源代码,对应3,897,319个合约实例,且所有数据均来自公开资源。数据集结构清晰,合约源代码按字节码哈希分类存储,每个合约文件夹内包含源文件和metadata.json,提供编译器版本、优化设置等详细信息,便于复现和分析。
使用方法
用户可通过查询`address_bytecodehash_index`文件获取特定智能合约的源代码位置。合约源代码存储在`organized_contracts`目录下,按字节码哈希分类。每个合约文件夹包含源文件和metadata.json,用户可根据需要提取和分析源代码。此外,提供的Bash脚本可快速提取所有源代码,便于进一步处理和研究。
背景与挑战
背景概述
Zellic/smart-contract-fiesta数据集由Zellic团队于2023年创建,旨在为以太坊主网上的智能合约源代码提供一个公开且可下载的资源。该数据集的核心研究问题是如何通过提供一个全面的智能合约源代码库,推动智能合约安全研究的前沿。Zellic团队通过从以太坊主网的创世区块开始进行全同步,收集了截至区块16860349的所有已部署合约的源代码,并去重处理。这一数据集不仅为静态分析和机器学习等应用提供了基础,还为智能合约的安全性研究开辟了新的途径,进一步支持了Zellic团队‘无智能合约漏洞’的愿景。
当前挑战
该数据集在构建过程中面临多项挑战。首先,收集和整理以太坊主网上所有已部署合约的源代码是一项庞大的工程,涉及从创世区块开始的全同步过程,并需处理已自毁的合约。其次,去重处理通过字节码哈希进行的源代码去重,确保了数据集的精简性,但也增加了数据处理的复杂性。此外,数据集中包含的合约源代码可能来自多种编程语言(如Solidity和Vyper),这要求在分析和应用时具备多语言支持的能力。最后,确保数据集的合法性和合规性,尤其是在处理公开可用的源代码时,也是一个重要的挑战。
常用场景
经典使用场景
Zellic/smart-contract-fiesta数据集的经典使用场景主要集中在智能合约的安全性研究领域。该数据集提供了以太坊主网上已部署的智能合约源代码,支持静态分析、机器学习等应用。研究者可以利用这些源代码进行漏洞检测、合约优化以及安全策略的制定,从而推动智能合约安全技术的发展。
衍生相关工作
基于Zellic/smart-contract-fiesta数据集,研究者们开发了多种智能合约安全分析工具和模型。例如,一些研究工作利用该数据集训练机器学习模型,用于自动检测合约中的常见漏洞;另一些工作则通过静态分析技术,对合约代码进行深度解析,以发现潜在的安全隐患。这些衍生工作极大地推动了智能合约安全领域的技术进步。
数据集最近研究
最新研究方向
在区块链技术迅速发展的背景下,智能合约的安全性研究成为了学术界和工业界关注的焦点。Zellic/smart-contract-fiesta数据集的推出,为智能合约安全研究提供了丰富的资源。该数据集包含了以太坊主网上大量已部署的智能合约源代码,通过静态分析和机器学习等技术手段,研究人员可以深入探索智能合约的潜在漏洞和安全风险。这一数据集的应用不仅推动了智能合约安全检测工具的开发,还为智能合约的自动化审计和漏洞修复提供了新的研究方向。此外,随着区块链技术的普及,智能合约的安全性问题日益凸显,该数据集的发布为解决这一全球性问题提供了重要的数据支持,具有深远的学术和实际应用意义。
以上内容由遇见数据集搜集并总结生成



