SolContractEval

Name: SolContractEval
Creator: 浙江大学区块链与数据安全国家重点实验室, 中国杭州高新技术产业开发区(滨江)区块链与数据安全研究院, 中国中山大学
Published: 2025-09-28 19:53:41
License: 暂无描述

arXiv2025-09-28 更新2025-11-21 收录

下载链接：

https://github.com/ZJU-CTAG/SolContractEval

下载链接

链接失效反馈

官方服务：

资源简介：

SolContractEval是一个用于评估智能合约代码生成质量的数据集，包含来自真实区块链智能合约的124个生成任务，涵盖去中心化金融、非同质化代币、游戏金融等9个主要应用领域。每个任务包含合同上下文依赖、结构化合同框架和清晰的任务提示。为了确保数据质量，每个任务输入都由两名具有三年智能合约开发经验的开发人员独立标注和交叉验证。此外，为了准确和自动评估生成合同的功能正确性，我们引入了基于历史交易回放的动态评估框架。

SolContractEval is a dedicated dataset for evaluating the code generation quality of smart contracts. It encompasses 124 generation tasks sourced from real-world blockchain smart contracts, spanning 9 primary application domains including decentralized finance (DeFi), non-fungible tokens (NFTs), game finance, and others. Each task comprises contract context dependencies, a structured contract framework, and explicit task prompts. To guarantee data quality, every task input was independently annotated and cross-validated by two developers each with three years of smart contract development experience. Additionally, to enable accurate automated evaluation of the functional correctness of the generated smart contracts, we introduce a dynamic evaluation framework based on historical transaction replay.

提供机构：

浙江大学区块链与数据安全国家重点实验室, 中国杭州高新技术产业开发区(滨江)区块链与数据安全研究院, 中国中山大学

创建时间：

2025-09-28

搜集汇总

数据集介绍

构建方式

在区块链智能合约开发领域，SolContractEval基准数据集通过系统化流程构建而成。研究团队从Etherscan验证合约库中筛选出具有千次以上历史交易记录的活跃合约，采用SimHash算法进行去重处理以确保数据多样性。通过静态分析工具Slither识别合约间依赖关系，构建包含完整上下文信息的任务输入。每个生成任务均包含上下文依赖、目标合约框架和任务提示三要素，并由具备三年以上开发经验的工程师进行双重独立标注与交叉验证，确保数据质量与标注准确性。

使用方法

在智能合约生成模型评估实践中，研究者可将任务输入信息馈入待测语言模型，提取生成的合约实现并替换原始合约结构。评估过程采用Compile@k和Pass@k双指标体系，分别衡量编译正确性与功能正确性。通过集成Hardhat本地测试网络，重置区块链状态后按原始顺序重放历史交易，系统比对执行状态、事件触发逻辑和存储状态的一致性。这种基于真实交易数据的动态验证方法，能够有效评估生成合约在模拟生产环境中的行为表现。

背景与挑战

背景概述

区块链技术的蓬勃发展推动了智能合约的广泛应用，催生了对自动化代码生成工具的迫切需求。浙江大学区块链与数据安全全国重点实验室于2025年推出的SolContractEval数据集，聚焦于Solidity语言的合约级代码生成评估。该数据集通过提取以太坊主网真实部署的124个智能合约，覆盖去中心化金融、游戏化金融等九大领域，旨在解决现有基准在任务粒度和评估方法上的局限性，为智能合约开发提供更贴近实际场景的评估框架。

当前挑战

在领域问题层面，Solidity语言因编译器版本快速迭代引发的语法兼容性挑战、严格的类型系统与存储分层机制，以及复杂的合约间依赖关系，导致现有大语言模型在生成功能完整的合约代码时面临严峻考验。构建过程中，需克服真实交易数据动态验证的技术瓶颈，通过交易回放机制实现多维度行为一致性检测，同时依赖资深开发者对任务输入进行双重独立标注，确保上下文依赖关系的准确性与评估结果的可靠性。

常用场景

经典使用场景

在区块链技术迅猛发展的背景下，SolContractEval作为首个合约级Solidity代码生成基准测试集，其经典应用场景集中于评估大型语言模型在真实智能合约开发环境中的生成能力。该数据集通过从以太坊主网提取的124个跨九大领域的实际合约任务，模拟了包含完整上下文依赖和结构化框架的生成场景，为研究社区提供了衡量模型在复杂合约逻辑和跨合约交互方面表现的标准平台。

解决学术问题

SolContractEval有效解决了智能合约生成领域长期存在的评估粒度不足问题，填补了从函数级到合约级生成研究的空白。通过引入基于历史交易回放的动态验证框架，该数据集能够精确检验生成代码的功能正确性，克服了传统合成测试用例在捕捉真实链上行为模式方面的局限性，为量化模型对Solidity特有语法版本兼容性和类型系统的理解提供了可靠依据。

实际应用

该数据集的实际价值体现在为区块链开发工具链的优化提供实证支撑。智能合约开发者可借助其评估结果筛选可靠的代码生成模型，降低手动审核成本；安全审计机构能通过标准化的功能验证流程检测生成合约的潜在风险；模型研发团队则利用其多维度错误分析指导针对Solidity特性的优化，推动生成代码在DeFi、NFT等高风险场景中的安全部署。

数据集最近研究