Aggregated Benchmark; Reentrancy Scenarios Dataset (RSD)
收藏arXiv2026-03-27 更新2026-03-31 收录
下载链接:
https://anonymous.4open.science/r/reentrancy-detection-benchmarks-A1D7
下载链接
链接失效反馈官方服务:
资源简介:
本研究构建了两个互补的数据集:Aggregated Benchmark和Reentrancy Scenarios Dataset (RSD)。Aggregated Benchmark由威尼斯大学等机构创建,整合了432条来自先前学术数据集的真实智能合约,经过多评审员检查和LLM辅助分析验证,提供了高可信度的重入漏洞标注。RSD则包含143个精心设计的最小合约示例,覆盖了Solidity 0.8+的现代特性,旨在通过语义边界案例测试检测工具的鲁棒性。这些数据集通过手动验证和场景化构造,解决了传统工具标签噪声和过时模式的问题,主要用于评估静态分析工具、机器学习模型及大语言模型在智能合约重入漏洞检测中的可靠性和适应性。
This study constructs two complementary datasets: Aggregated Benchmark and Reentrancy Scenarios Dataset (RSD). The Aggregated Benchmark, developed by institutions including the University of Venice, incorporates 432 real smart contracts sourced from prior academic datasets. It has been examined by multiple reviewers and validated via LLM-aided analysis, providing high-confidence reentrancy vulnerability annotations. The RSD, by contrast, contains 143 meticulously designed minimal contract examples covering modern features of Solidity 0.8+, and is intended to test the robustness of detection tools through semantic boundary case evaluations. Both datasets are built via manual validation and scenario-based construction, addressing the issues of label noise and outdated patterns in traditional tools. They are primarily used to evaluate the reliability and adaptability of static analysis tools, machine learning models, and large language models (LLMs) in reentrancy vulnerability detection for smart contracts.
提供机构:
威尼斯大学; 卡梅里诺大学
创建时间:
2026-03-27
搜集汇总
数据集介绍

构建方式
在智能合约安全分析领域,数据集的构建质量直接影响检测工具的评估可靠性。Aggregated Benchmark 的构建源于对现有手动标注数据集的整合与再验证,研究者从三个声称经过人工验证的学术数据集(Consolidated Ground Truth、HuangGai 及一项重入研究数据集)中汇集了初始合约池。通过去重与编译过滤,获得了73,579份可编译合约,随后由三位专家依据统一的操作化定义进行多轮独立审查与手动重新标注。为确保标签的高置信度,研究进一步引入了大型语言模型辅助验证,当模型输出与人工标注存在分歧时,专家会复核其解释以识别潜在边缘案例。最终形成的聚合基准包含432份高置信度合约,其中122份被判定为存在重入漏洞,314份为安全合约,其标签可靠性显著超越了原始数据源。
特点
该数据集的核心特点在于其高置信度的人工验证标签与对现代Solidity版本的覆盖。相较于广泛依赖工具自动标注的现有语料库,Aggregated Benchmark 通过严格的多人审查流程与LLM辅助的冲突检测,极大降低了标签噪声与工具特异性偏差。数据集涵盖了从Solidity 0.4.x至0.6.x等多个编译器版本的现实合约,反映了开发实践中可能遇到的实际代码模式。其构建紧密遵循一项明确的操作化重入定义,该定义基于外部调用检测、调用后副作用及语义状态差异的三步分析流程,能够统一捕捉传统CEI违规模式与更微妙的跨合约、只读重入等高级案例,为评估检测工具在现代代码环境下的可靠性提供了坚实基准。
使用方法
该数据集主要用于评估重入漏洞检测工具在现实合约代码上的可靠性与鲁棒性。研究者可将其作为基准测试集,系统性地运行各类静态分析工具、机器学习模型或大型语言模型,并以其高置信度人工标签作为地面真值,计算准确率、精确率、召回率及F1分数等性能指标。数据集支持对工具在历史Solidity版本上的兼容性、检测一致性以及误报/漏报率进行量化分析。同时,其构建过程中揭示的标签分歧案例与LLM辅助验证机制,也为改进数据集质量、设计混合验证流程提供了方法论参考。通过对比工具在该数据集与针对性压力测试集(RSD)上的表现,研究者能够全面洞察不同检测方法在真实场景与极端语义情境下的性能差异与局限。
背景与挑战
背景概述
Aggregated Benchmark; Reentrancy Scenarios Dataset (RSD) 是由意大利威尼斯大学和卡梅里诺大学的研究团队于2026年构建的智能合约安全数据集,旨在评估现代Solidity环境下重入漏洞检测工具的可靠性与鲁棒性。该数据集源于对现有手动标注数据集的整合与再验证,并创新性地设计了一套包含现代语言特性的最小工作示例集。其核心研究问题聚焦于量化形式化分析工具、机器学习模型及大语言模型在检测重入漏洞时的长期依赖性和语义一致性,以应对Solidity语言版本迭代带来的工具生态退化问题。该数据集为智能合约安全分析领域提供了高质量、可复现的基准测试平台,推动了检测方法从基于规则到语义理解的范式转变。
当前挑战
该数据集旨在解决智能合约安全中重入漏洞检测这一核心领域问题的挑战,具体包括:检测工具因Solidity语言版本更新(如0.8.x系列)而出现的规则过时、编译支持缺失及语义理解偏差;以及现有数据集标签因依赖不同检测工具的异构规则而产生的严重不一致性,导致评估基准缺乏可靠的真实标签。在构建过程中,研究团队面临多重挑战:首先,需从多个声称手动标注的既有数据集中筛选并重新验证合约,以消除工具引入的标注噪声和矛盾;其次,为系统性地测试检测器的语义盲区,需人工设计涵盖现代Solidity特性(如错误处理、修饰符、事件、代理模式)的最小工作示例,并确保其语义精确性与变体多样性;最后,需建立一套统一、可操作的三步标注流程,将重入漏洞的判定从脆弱的语法规则提升至基于合约状态变化的语义层面,以保障数据集内部标签的一致性。
常用场景
经典使用场景
在区块链安全研究领域,重入漏洞作为以太坊智能合约中最具破坏性的安全威胁之一,其检测工具的可靠性与数据集的质量直接决定了安全审计的效能。Aggregated Benchmark; Reentrancy Scenarios Dataset (RSD) 的经典使用场景在于为学术界和工业界提供一个经过人工多重验证的高质量基准测试集。研究者利用该数据集系统评估各类静态分析工具、机器学习模型以及大型语言模型在检测现代Solidity 0.8+代码中重入漏洞时的性能表现,尤其侧重于检验工具在面临语言特性演进和复杂语义场景时的鲁棒性。
实际应用
在实际应用层面,该数据集为智能合约开发者和安全审计人员提供了至关重要的参考工具。安全团队可以依据数据集中的测试案例,验证其内部使用的静态分析工具或商业扫描器是否能够准确识别由现代Solidity特性(如错误处理、事件发射、修饰符重构)引入的新型重入风险。同时,数据集揭示了大语言模型在零样本设置下展现出的卓越检测能力,这促使业界探索将LLM作为辅助审计工具集成到开发流水线中,以低成本方式提升漏洞发现的覆盖范围与解释性,从而在实际部署前有效拦截潜在的高风险重入攻击。
衍生相关工作
该数据集的发布催生了一系列围绕智能合约安全检测可靠性的衍生研究。其构建方法启发了后续工作对更多漏洞类型(如整数溢出、访问控制缺陷)进行类似的高质量基准数据集构建。基于其揭示的LLM潜力,出现了众多结合形式化方法保证与LLM语义理解能力的混合检测框架研究。此外,数据集中对工具规则碎片化的系统性分析,也推动了学术界对智能合约漏洞定义标准化和检测工具评估协议统一的讨论,促进了整个领域向更高可靠性和可复现性方向发展。
以上内容由遇见数据集搜集并总结生成



