LISA-Bench: Smart Contract Vulnerability Detection Benchmark

github2025-12-04 更新2025-12-07 收录

下载链接：

https://github.com/agentlisa/bench

下载链接

链接失效反馈

官方服务：

资源简介：

我们的数据集包含10,185个经过验证的智能合约漏洞，具有完整的代码上下文，来自10个权威的安全审计平台，包括Code4rena、OpenZeppelin、Halborn、Sherlock和TrailOfBits。这是2016-2024年间最全面的专业审计区块链安全问题的集合。基准涵盖了DeFi、Layer 2、NFT、治理和基础设施项目中的584个不同协议。每个漏洞包括完整的代码片段、来自3,086名安全专家的分析、影响评估和修复指导。每个条目都经过专业安全审查，关键字段的完整性超过99.9%。

Our dataset contains 10,185 verified smart contract vulnerabilities with full code context, sourced from 10 authoritative security audit platforms including Code4rena, OpenZeppelin, Halborn, Sherlock, and TrailOfBits. This represents the most comprehensive collection of professionally audited blockchain security issues spanning the period from 2016 to 2024. The benchmark suite of this dataset covers 584 distinct protocols across DeFi, Layer 2, NFT, governance, and infrastructure projects. Each vulnerability entry includes complete code snippets, analyses contributed by 3,086 security experts, impact assessments, and remediation guidance. Furthermore, every entry has undergone professional security review, with the integrity of its key fields exceeding 99.9%.

创建时间：

2025-12-04

原始信息汇总

LISA-Bench: 智能合约漏洞检测基准数据集概述

数据集简介

LISA-Bench是一个用于智能合约漏洞检测的基准数据集，旨在通过全面、生产级别的漏洞数据推进智能合约安全。

数据集规模与来源

总规模：包含10,185个经过验证的智能合约漏洞，每个漏洞均包含完整的代码上下文。
时间跨度：涵盖2016年至2024年的安全事件，代表了最全面的专业审计区块链安全问题集合。
数据来源：源自10个权威安全审计平台，包括Code4rena、OpenZeppelin、Halborn、Sherlock和TrailOfBits等。
协议覆盖：覆盖584个不同的协议，涉及DeFi、Layer 2、NFT、治理和基础设施项目。
专家分析：包含来自3,086名安全专家的分析、影响评估和修复指导。每个条目均经过专业安全审查，关键字段的完整性超过99.9%。

数据集构成

漏洞按严重性分为四类：

高严重性：1,685个案例（16.5%），可能导致资金损失或系统被攻破的关键问题。
中严重性：3,980个案例（39.1%），导致显著功能或安全受损的问题。
低严重性：3,217个案例（31.6%），涉及代码质量和最佳实践违规。
Gas优化：1,303个案例（12.8%），涉及性能和成本效率问题。

来源分布

主要来源包括：Code4rena（38.1%）、OpenZeppelin（11.0%）、Halborn（9.2%）、Sherlock（7.7%）、TrailOfBits（6.7%），以及其他14个权威来源。

评估框架

LISA-Bench为漏洞检测系统提供标准化评估。对于每个案例，该框架：

提供带有完整合约上下文的漏洞代码，以便进行完整的实现分析。
提供丰富的元数据：合约来源、区块链平台、项目类别、时间信息以及相关漏洞。
根据专家验证的真实情况进行检测准确性验证：
- 漏洞识别：正确的漏洞类型检测。
- 位置精度：精确的漏洞代码定位。
- 严重性评估：风险评级与专家分类的一致性。
- 根本原因分析：准确的漏洞机制解释。

评估指标

检测率：正确识别的漏洞百分比。
误报率：错误标记的频率。
严重性准确性：预测风险级别与实际风险级别的一致性。
解释质量：漏洞描述的正确性。
覆盖率：在不同漏洞类别上的性能表现。

基线比较优势

比同类数据集多25倍完整的漏洞案例。
涵盖8年以上的安全演进，而非时间点快照。
由专家审计师进行专业验证，而非合成示例。
覆盖所有主要区块链平台的1,219个生产协议。

主要用途

AI/ML研究：训练检测模型、基准测试可解释AI、开发迁移学习技术。
安全工具：验证静态分析准确性、训练自动审计系统、开发风险评分算法。
教育：教授安全编码、创建培训计划、构建交互式学习平台。

数据格式

数据采用JSON格式，包含以下字段：

Title：漏洞的简短标题。
Content：漏洞描述。
Impact：影响等级（LOW/MEDIUM/HIGH/GAS_OPTIMIZATION）。
Source：漏洞报告来源。
Code：包含漏洞代码文件的数组，每个文件对象包含filename和content。

使用入门

LISA-Bench设计用于立即集成到研究和开发工作流程中：

下载标准化的JSON格式数据集。
按严重性、漏洞类型或时间段选择评估子集。
使用提供的参考实现运行基础模型。
将结果与已发布的基准和行业标准进行比较。
将发现贡献给研究和AgentLISA社区。

搜集汇总

数据集介绍

构建方式

在区块链安全领域，构建高质量漏洞检测基准需要严谨的数据采集与验证流程。LISA-Bench数据集通过整合2016年至2024年间十个权威安全审计平台的公开报告，系统性地收集了10,185个经过验证的智能合约漏洞实例。这些数据源自Code4rena、OpenZeppelin、Halborn等专业机构，覆盖了DeFi、Layer 2、NFT等584个不同协议，每个案例均包含完整的代码上下文、专家分析及修复建议，并经过3,086名安全专家的多重审核，确保了数据在关键字段上达到99.9%以上的完整性。

特点

该数据集的核心特点体现在其全面性与专业性上。它不仅涵盖了高、中、低严重程度及燃气优化四大类漏洞，还提供了从代码片段到元数据的丰富上下文信息，包括合约来源、区块链平台、项目类别和时间维度等。相较于同类基准，LISA-Bench在漏洞案例数量上提升了25倍，并跨越了八年以上的安全演进历程，所有数据均基于真实生产环境中的协议，避免了合成样本可能引入的偏差，为智能合约安全研究提供了坚实可靠的基础。

使用方法

研究人员与开发者可通过标准化JSON格式直接获取数据集，并依据严重程度、漏洞类型或时间范围灵活选择评估子集。该基准支持对漏洞检测系统进行多维度评估，包括检测率、误报率、严重性准确性及解释质量等指标。用户可借助参考实现运行基础模型，将结果与已发布的基准及行业标准进行对比，进而推动人工智能与机器学习在安全领域的应用，或用于验证静态分析工具、构建自动化审计系统以及开发安全教育培训平台。

背景与挑战

背景概述

随着区块链技术的蓬勃发展，智能合约作为去中心化应用的核心组件，其安全性已成为学术界与工业界共同关注的焦点。LISA-Bench数据集由专业安全研究团队于2024年构建，旨在为智能合约漏洞检测领域提供一个全面、生产级的基准测试平台。该数据集整合了2016年至2024年间来自Code4rena、OpenZeppelin等十大权威安全审计平台的10,185个已验证漏洞案例，覆盖了DeFi、NFT等584个不同协议，并融入了3,086位安全专家的深度分析。通过提供完整的代码上下文与详尽的元数据，LISA-Bench不仅推动了自动化漏洞检测模型的训练与评估，也为区块链安全生态的标准化研究奠定了坚实基础。

当前挑战

在智能合约漏洞检测领域，核心挑战在于如何准确识别并分类复杂多变的漏洞模式，同时降低误报率并提升模型的可解释性。LISA-Bench针对这一领域问题，要求检测系统不仅能够定位漏洞代码位置，还需精确评估其严重性并阐明根本原因。在数据集构建过程中，研究团队面临多重挑战：一是需从分散的审计报告中提取并验证海量漏洞信息，确保数据的一致性与专业性；二是必须处理跨平台、跨协议合约代码的异构性，保持上下文完整性；三是需设计严谨的评估框架，以量化检测模型在真实生产环境中的性能表现，避免因合成数据或过时样本导致的评估偏差。

常用场景

经典使用场景

在智能合约安全研究领域，LISA-Bench数据集为漏洞检测模型的训练与评估提供了权威基准。该数据集整合了来自Code4rena、OpenZeppelin等十大专业审计平台的真实漏洞案例，覆盖DeFi、Layer 2、NFT等多个区块链协议，为研究者提供了包含完整代码上下文和专家分析的标准化数据。通过其结构化评估框架，研究人员能够系统性地测试模型在漏洞识别、定位精度和严重性评估等方面的性能，从而推动检测算法在真实生产环境中的可靠性与泛化能力。

实际应用

在实际应用层面，LISA-Bench被广泛集成于自动化审计工具与安全开发流程中。安全团队可利用该数据集校准静态分析工具的检测阈值，降低误报率并提升漏洞覆盖范围。同时，企业能够基于其中的案例库构建内部培训体系，指导开发人员遵循安全编码实践。在区块链协议部署前，项目方亦可参照数据集的严重性分类与修复建议，实施针对性的风险缓解策略，从而增强智能合约在生产环境中的抗攻击能力。

衍生相关工作

围绕LISA-Bench数据集，已衍生出多项前沿研究工作。例如，基于其多源审计数据训练的深度学习模型，在漏洞类型分类与根因分析任务中取得了显著进展；部分研究利用该数据集的时序特性，开发了能够预测新兴漏洞模式的动态检测框架。此外，结合可解释人工智能技术，学者们构建了能够生成修复建议的智能审计代理，这些成果不仅推动了学术界的算法创新，也为工业界安全工具的迭代升级提供了核心支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集