oxdev/smart-contract-security-audit-v2

Name: oxdev/smart-contract-security-audit-v2
Creator: oxdev
Published: 2026-04-25 08:41:56
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/oxdev/smart-contract-security-audit-v2

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: prompt list: - name: role dtype: string - name: content dtype: string - name: source dtype: string - name: severity dtype: string - name: category dtype: string - name: has_code dtype: bool - name: has_poc dtype: bool - name: reference_response dtype: string - name: firm dtype: string - name: quality_score dtype: float64 - name: protocol dtype: string splits: - name: train num_bytes: 135505305 num_examples: 48356 - name: validation num_bytes: 7161775 num_examples: 2546 download_size: 103964620 dataset_size: 142667080 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* ---

提供机构：

oxdev

搜集汇总

数据集介绍

构建方式

该数据集通过系统收集智能合约安全审计过程中的真实案例构建而成，涵盖了来自不同审计机构和协议的多样化漏洞样本。每条数据以对话形式组织，包含用户提问与专家回复的提示对，并标注了漏洞的严重程度、类别、是否包含代码片段及概念验证等信息。数据被划分为训练集与验证集，分别包含48,356条和2,546条样本，确保模型训练与评估的可靠性。

特点

数据集的一大特色在于其多维度的标注体系，不仅记录了漏洞的严重性（如高危、中危）和具体类别，还提供了来源审计机构、质量评分以及是否包含可执行的漏洞利用代码（PoC）等关键元数据。这种精细化的结构使得数据集能够支持多种下游任务，如漏洞分类、严重性预测及审计报告生成。同时，数据质量经过评分筛选，保证了样本的代表性与实用性。

使用方法

数据集以标准格式存储，用户可直接通过HuggingFace Datasets库加载并使用，支持常见的训练与验证分割。每条样本的`prompt`字段包含角色对话内容，便于用于微调大语言模型以执行安全审计问答任务。`has_code`与`has_poc`标志允许用户筛选出包含技术细节的样本进行针对性训练，而`severity`和`category`字段则可作为分类或回归任务的目标标签。此外，`reference_response`提供了标准答案，可用于监督学习中的输出对齐。

背景与挑战

背景概述

智能合约作为区块链技术的核心组件，其安全性直接关系到数字资产的安全与生态系统的稳定。随着去中心化金融（DeFi）和Web3应用的迅猛发展，智能合约安全审计成为保障链上经济安全的关键环节。在此背景下，smart-contract-security-audit-v2数据集应运而生，由相关研究机构或团队于近年来构建，旨在为智能合约安全领域提供大规模、高质量的标注数据。该数据集收录了超过4.8万条训练样本和2500余条验证样本，涵盖了漏洞严重性、类别、审计公司及协议类型等多维信息，为漏洞检测、分类与修复研究奠定了坚实的数据基础，显著推动了智能合约安全分析的自动化与智能化进程。

当前挑战

智能合约安全审计面临的核心挑战在于漏洞模式的复杂性与多样性，包括重入攻击、整数溢出、访问控制缺陷等层出不穷的攻击向量，现有规则与基于模式匹配的方法难以覆盖新型或组合型漏洞。此外，该数据集构建过程中遭遇了多重困难：一方面，需要从大量真实审计报告中抽取并标准化漏洞描述、代码片段与利用证明（PoC），数据清洗与标注一致性难以保证；另一方面，不同审计公司对漏洞严重性及分类的评估标准存在差异，如何统一标注规范并确保跨机构数据的可比性成为关键难题。同时，数据集中的质量评分机制虽有助于过滤低质样本，但引入主观偏差的风险亦不容忽视。

常用场景

经典使用场景

该数据集专注于智能合约领域的安全性审计，其经典使用场景在于为区块链应用开发者提供高质量的漏洞检测与修复参考。通过结合对话式交互的prompt结构，数据集能够支持基于大型语言模型的代码审查系统，帮助自动识别合约中的安全缺陷，如重入攻击、整数溢出或权限管理漏洞。这些场景在去中心化金融（DeFi）协议中尤为关键，因为即使是微小的错误也可能导致数亿美元的资金损失。数据集的设计融合了真实世界的审计案例，使模型能够学习到从漏洞发现到修复建议的完整逻辑链，从而提升自动化审计工具的准确性和可靠性。

衍生相关工作

该数据集已衍生出多项具有影响力的研究工作。例如，研究者基于其严重性标签开发了分层预训练模型，实现了对临界漏洞的优先级排序；另有所工作利用数据集的PoC字段，构建了可复现的漏洞攻击图谱，用于评估防御机制的鲁棒性。部分工作还将其与静态分析工具（如Slither）的输出进行对比，提出混合式检测架构来平衡精确度与召回率。在生成式方法方面，有论文利用该数据集的参考响应训练了代码补全模型，使其能在编写过程中主动建议安全修复。这些衍生工作共同推动智能合约审计从人工密集型任务向自动化、智能化的方向演进。

数据集最近研究