oxdev/smart-contract-security-sft
收藏Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/oxdev/smart-contract-security-sft
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为智能合约安全SFT数据集,旨在微调语言模型以作为Solidity智能合约的安全审计员。数据集包含327个训练样本,采用ChatML对话格式,来源于291个攻击向量和36个基准发现(包括DODO、Megapot和PoolTogether)。每个样本包含系统提示(审计员角色)、用户消息(易受攻击的代码)和助手消息(FINDING块+Foundry PoC)。数据集的模式包括messages和prompt两列,分别表示完整的ChatML消息和仅包含系统+用户消息的格式。数据集可用于训练语言模型进行智能合约安全审计,支持多种漏洞模式(如重入、预言机、数学、访问控制、代币、保险库、桥接等)。
The dataset named Smart Contract Security SFT Dataset is designed for fine-tuning language models as Solidity smart contract security auditors. It includes 327 training samples in ChatML conversational format, sourced from 291 attack vectors and 36 benchmark findings (DODO, Megapot, PoolTogether). Each sample consists of a system prompt (auditor persona), user message (vulnerable code), and assistant message (FINDING block + Foundry PoC). The schema features messages and prompt columns, representing full ChatML messages and system+user messages only, respectively. The dataset supports training for various vulnerability patterns (reentrancy, oracle, math, access control, token, vault, bridge, etc.) in smart contract security auditing.
提供机构:
oxdev
搜集汇总
数据集介绍

构建方式
本数据集专注于智能合约安全审计领域,旨在为语言模型微调提供高质量的监督式微调(SFT)数据。其构建过程融合了291条攻击向量样本与36条来自DODO、Megapot、PoolTogether等真实审计竞赛的高危及中危漏洞发现,共计327条训练样本。每条样本均遵循ChatML对话格式,包含系统提示(设定审计师角色)、用户消息(呈现脆弱代码)及助手消息(输出结构化漏洞块与Foundry概念验证代码),从而构建出角色化的安全审计对话序列。
特点
该数据集的核心特色在于其针对性的领域专业性与结构化输出设计。数据来源兼具广泛的攻击模式覆盖与真实审计案例的深度,涵盖重入、预言机、数学运算、访问控制、代币、保险库及跨链桥等多类漏洞类型。每条样本的助手回复均以FINDING块形式清晰罗列漏洞发现,并附带可直接运行的Foundry PoC代码,显著增强了模型对于安全漏洞识别与利用验证的指令遵循能力。此外,数据集还额外提供了仅含系统与用户消息的prompt列,便于使用GRPO等强化学习方法进行进一步优化。
使用方法
本数据集可直接通过HuggingFace Datasets库加载使用,调用`load_dataset('oxdev/smart-contract-security-sft', split='train')`即可获取327条标准ChatML格式的训练样本。用户可基于此数据对任意支持对话模板的语言模型进行微调,例如借助0xedev/skills项目中的`train_grpo.py`脚本,以`--model_name Qwen/Qwen2.5-Coder-1.5B-Instruct`等参数启动训练。鉴于其prompt列的特殊设计,该数据集同样适用于GRPO等偏好对齐训练范式,为构建专属智能合约安全审计模型提供了灵活而高效的数据基础。
背景与挑战
背景概述
随着区块链技术的迅猛发展,智能合约作为去中心化应用的核心组件,其安全性问题日益凸显。智能合约一旦部署,便无法修改,漏洞可能导致巨额资产损失,因此对智能合约进行安全审计至关重要。在此背景下,由开发者0xedev创建的smart-contract-security-sft数据集于近期发布,旨在为微调大语言模型以充当Solidity智能合约安全审计员提供高质量训练数据。该数据集包含327个训练样本,来源于291个攻击向量与DODO、Megapot、PoolTogether等知名审计平台的36个基准发现,覆盖重入、预言机、数学、访问控制等多种漏洞模式。数据集以ChatML对话格式呈现,提供了完整的系统提示、用户代码与审计员回复,为基于强化学习的安全审计模型训练奠定了坚实基础。该数据集在智能合约安全自动化审计领域具有重要影响力,为提升审计效率与准确性提供了新的数据驱动方法。
当前挑战
该数据集所解决的领域问题挑战在于:智能合约安全审计高度依赖人工专家,不仅成本高昂且效率有限,而现有自动化工具难以准确识别复杂、组合性的安全漏洞。此外,智能合约漏洞形式多样,包括重入攻击、访问控制缺陷、数学精度问题等,对模型的泛化能力提出了极高要求。在数据集构建过程中,挑战主要体现在两个方面:其一,高质量标注数据的获取困难,需要从真实审计报告与攻击事件中提取并标准化为结构化训练样本,确保漏洞描述与修复建议的准确性;其二,数据来源的多样性导致样本格式与内容存在差异,如何统一为ChatML格式并保持对话逻辑的连贯性,对数据集的质量控制提出了严格考验。
常用场景
经典使用场景
该数据集专为微调大型语言模型而设计,旨在增强其对Solidity智能合约进行安全审计的能力。通过采用ChatML对话格式,模型可模拟专业审计员的角色,针对用户提供的易受攻击合约代码,生成结构化的安全发现报告及基于Foundry的概念验证代码。这一范式革新了传统智能合约漏洞检测的自动化流程,使得语言模型能够在安全领域发挥更为精准和专业的辅助作用。
解决学术问题
此数据集直面智能合约安全审计中依赖人工专家、成本高昂且效率低下的核心瓶颈。它系统地整合了291个攻击向量和来自DODO、Megapot、PoolTogether等知名协议的安全审计案例,为模型学习重入攻击、预言机操纵、访问控制缺陷等多种漏洞模式提供了充足素材。这一举措不仅推动了自然语言处理技术在区块链安全领域的交叉应用,也为构建更加稳健的去中心化金融基础设施奠定了研究基础。
衍生相关工作
该数据集的发布催生了关于专用安全审计模型的一系列衍生研究。通过结合强化学习策略,研究者开发了GRPO训练方案以优化模型在代码审查中的逻辑推理能力。同时,其对话式的数据组织方式激励了后续工作探索多元指令微调、少样本学习及多轮审计对话生成等前沿方向,进一步推动了AI辅助智能合约安全生态的成熟与完善。
以上内容由遇见数据集搜集并总结生成



