LLM Contract Analyzer Dataset

github2025-12-17 更新2025-12-18 收录

下载链接：

https://github.com/Mustafa99Ab/LLM-Contract-Analyzer

下载链接

链接失效反馈

官方服务：

资源简介：

LLM Contract Analyzer是一个学术研究项目，旨在建立一个高质量、结构化且标记的数据集，使大型语言模型（LLMs）能够准确检测非EVM区块链架构（特别是Solana和Algorand）中的逻辑错误、安全漏洞和配置错误。数据集遵循OWASP智能合约Top 10标准，但针对平台特定相关性进行了调整。目前，某些漏洞类型（V2、V3、V7）被排除在外，因为它们主要依赖于外部链下数据、复杂的业务逻辑或外部DeFi协议交互。

LLM Contract Analyzer is an academic research project aimed at building a high-quality, structured and annotated dataset that enables large language models (LLMs) to accurately detect logical errors, security vulnerabilities and configuration misconfigurations in non-EVM blockchain architectures, specifically Solana and Algorand. The dataset follows the OWASP Smart Contract Top 10 standard, but has been adjusted for platform-specific relevance. Currently, certain vulnerability types (V2, V3, V7) are excluded, as they primarily rely on off-chain external data, complex business logic, or interactions with external DeFi protocols.

创建时间：

2025-11-17

原始信息汇总

LLM Contract Analyzer 数据集概述

数据集基本信息

数据集名称：LLM Contract Analyzer
主要目标：建立一个高质量、结构化、带标签的数据集，使大型语言模型（LLMs）能够准确检测非EVM区块链架构（特别是Solana和Algorand）中的逻辑错误、安全漏洞和配置错误。
项目性质：学术研究项目，作为专注于智能合约安全和AI辅助漏洞检测的硕士论文的一部分。
当前状态：处于积极开发中，目前为数据准备和验证阶段。数据集可能会更新、完善和扩展。
许可证：MIT

数据集范围与漏洞分类

数据集遵循OWASP智能合约十大安全风险标准，但根据平台相关性进行了调整。

当前范围限制

某些漏洞类型（V2、V3、V7）目前被排除在生成的数据集之外，因为它们主要依赖于外部链下数据（预言机）、特定于单个DApp的复杂业务逻辑或外部DeFi协议交互（闪电贷），这些难以在孤立的静态代码片段中捕获。

漏洞覆盖状态表

ID	漏洞类别	Solana 状态	Algorand 状态	描述
V1	访问控制	✅ 已包含	✅ 已包含	缺少签名者检查、所有者验证错误。
V2	预言机操纵	❌ 已排除	⚪ 不适用	需要外部价格源上下文。
V3	逻辑错误	❌ 已排除	✅ 已包含	通用业务逻辑缺陷。
V4	输入验证	✅ 已包含	⚪ 不适用	缺少约束、账户混淆。
V5	重入	✅ 已包含	⚪ 不适用	CPI不一致性（Solana特有）。
V6	未检查的调用	✅ 已包含	✅ 已包含	未验证的CPI调用/忽略返回数据。
V7	闪电贷	❌ 已排除	⚪ 不适用	套利/AMM操纵（超出范围）。
V8	整数问题	✅ 已包含	✅ 已包含	溢出/下溢（算术错误）。
V9	不安全随机性	✅ 已包含	⚪ 不适用	可预测的种子/区块哈希。
V10	拒绝服务	✅ 已包含	✅ 已包含	PDA冲突、计算预算耗尽。

图例说明：

✅ 已包含： 高质量样本已准备/正在进行中。

❌ 已排除： 超出当前研究阶段范围。

⚪ 不适用： 不适用于该区块链的架构。

数据集结构

数据集按平台组织。文件目前正在填充和验证中。

LLM-Contract-Analyzer/ ├── algorand Dataset/ │ └── custom_samples/ │ ├── algorand_v1_access_control.json │ ├── algorand_v6_unchecked_calls.json │ └── ... │ ├── Solana Dataset/ │ └── custom_samples/ # 手工制作的Rust/Anchor样本 │ ├── solana_v1_access_control.json │ ├── solana_v4_input_validation.json │ ├── solana_v5_reentrancy.json │ ├── solana_v6_unchecked_calls.json │ ├── solana_v8_arithmetic.json │ ├── solana_v9_bump_seed.json │ └── solana_v10_dos.json │ └── README.md

搜集汇总

数据集介绍

构建方式

在智能合约安全分析领域，LLM Contract Analyzer数据集的构建遵循了严谨的学术研究范式。该数据集以OWASP智能合约十大安全风险标准为基准，针对非EVM区块链架构——特别是Solana和Algorand平台——进行了适应性调整。构建过程聚焦于平台相关的逻辑漏洞、安全缺陷及配置错误，通过人工精心编写和标注代码样本，生成了结构化的、高质量的标注数据。目前，数据集涵盖了访问控制、输入验证、重入攻击、未检查调用、整数问题、拒绝服务等核心漏洞类别，而部分依赖链外数据或复杂业务逻辑的漏洞类型则被暂时排除在研究范围之外，确保了数据集的专注性与可操作性。

特点

该数据集的核心特点在于其针对非EVM区块链生态的专业性与结构性。它不仅严格遵循了行业广泛认可的OWASP安全分类标准，更深入适配了Solana和Algorand两大平台特有的编程模型与安全风险模式。数据集按平台和漏洞类别进行清晰的组织，每个样本均经过人工校验，旨在提供高质量、可解释的代码示例。其范围界定明确，专注于可通过静态代码片段有效捕获的漏洞类型，从而为大型语言模型提供了精准、可靠的学习与评估基础，有力支撑了跨架构智能合约安全的对比分析与模型训练。

使用方法

研究人员和开发者可通过访问项目仓库，按平台目录结构获取相应的JSON格式数据文件。数据集专为训练和评估大型语言模型在智能合约漏洞检测任务上的性能而设计。使用者可以加载这些结构化样本，将其作为模型的输入数据，用于微调、零样本或少样本学习实验，以提升模型在识别特定平台安全漏洞方面的准确性与泛化能力。同时，清晰的分类体系也便于进行细致的性能评估与消融研究，为智能合约安全分析工具的开发和学术比较研究提供了标准化基准。

背景与挑战

背景概述

随着区块链技术的广泛应用，智能合约的安全性成为保障数字资产与去中心化应用稳健运行的核心议题。LLM Contract Analyzer数据集于2024年由意大利萨莱诺大学的研究团队在硕士论文项目中创建，旨在构建一个结构化、高质量的数据集，专门用于支持大型语言模型检测非EVM架构区块链（如Solana和Algorand）智能合约中的逻辑漏洞与安全风险。该数据集紧密遵循OWASP智能合约十大安全威胁标准，聚焦于访问控制、重入攻击及整数溢出等关键漏洞类型，为智能合约安全分析领域提供了跨平台、标准化的评估基准，推动了人工智能辅助漏洞检测方法的发展。

当前挑战

该数据集致力于解决智能合约漏洞自动检测领域的核心挑战，即如何使大型语言模型准确识别非EVM区块链环境中多样化、平台特定的安全缺陷。构建过程中面临多重困难：一方面，需克服非EVM架构（如Solana的Rust语言和Algorand的TEAL）代码样本稀缺且标注标准不统一的难题；另一方面，某些复杂漏洞类型（如预言机操纵和闪电贷攻击）因依赖外部数据或跨协议交互，难以通过静态代码片段有效捕捉，导致数据集覆盖范围受限。此外，确保样本质量与标签一致性，同时适应快速演进的区块链安全威胁态势，亦是持续维护中的关键挑战。

常用场景

经典使用场景

在区块链安全研究领域，LLM Contract Analyzer Dataset 为智能合约漏洞检测提供了结构化基准。该数据集聚焦于非EVM架构，特别是Solana和Algorand平台，通过精心标注的代码样本，支持大型语言模型识别访问控制缺陷、输入验证错误及整数溢出等常见漏洞。研究人员可借助该数据集训练和评估模型，以自动化方式扫描合约代码，提升漏洞发现的准确性与效率，为智能合约安全审计奠定数据基础。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作。例如，基于其标注框架的跨链漏洞对比分析，揭示了Solana与Algorand平台在访问控制实现上的差异；另有研究利用该数据集微调领域专用语言模型，提升了重入漏洞检测的精确度。这些工作不仅扩展了数据集的学术影响力，还催生了开源审计工具与标准化检测规则库，形成了以数据驱动的智能合约安全生态系统，持续赋能后续研究与实践创新。

数据集最近研究