CompRealVul_LLVM

Hugging Face2025-05-08 更新2025-05-09 收录

下载链接：

https://huggingface.co/datasets/compAgent/CompRealVul_LLVM

下载链接

链接失效反馈

官方服务：

资源简介：

CompRealVul_LLVM数据集是CompRealVul_C数据集的LLVM IR版本，包含编译为LLVM IR的C代码函数，用于训练和评估在编译代码表示上进行二进制漏洞检测的机器学习模型。数据集分为训练集、验证集和测试集，每个函数的记录包括原始数据源、文件路径、函数名、LLVM IR表示和漏洞标签。

创建时间：

2025-05-07

搜集汇总

数据集介绍

构建方式

在软件安全研究领域，CompRealVul_LLVM数据集通过系统化编译流程构建而成。原始C语言源代码函数从多样化漏洞库中提取，涵盖Juliet测试套件与NVD漏洞数据库等权威来源。每个函数经由LLVM编译器前端处理，生成架构无关的中间表示形式，完整保留程序语义特征。构建过程严格遵循实验可复现原则，采用论文所述的分割策略将数据划分为训练集、验证集与测试集，确保函数样本在不同集合间完全独立。

特点

该数据集的核心价值体现在其独特的LLVM中间表示形式上。这种中间语言既具备机器代码的精确性，又保留高级语言的语义信息，为二进制漏洞检测研究提供理想载体。数据集标注体系采用二元分类标签，清晰标识每个函数的漏洞状态。样本元数据包含原始源代码路径与函数名称，支持多维度的溯源分析。特别设计的非重叠数据分割方案，为模型泛化能力评估建立可靠基准。

使用方法

研究人员可通过HuggingFace生态系统便捷地访问该数据集。使用datasets库的load_dataset函数即可加载指定数据分割，支持直接获取LLVM中间表示字符串与对应漏洞标签。典型应用流程包括：利用训练集构建漏洞检测模型，通过验证集进行超参数优化，最终在测试集上评估模型性能。数据记录采用标准化JSON格式，便于与主流机器学习框架集成，为二进制代码安全分析研究提供端到端解决方案。

背景与挑战

背景概述

随着软件安全漏洞检测研究从源代码层面向编译中间表示拓展，CompRealVul_LLVM数据集于2025年由Compote团队构建，作为CompRealVul_C数据集的LLVM中间表示版本。该数据集聚焦二进制漏洞检测这一核心研究问题，通过将C语言函数编译为架构无关的LLVM IR表示，为机器学习模型提供了更接近实际部署环境的训练基础。其采用Juliet、NVD等权威漏洞库作为数据源，通过标准化划分训练集、验证集与测试集，显著推动了基于编译中间语言的静态漏洞检测方法发展。

当前挑战

在二进制漏洞检测领域，模型需克服高级语义信息缺失与指令级特征提取的难题，同时应对不同编译优化策略导致的代码表示变异问题。数据集构建过程中面临多重挑战：原始C代码到LLVM IR的编译转换需保持漏洞语义一致性，跨架构中间表示的标准化处理要求精密的数据清洗流程，且需确保训练集与测试集函数间严格隔离以避免数据泄露风险。这些技术难点对数据集的可靠性与可复现性提出了严格要求。

常用场景

经典使用场景

在软件安全分析领域，CompRealVul_LLVM数据集为基于中间表示的漏洞检测研究提供了标准化实验平台。其经典应用场景聚焦于训练机器学习模型从LLVM IR中识别潜在安全漏洞，这种架构无关的中间语言能有效捕捉代码的语义特征，为模型提供比原始源代码更具泛化能力的训练样本。研究者通过该数据集构建的检测系统，能够直接对编译后的程序进行分析，显著提升了漏洞发现的自动化程度。

实际应用

在实际部署场景中，基于该数据集训练的模型可集成至持续集成流程，对编译后的二进制文件进行实时安全扫描。这种能力特别适用于第三方闭源软件的安全审计，以及嵌入式设备固件的漏洞挖掘。在软件供应链安全领域，该技术能够有效检测经过复杂编译优化的代码，为关键基础设施提供更深层次的安全保障，显著降低了人工审计的成本与漏报风险。

衍生相关工作

该数据集的发布催生了系列创新研究，包括基于图神经网络的IR控制流分析、结合注意力机制的漏洞模式挖掘等方向。多项工作通过改进模型架构提升了在复杂代码结构中的检测精度，部分研究进一步探索了跨项目漏洞迁移学习的可行性。这些衍生成果不仅丰富了程序分析的方法体系，也为构建下一代智能漏洞挖掘平台提供了重要技术支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集