QCRI/LLMxCPG-Code

Name: QCRI/LLMxCPG-Code
Creator: QCRI
Published: 2025-10-14 11:19:03
License: 暂无描述

Hugging Face2025-10-14 更新2025-10-18 收录

下载链接：

https://hf-mirror.com/datasets/QCRI/LLMxCPG-Code

下载链接

链接失效反馈

官方服务：

资源简介：

LLMxCPG-Code数据集包含了用于上下文感知漏洞检测研究的原始C文件，这些文件是大型语言模型通过代码属性图引导进行训练的基础。数据集适用于文本生成任务，并包含了100K到1M大小的代码文件。

The LLMxCPG-Code dataset consists of raw C files used for context-aware vulnerability detection research, serving as the foundation for training large language models guided by code property graphs. It is suitable for text generation tasks and includes code files ranging from 100K to 1M in size.

提供机构：

QCRI

搜集汇总

数据集介绍

构建方式

在软件安全领域，漏洞检测是保障系统可靠性的关键环节。QCRI/LLMxCPG-Code数据集源自同名研究论文，旨在通过代码属性图（CPG）引导的大语言模型实现上下文感知的漏洞检测。该数据集以原始C语言源文件形式构建，收录了超过十万个样本，涵盖多种漏洞模式。其构建过程依托于自动化工具链，从开源项目中提取真实世界的C代码，并经由专家标注确保漏洞标签的准确性。数据集的规模介于100K至1M之间，为模型训练提供了充足且多样化的基础素材。

特点

该数据集的核心特点在于其上下文感知的设计理念，每个样本均保留完整的代码上下文，而非孤立的代码片段。这使得模型能够捕捉函数调用、数据流和控制流等结构性信息，从而提升漏洞检测的精确度。此外，数据集与配套的LLMxCPG-Q和LLMxCPG-D模型紧密关联，后者通过CPG增强的注意力机制优化了漏洞定位能力。数据以原始C文件形式存储，便于研究者直接进行预处理或集成到自定义流水线中。

使用方法

使用该数据集时，研究者可将其直接加载用于文本生成任务的微调或评估。由于数据格式为纯文本C文件，用户可通过Hugging Face的datasets库轻松读取，并配合标准分词器进行编码。建议结合官方提供的LLMxCPG模型集合（Hugging Face Collection）或源代码仓库（GitHub）中的CPG提取工具，以复现论文中的上下文增强流程。数据集适用于监督学习的漏洞分类任务，亦可用于对比实验，验证CPG引导策略的有效性。

背景与挑战

背景概述

在软件安全领域，漏洞检测一直是保障系统可靠性的核心挑战。随着深度学习技术的演进，基于代码属性图（CPG）的上下文感知方法逐渐成为研究热点。QCRI/LLMxCPG-Code数据集由卡塔尔计算研究所（QCRI）的研究团队于2025年发布，旨在支撑其发表于USENIX Security 2025的论文《LLMxCPG: Context-Aware Vulnerability Detection Through Code Property Graph-Guided Large Language Models》。该数据集聚焦于原始C语言源代码，包含超过十万个样本，为利用大型语言模型（LLM）结合CPG进行细粒度漏洞检测提供了标准化基准。其核心研究问题在于如何通过图结构引导LLM捕捉代码的语义与依赖关系，从而提升检测精度。该数据集的出现，推动了代码安全分析与大模型交叉领域的发展，为后续研究提供了可复现的数据基础。

当前挑战

该数据集所解决的领域挑战在于传统漏洞检测方法难以有效融合代码的结构信息与上下文语义。现有方法或依赖静态分析导致高误报率，或使用序列模型忽略代码的图结构特性，而LLMxCPG-Code通过CPG引导LLM，试图在保持检测效率的同时提升对复杂漏洞的识别能力。构建过程中，研究团队面临多重困难：首先，需要从海量C语言项目中提取并标准化CPG，确保图结构的完整性与一致性；其次，标注大规模漏洞样本需依赖专家知识，成本高昂且易产生偏差；此外，平衡图结构的稀疏性与LLM的输入长度限制，避免信息丢失，也是一大技术瓶颈。这些挑战共同塑造了该数据集在代码安全研究中的独特价值与复杂性。

常用场景

经典使用场景

在软件安全领域，漏洞检测始终是保障系统可靠性的核心挑战。QCRI/LLMxCPG-Code数据集专为结合代码属性图与大型语言模型的上下文感知漏洞检测任务而设计，其经典使用场景在于训练和评估能够理解程序语义与结构依赖的深度学习模型。通过提供原始C语言文件，该数据集支撑研究者构建从代码片段到漏洞标签的端到端映射，尤其适用于探究控制流、数据流与程序依赖关系对漏洞定位的增强作用，成为代码智能与安全分析交叉方向的重要基准资源。

实际应用

在实际工程环境中，该数据集赋能自动化代码审查与持续集成安全流水线，支持开发团队在软件开发生命周期早期识别潜在缺陷。基于该数据训练的模型可集成至静态应用安全测试工具，辅助安全工程师优先处理高风险代码段，降低人工审计成本。此外，其在开源代码库的漏洞挖掘、工业控制系统固件分析以及物联网设备安全评估中展现出应用潜力，通过将代码属性图转化为可计算特征，实现了从学术研究到产业落地的有效过渡。

衍生相关工作

该数据集衍生了多项经典工作，包括LLMxCPG-Q与LLMxCPG-D两个代表性模型，它们分别采用查询增强与判别式架构来优化漏洞检测性能。后续研究进一步拓展了代码属性图与指令微调的结合策略，催生了诸如CPG-LLMAdapter等轻量级适配方法，以及面向跨语言漏洞迁移学习的图对比学习框架。这些工作共同构建了从数据构建、模型设计到评估基准的完整技术体系，深刻影响了代码安全领域关于结构化先验知识与语言模型协同机制的研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集