CORRECT dataset
收藏arXiv2025-04-18 更新2025-04-22 收录
下载链接:
https://anonymous.4open.science/r/CORRECT
下载链接
链接失效反馈官方服务:
资源简介:
CORRECT数据集是由南京大学国家重点实验室构建的,包含2000对具有相关执行和数据上下文的漏洞-补丁程序对,跨越99个CWE类别。该数据集旨在为大型语言模型在漏洞检测中的评估提供丰富的上下文信息,以促进更准确的漏洞检测性能评估。
The CORRECT dataset was constructed by the State Key Laboratory at Nanjing University. It consists of 2000 vulnerability-patch program pairs with associated execution and data contexts, spanning 99 CWE categories. This dataset is designed to provide rich contextual information for evaluating large language models (LLMs) in vulnerability detection, thereby facilitating more accurate performance assessment of vulnerability detection.
提供机构:
南京大学
创建时间:
2025-04-18
搜集汇总
数据集介绍

构建方式
CORRECT数据集通过系统化整合上下文信息构建而成,旨在解决传统漏洞检测评估中上下文缺失的问题。研究团队从364个真实项目中收集了2,000对漏洞-补丁程序对,涵盖99种常见弱点枚举(CWE)类型。采用代码属性图(CPG)技术提取执行逻辑、全局变量和类型声明等上下文要素,并通过前向/后向切片优化上下文规模。每个样本均包含漏洞描述、补丁提交信息和共享上下文三部分,形成完整的漏洞检测单元。
使用方法
使用CORRECT数据集需遵循三阶段框架:首先加载包含漏洞代码、补丁版本及共享上下文的样本对;其次通过上下文增强提示模板激发LLM的漏洞推理能力,获取二元判断及自然语言依据;最终采用LLM-as-judge机制验证依据的正确性。评估支持宽松模式(接受近似检测)和严格模式(要求精确漏洞归因),用户可根据需要选择不同严格度的指标体系。数据集特别适用于测试模型在真实场景下的漏洞推理能力,需注意配合提供的提示模板和评估脚本确保结果可比性。
背景与挑战
背景概述
CORRECT数据集由南京大学和山东大学的研究团队于2025年创建,旨在解决基于大型语言模型(LLM)的漏洞检测中上下文信息缺失的问题。该数据集包含2000个漏洞-补丁程序对,涵盖99种常见弱点枚举(CWE),并提供了丰富的执行和数据流上下文信息。CORRECT的提出挑战了此前关于LLM在漏洞检测中不可靠、对补丁不敏感以及性能随模型规模增长而停滞的三个社区共识,为相关领域提供了更准确的评估框架。
当前挑战
CORRECT数据集面临的挑战主要包括两方面:1) 领域问题挑战:现有评估方法通常忽略代码的全局执行上下文,导致LLM在检测真实世界漏洞时产生误导性结论(如误报漏洞)或不正确的推理依据(如错误定位漏洞根源)。2) 构建过程挑战:数据集的创建需要精确收集漏洞相关的代码上下文(如调用函数、类型声明等),并确保标签的高准确性(98%),同时需处理大规模代码库中复杂的语法依赖关系,避免因上下文过长超出LLM的处理限制。
常用场景
经典使用场景
在软件安全领域,CORRECT数据集被广泛应用于评估基于大型语言模型(LLM)的漏洞检测能力。该数据集通过提供丰富的上下文信息,如调用关系、全局变量和类型声明,使研究人员能够更准确地评估模型在真实场景下的漏洞检测性能。经典使用场景包括对LLM在检测常见漏洞类型(如缓冲区溢出、整数溢出等)时的表现进行系统性测试,从而揭示模型在实际应用中的潜力与局限。
解决学术问题
CORRECT数据集解决了当前漏洞检测研究中因缺乏上下文信息而导致的评估偏差问题。通过构建包含2000个漏洞-补丁程序对的数据集,覆盖99种常见弱点枚举(CWE),该数据集为学术界提供了可靠的基准测试工具。其意义在于纠正了此前关于LLM在漏洞检测中性能不可靠、对补丁不敏感以及模型规模效应不显著的误解,为后续研究提供了更科学的评估框架。
实际应用
在实际应用中,CORRECT数据集被集成到软件开发工具链中,帮助安全团队评估和优化基于LLM的漏洞检测工具。例如,企业可利用该数据集验证其内部开发的AI辅助代码审查工具在检测跨文件、跨函数漏洞时的有效性。此外,数据集还被用于训练上下文感知的漏洞检测模型,显著提升了在复杂代码库中发现安全问题的准确率。
数据集最近研究
最新研究方向
近年来,基于大语言模型(LLM)的漏洞检测技术已成为软件安全领域的前沿研究方向。CORRECT数据集通过引入上下文丰富的评估框架,系统性地解决了传统评估方法中因缺乏上下文信息而导致的性能低估问题。研究表明,当提供充分的执行上下文和数据流信息时,先进LLM在关键CWE类别上的检测准确率可达67%,F1分数超过70%,显著优于随机基线。该数据集揭示了LLM在结构化漏洞(如CWE-664越界访问和CWE-682整数溢出)检测中的卓越推理能力,同时发现模型规模扩展虽能提升性能但存在收益递减现象。这些发现颠覆了学术界关于LLM漏洞检测能力不可靠、对补丁不敏感且性能停滞的既有认知,为构建更可靠的智能安全分析系统提供了重要理论基础。
相关研究论文
- 1Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask南京大学 · 2025年
以上内容由遇见数据集搜集并总结生成



