SecureReviewer数据集

Name: SecureReviewer数据集
Creator: 北京航空航天大学软件学院
Published: 2025-10-30 21:06:11
License: 暂无描述

arXiv2025-10-30 更新2025-11-01 收录

下载链接：

https://we.mtre.org

下载链接

链接失效反馈

官方服务：

资源简介：

SecureReviewer数据集是为训练和评估安全代码审查能力而特别构建的。该数据集包含从CodeReviewer数据集中收集的与安全相关的代码审查评论，经过LLM和启发式规则的自动数据收集和精炼流程处理。数据集共包含4674条记录，涵盖了7种安全类型，包括异常处理、并发、输入验证、访问控制和信息安全等。数据集的创建旨在解决现有代码审查数据集中缺乏针对安全问题的数据和评估指标的问题。

The SecureReviewer dataset is specifically constructed for training and evaluating secure code review capabilities. It contains security-related code review comments collected from the CodeReviewer dataset, processed through an automated data collection and refinement pipeline leveraging LLMs and heuristic rules. The dataset includes a total of 4,674 records covering 7 categories of security issues, such as exception handling, concurrency, input validation, access control, information security, and others. This dataset was developed to address the gap where existing code review datasets lack security-specific data and corresponding evaluation metrics.

提供机构：

北京航空航天大学软件学院

创建时间：

2025-10-30

搜集汇总

数据集介绍

构建方式

在软件安全领域，SecureReviewer数据集的构建采用了自动化数据收集与精炼流程，以CodeReviewer数据集为基础，通过关键词匹配与语义嵌入匹配技术筛选出与安全漏洞相关的代码审查样本。随后利用大型语言模型对原始注释进行结构化重构，将其转化为包含安全类型、问题描述、影响分析和修复建议四个维度的标准化格式，并由领域专家进行质量验证，最终形成包含4,674条高质量样本的均衡数据集。

使用方法

该数据集适用于大语言模型在安全代码审查任务中的微调与评估，研究者可通过加载标准化数据格式直接进行模型训练。在应用过程中，模型需学习从代码差异中识别安全漏洞类型，并生成符合四要素结构的审查意见。评估阶段需结合传统指标与专设的SecureBLEU metric，后者通过融合安全关键词权重与语义相似度，量化生成内容在安全语境下的有效性，确保模型输出兼具语言规范性与安全专业性。

背景与挑战

背景概述

SecureReviewer数据集由北京航空航天大学复杂与关键软件环境国家重点实验室于2025年提出，旨在解决软件开发中安全代码审查的自动化需求。该数据集聚焦于大型语言模型在安全代码审查中的专业化训练，通过整合代码变更与安全缺陷注释，构建了覆盖输入验证、并发控制、资源管理等七类安全问题的标注体系。其创新性在于将安全感知微调策略与检索增强生成技术相结合，显著提升了模型在早期开发阶段识别安全漏洞的精准度，为软件安全左移实践提供了关键技术支撑。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决通用代码审查模型对安全缺陷检测能力不足的局限性，例如传统模型难以区分环境配置错误与访问控制漏洞的语义差异；在构建过程中，原始代码审查数据存在大量非信息性注释与安全标注稀疏问题，需通过关键词匹配与语义嵌入的多级过滤机制，并引入安全专用评估指标SecureBLEU以克服传统BLEU指标对安全关键词覆盖度的忽视。

常用场景

经典使用场景

在软件工程领域，SecureReviewer数据集专为安全代码审查任务而构建，其经典应用场景聚焦于训练和评估大语言模型在代码审查过程中识别安全漏洞的能力。通过整合代码变更片段与结构化安全审查注释，该数据集使模型能够学习从输入验证缺陷到并发问题等多种安全弱点的检测模式，为自动化安全代码审查系统提供了标准化训练范本。

解决学术问题

该数据集有效解决了安全代码审查领域长期存在的两大难题：高质量数据的稀缺性与评估指标的局限性。通过融合关键词匹配与语义嵌入技术构建的标注体系，显著提升了模型对隐式安全威胁的识别能力；其提出的SecureBLEU评估指标突破传统BLEU仅关注文本相似度的局限，将安全关键词覆盖度纳入量化体系，为学术界提供了更精准的安全审查质量评估基准。

实际应用

在实际开发环境中，该数据集支撑的模型已应用于持续集成流程的早期安全检测阶段。当开发人员提交代码变更时，系统能自动生成包含漏洞类型描述、影响分析和修复建议的审查报告，显著降低了因配置错误、资源管理不当等常见安全问题导致的生产环境风险。这种自动化审查机制特别适用于金融科技与物联网等对代码安全性要求极高的领域。

数据集最近研究