s2e-lab/SecurityEval

Name: s2e-lab/SecurityEval
Creator: s2e-lab
Published: 2023-11-04 15:43:10
License: 暂无描述

Hugging Face2023-11-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/s2e-lab/SecurityEval

下载链接

链接失效反馈

官方服务：

资源简介：

SecurityEval数据集：挖掘漏洞示例以评估基于机器学习的代码生成技术。该数据集用于评估机器学习代码生成输出的效果，并应用于代码生成工具。数据集由Mohammed Latif Siddiq和Joanna C. S. Santos精心策划，使用Python语言，并在MSR4P&S 22研讨会上展示。数据集结构为JSONL格式，每行包含一个JSON对象，详细说明样本的唯一标识符、代码生成模型提示和可能由提示生成的漏洞示例代码。

提供机构：

s2e-lab

原始信息汇总

数据集卡片 for SecurityEval

数据集详情

数据集描述

策划者： Mohammed Latif Siddiq & Joanna C. S. Santos
语言： Python

数据集来源

仓库： https://github.com/s2e-lab/SecurityEval
论文： "SecurityEval Dataset: Mining Vulnerability Examples to Evaluate Machine Learning-Based Code Generation Techniques". International Workshop on Mining Software Repositories Applications for Privacy and Security (MSR4P&S 22). https://s2e-lab.github.io/preprints/msr4ps22-preprint.pdf

数据集结构

dataset.jsonl: 数据集文件，采用jsonl格式。每行包含一个JSON对象，包含以下字段：
- ID: 样本的唯一标识符。
- Prompt: 代码生成模型的提示。
- Insecure_code: 可能由提示生成的漏洞示例代码。

引用

BibTeX:

@inproceedings{siddiq2022seceval, author={Siddiq, Mohammed Latif and Santos, Joanna C. S. }, booktitle={Proceedings of the 1st International Workshop on Mining Software Repositories Applications for Privacy and Security (MSR4P&S22)}, title={SecurityEval Dataset: Mining Vulnerability Examples to Evaluate Machine Learning-Based Code Generation Techniques}, year={2022}, doi={10.1145/3549035.3561184} }

APA:

Siddiq, M. L., & Santos, J. C. (2022, November). SecurityEval dataset: mining vulnerability examples to evaluate machine learning-based code generation techniques. In Proceedings of the 1st International Workshop on Mining Software Repositories Applications for Privacy and Security (pp. 29-33).

搜集汇总

数据集介绍

构建方式

在软件安全领域，评估代码生成模型的安全性至关重要。SecurityEval数据集的构建源于对真实漏洞的挖掘，研究人员从开源软件仓库中系统性地收集了包含安全缺陷的Python代码片段。每个样本均经过人工审核与标注，确保漏洞示例的准确性与代表性，最终形成结构化的JSONL格式文件，为后续评估工作奠定坚实基础。

使用方法

使用SecurityEval时，研究人员可将其作为基准测试集，评估代码生成模型输出代码的安全性。通过将Prompt输入目标模型，将生成的代码与数据集中对应的Insecure_code进行对比分析，可系统性地检测模型是否倾向于产生易受攻击的代码。该数据集可直接用于自动化测试流程，助力提升代码生成工具的安全可靠性。

背景与挑战

背景概述

在软件工程与人工智能交叉领域，随着基于机器学习的代码生成技术迅猛发展，其生成代码的安全性评估成为亟待解决的核心议题。SecurityEval数据集由Mohammed Latif Siddiq与Joanna C. S. Santos于2022年共同创建，并发表于首届国际软件仓库挖掘应用于隐私与安全研讨会。该数据集专注于Python语言，旨在通过精心构建的漏洞示例，系统评估代码生成模型输出中潜在的安全风险，为提升智能编程工具的安全性与可靠性提供了关键基准。

当前挑战

SecurityEval数据集致力于应对代码生成领域中的安全性评估挑战，其核心在于如何精准识别与分类机器学习模型可能产生的易受攻击代码模式。在构建过程中，研究团队面临从真实软件仓库中挖掘高质量漏洞示例的复杂性，需确保示例的典型性与多样性，同时平衡提示与不安全代码间的语义关联。此外，数据集的规模与覆盖漏洞类型的完备性亦是持续优化的方向，以应对不断演进的代码生成技术与安全威胁。

常用场景

经典使用场景

在软件工程与代码生成领域，SecurityEval数据集为评估机器学习模型生成的代码安全性提供了基准。该数据集通过精心构建的提示词与对应的不安全代码示例，使研究人员能够系统性地测试代码生成工具在输出中引入安全漏洞的风险。经典使用场景涉及将数据集中的提示输入至各类代码生成模型，随后分析模型输出是否复现了已知的漏洞模式，从而量化模型的安全性能。

解决学术问题

SecurityEval数据集直接应对了机器学习代码生成研究中安全评估缺失的核心问题。它使得学术界能够实证探究模型在生成功能性代码时，无意中引入安全缺陷的普遍性与严重性。该数据集的意义在于建立了首个专注于代码生成安全性的评估框架，推动了从单纯功能正确性向安全性综合评估的研究范式转变，对提升智能编程助手的可靠性具有深远影响。

实际应用

在实际应用层面，SecurityEval数据集被广泛应用于代码生成工具的开发和测试流程中。安全工程师和开发团队利用该数据集对诸如GitHub Copilot、Codex等AI编程助手进行红队测试或安全审计，识别其潜在的安全盲点。这有助于工具开发者针对性地改进模型训练数据与算法，最终降低在实际软件开发中部署AI生成代码所带来的安全风险。

数据集最近研究