SecCodePLT

Hugging Face2024-10-16 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Virtue-AI-HUB/SecCodePLT

下载链接

链接失效反馈

官方服务：

资源简介：

SecCodePLT是一个统一且全面的代码生成AI风险评估平台。该数据集包含多个特征，如CWE_ID、任务描述、真实数据、单元测试等，用于评估大型语言模型生成不安全代码的风险。数据集的创建过程包括两阶段的数据生成和验证，确保数据的质量和安全性。数据集主要用于评估和改进代码生成模型的安全性，不适合用于训练恶意模型或进行网络攻击。

SecCodePLT is a unified and comprehensive AI risk assessment platform for code generation. The dataset associated with this platform includes multiple attributes such as CWE_ID, task descriptions, ground-truth data, unit tests, etc., and is used to evaluate the risk of unsafe code generated by large language models. The dataset is developed through a two-stage data generation and validation process to ensure its quality and security. This dataset is primarily intended for evaluating and improving the security of code generation models, and is not suitable for training malicious models or conducting cyberattacks.

创建时间：

2024-10-16

原始信息汇总

SecCodePLT 数据集概述

1. 数据集描述

1.1 数据集基本信息

语言(NLP): 英语
许可证: MIT

1.2 数据集来源

论文: https://arxiv.org/pdf/2410.11096
演示: https://seccodeplt.github.io/

2. 数据集用途

2.1 直接使用

该数据集可用于评估大型语言模型生成不安全代码的风险，使大型语言模型生成更安全的代码等。

2.2 超出范围的使用

该数据集不应用于训练恶意的大型语言模型，或用于对软件系统发起网络攻击等。

3. 数据集创建

3.1 动机

现有基准测试方法依赖于静态指标规则或LLM判断，这些方法不如动态测试精确，容易产生误报和漏报。
现有基准测试在可扩展性或质量方面存在不足。

3.2 数据收集与处理

采用两阶段数据创建流程，确保数据的可扩展性和质量。
首先生成每种漏洞类型的种子样本，然后使用LLM驱动的变异器从这些种子生成更多数据。
包含验证步骤以过滤不正确的数据，平衡正确性和可扩展性。
每个任务生成易受攻击和已修复的代码版本，以及功能和安全测试用例。

3.3 标注者

Yu Yang, Yuzhou Nie 和 Zhun Wang

4. 引用

BibTeX: BibTeX @article{yang2024seccodeplt, title={SecCodePLT: A Unified Platform for Evaluating the Security of Code GenAI}, author={Yu Yang and Yuzhou Nie and Zhun Wang and Yuheng Tang and Wenbo Guo and Bo Li and Dawn Song}, year={2024}, journal={arXiv preprint arXiv:2410.11096}, }

搜集汇总

数据集介绍

构建方式

SecCodePLT数据集的构建采用了两阶段的数据生成流程，以确保数据的可扩展性和质量。首先，针对每种选定的漏洞类型生成少量种子样本，随后利用基于大语言模型的变异器从这些种子中生成更多数据。接着，通过验证步骤过滤掉不正确的数据，确保数据的正确性和安全性。种子生成过程包括分析漏洞和上下文，手动创建多个与安全相关的编码任务，并为每个任务生成易受攻击和修复后的代码版本，同时提供功能和安全性测试用例。所有种子均由人类专家创建和验证，确保其与安全相关。

使用方法

SecCodePLT数据集主要用于评估大语言模型生成不安全代码的风险，并帮助模型生成更安全的代码。用户可以通过数据集中的任务描述、代码和测试用例，对模型进行安全性和功能性的评估。数据集支持指令生成和代码补全任务，适用于多种代码生成场景。使用时应避免将数据集用于训练恶意大语言模型或发起对软件系统的网络攻击，确保其应用符合安全伦理。

背景与挑战

背景概述

SecCodePLT数据集由Yu Yang、Yuzhou Nie和Zhun Wang等研究人员于2024年创建，旨在为代码生成人工智能（Code GenAI）的安全性评估提供一个统一的平台。该数据集的核心研究问题在于如何有效评估大型语言模型生成不安全代码的风险，并推动生成更安全的代码。SecCodePLT通过引入两阶段数据创建管道，结合人工专家验证和自动化生成，确保了数据的质量和可扩展性。该数据集不仅包含了漏洞代码和修复代码，还提供了功能性和安全性测试用例，为相关领域的研究提供了重要的数据支持。

当前挑战

SecCodePLT数据集在构建过程中面临多重挑战。首先，现有基准测试多依赖静态规则或LLM判断，容易出现误报和漏报，难以精确评估代码安全性。其次，数据集的构建需要在确保数据质量的同时实现大规模扩展，这对数据处理和验证流程提出了较高要求。此外，如何有效结合人工专家验证与自动化生成，以确保数据的准确性和安全性，也是数据集构建中的一大难题。这些挑战不仅影响了数据集的构建效率，也对后续的模型评估和应用提出了更高的标准。

常用场景

经典使用场景

SecCodePLT数据集在代码生成人工智能（Code GenAI）领域中被广泛用于评估模型生成代码的安全性。通过提供包含漏洞代码和修复后代码的样本，该数据集能够帮助研究人员测试和优化模型在生成安全代码方面的能力。其独特的两阶段数据生成管道确保了数据的质量和可扩展性，使其成为评估代码生成模型安全性的理想工具。

解决学术问题

SecCodePLT数据集解决了现有基准测试中静态规则或LLM判断方法的不精确性问题。通过动态测试和详细的漏洞检测规则，该数据集显著减少了误报和漏报的情况。此外，其高质量的数据生成过程弥补了现有基准测试在可扩展性和质量上的不足，为代码生成模型的安全性评估提供了更为可靠的基础。

实际应用

在实际应用中，SecCodePLT数据集被用于训练和优化代码生成模型，使其能够生成更加安全的代码。开发者和研究人员可以利用该数据集中的漏洞代码和修复后代码样本，测试模型在不同安全场景下的表现，并针对性地改进模型的安全性能。此外，该数据集还可用于开发自动化代码安全检测工具，帮助识别和修复软件中的潜在漏洞。

数据集最近研究