PoisonPy

github2024-05-10 更新2024-05-31 收录

下载链接：

https://github.com/dessertlab/Targeted-Data-Poisoning-Attacks

下载链接

链接失效反馈

官方服务：

资源简介：

PoisonPy是一个包含823对代码描述-Python代码片段的数据集，其中包括安全和含有漏洞（如脆弱函数或不良模式）的代码片段。该数据集用于评估AI代码生成器的安全性，覆盖了OWASP Top 10分类中的34个CWE，其中12个属于MITRE的Top 40。

PoisonPy is a dataset comprising 823 pairs of code descriptions and Python code snippets, including both secure and vulnerable code fragments (such as fragile functions or poor patterns). This dataset is utilized to evaluate the security of AI code generators, covering 34 CWEs from the OWASP Top 10 categories, 12 of which are part of MITRE's Top 40.

创建时间：

2024-02-02

原始信息汇总

数据集概述

数据集名称

PoisonPy

数据集内容

PoisonPy 包含 $823$ 对独特的代码描述-代码片段，包括安全和不安全（即包含脆弱函数或不良模式）的代码片段。
数据集覆盖了来自 OWASP Top 10 分类的 $34$ 个 CWE，其中 $12$ 个属于 MITRE 的 Top 40。

数据集构建

数据集结合了两个基准数据集：SecurityEval 和 LLMSecEval。
数据来源包括 CodeQL、SonarSource 文档和 MITREs CWE。

数据集用途

用于评估 AI NL-to-code 生成器的安全性，通过注入软件漏洞到训练数据中来测试 AI 模型的安全性。

相关代码和实验结果

提供代码以重现论文中描述的漏洞注入。
实验结果包括对 CodeBERT、CodeT5+ 和 Seq2Seq 模型的测试结果。

搜集汇总

数据集介绍

构建方式

在构建PoisonPy数据集时，研究团队结合了当时仅有的两个用于评估AI生成代码安全性的基准数据集，即SecurityEval和LLMSecEval。这两个数据集分别来源于CodeQL、SonarSource文档以及MITRE的CWE数据库。通过整合这些资源，PoisonPy数据集包含了823对独特的代码描述与Python代码片段，涵盖了34个CWE漏洞，其中12个属于MITRE的Top 40漏洞。这种构建方式确保了数据集的多样性和广泛性，为后续的漏洞注入攻击实验提供了坚实的基础。

特点

PoisonPy数据集的主要特点在于其精心设计的结构和内容多样性。该数据集不仅包含了安全的代码片段，还引入了含有漏洞或不良模式的代码，从而能够全面评估AI代码生成模型的安全性。此外，数据集涵盖了多个常见的CWE漏洞，特别是OWASP Top 10和MITRE Top 40中的漏洞，使得研究者能够针对性地测试模型对特定类型漏洞的敏感性。这种设计使得PoisonPy成为研究AI代码生成器安全性的理想工具。

使用方法

使用PoisonPy数据集时，研究者可以通过注入漏洞的方式模拟数据中毒攻击，进而评估AI代码生成模型的鲁棒性。具体操作包括使用提供的代码工具对数据集中的安全代码进行漏洞注入，随后将这些被污染的数据用于训练或微调AI模型，如CodeBERT、CodeT5+和Seq2Seq。通过对比实验结果，研究者可以分析模型在面对特定漏洞时的表现，从而为提升AI代码生成器的安全性提供依据。

背景与挑战

背景概述

PoisonPy数据集由Domenico Cotroneo、Cristina Improta、Pietro Liguori和Roberto Natella等研究人员在2024年创建，旨在评估AI代码生成器在面对目标数据投毒攻击时的安全性。该数据集包含823对独特的代码描述-代码片段对，涵盖了安全与不安全的代码片段，特别是包含漏洞的函数或不良模式。PoisonPy的构建基于两个现有的基准数据集SecurityEval和LLMSecEval，涵盖了34个CWE（常见弱点枚举），其中12个属于MITRE的Top 40。该数据集的发布为AI代码生成器的安全性研究提供了重要的实验基础，推动了程序理解领域的进一步发展。

当前挑战

PoisonPy数据集面临的挑战主要集中在两个方面：首先，构建过程中需要从多个来源整合数据，确保数据质量和多样性，同时识别和标注潜在的漏洞，这要求研究人员具备深厚的领域知识。其次，数据集的应用挑战在于如何有效模拟和检测AI代码生成器在面对数据投毒攻击时的脆弱性，这不仅需要复杂的实验设计，还要求对多种自然语言处理模型（如CodeBERT、CodeT5+和Seq2Seq）进行广泛的测试和评估。此外，如何确保数据集的广泛适用性和持续更新，以应对不断变化的软件安全威胁，也是该数据集未来需要解决的重要问题。

常用场景

经典使用场景

PoisonPy数据集的经典使用场景主要集中在评估和增强AI代码生成模型的安全性。通过提供包含安全与不安全代码片段的配对数据，研究者能够模拟并测试数据中毒攻击对模型生成代码的影响。这种场景特别适用于自然语言到代码（NL-to-code）生成模型的微调过程中，帮助识别和防御潜在的软件漏洞。

实际应用

在实际应用中，PoisonPy数据集可用于开发和测试防御机制，以保护AI代码生成模型免受数据中毒攻击。例如，安全工程师可以使用该数据集来训练和验证检测恶意代码片段的算法，从而在模型部署前增强其安全性。此外，该数据集还可用于教育和培训，帮助开发者和研究人员理解AI代码生成模型的潜在风险。

衍生相关工作

PoisonPy数据集的发布催生了一系列相关研究工作，特别是在AI代码生成模型的安全性评估和防御机制方面。例如，研究者利用该数据集开发了新的漏洞检测算法，并提出了多种防御策略以增强模型的鲁棒性。此外，该数据集还被用于验证和比较不同自然语言处理（NLP）模型在面对数据中毒攻击时的表现，推动了AI安全领域的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集