针对Python代码的CWE检测专用的半监督数据集

Name: 针对Python代码的CWE检测专用的半监督数据集
Creator: 孟加拉国工程技术大学信息与通信技术学院, 阿扎伊穆尔·哈基姆·巴皮, 霍森·A·穆斯塔法, 普罗托伊·萨哈, 拉金纳斯·萨勒哈特
Published: 2025-04-23 18:05:27
License: 暂无描述

arXiv2025-04-23 更新2025-04-25 收录

下载链接：

http://arxiv.org/abs/2504.16584v1

下载链接

链接失效反馈

资源简介：

本研究构建了一个针对Python代码的CWE检测的专用数据集，该数据集通过半监督方法生成，结合了大型语言模型生成的代码和人工细致审核。数据集包含500个示例，每个示例包括一个易受攻击的代码片段和一个修复后的代码片段，总共覆盖了25种MITRE Top 25 CWEs。该数据集用于微调一个小型语言模型（codegen-mono），以实现高效的 CWE 检测。

提供机构：

孟加拉国工程技术大学信息与通信技术学院, 阿扎伊穆尔·哈基姆·巴皮, 霍森·A·穆斯塔法, 普罗托伊·萨哈, 拉金纳斯·萨勒哈特

创建时间：

2025-04-23

搜集汇总

数据集介绍

构建方式

该数据集采用半监督学习方法构建，结合了大型语言模型（Gemini-2.0-flash-thinking-exp-01-21）的自动生成能力与人工验证的精确性。针对MITRE Top 25常见软件弱点（CWE），研究团队通过精心设计的提示工程生成包含漏洞的Python代码片段及其修复版本，随后由专家进行严格审查以确保数据的准确性和真实性。最终形成包含500个标注实例的数据集，每个实例均遵循指令-输入-输出的结构化格式。

特点

数据集聚焦Python代码中的安全漏洞检测，覆盖MITRE Top 25 CWE类别，具有高度针对性和专业性。其独特之处在于通过合成数据生成与人工验证相结合的方式，解决了安全领域标注数据稀缺的难题。数据实例包含漏洞代码与修复代码的成对样本，并采用指令跟随格式，为模型微调提供了明确的任务导向。此外，数据集经过严格的质量控制，确保了漏洞标注的准确性和代码示例的现实意义。

使用方法

该数据集专为小型语言模型（SLM）的指令微调设计，适用于代码安全分析任务。使用时需将数据按指令-输入-输出格式组织，其中指令部分统一为漏洞检测任务描述，输入为待分析的Python代码，输出为对应的CWE标签或安全标识。研究人员可通过监督学习方式微调预训练代码模型（如codegen-mono），使其具备精准的漏洞识别能力。该数据集也可用于评估模型在代码安全分析任务上的性能，或作为合成数据生成方法的基准参考。

背景与挑战

背景概述

针对Python代码的CWE检测专用的半监督数据集由孟加拉国工程技术大学信息与通信技术研究所的Md. Azizul Hakim Bappy等研究人员于2025年创建，旨在解决大型语言模型（LLMs）在敏感或专有代码库分析中的隐私和计算成本问题。该数据集通过半监督方法生成，结合了LLM驱动的合成数据生成和人工审查，专注于MITRE Top 25 CWEs的检测。其核心研究问题是通过小型语言模型（SLMs）实现高效、隐私保护的漏洞检测，为开发工作流提供了一种可行的解决方案。该数据集的推出为软件安全领域提供了新的研究方向，特别是在资源受限环境中部署高级安全分析工具方面具有重要影响力。

当前挑战

该数据集面临的挑战主要包括两个方面：领域问题挑战和构建过程挑战。在领域问题方面，CWE检测需要处理代码中的复杂逻辑漏洞，传统方法如静态分析工具和手动代码审查存在高误报率和漏报率的问题，且难以应对漏洞模式的多样性。构建过程中的挑战则体现在数据稀缺性和质量保证上，生成具有真实性的漏洞代码片段和对应的修复示例需要精细的提示工程和严格的人工验证，以确保数据的准确性和实用性。此外，如何在小规模数据集上实现模型的高性能调优，也是该研究需要克服的关键技术难点。

常用场景

经典使用场景

该数据集专为Python代码中的CWE检测设计，采用半监督学习方法结合人工验证，构建了包含500个样本的高质量数据集。其经典使用场景包括训练和评估小型语言模型（SLMs）在本地化环境中检测常见软件弱点，特别适用于金融、医疗等对数据隐私要求严格的领域。通过指令微调，模型能够准确识别MITRE Top 25 CWEs，为开发流程中的早期安全分析提供可靠支持。

解决学术问题

该数据集解决了传统静态分析工具在CWE检测中面临的高误报率、规则维护成本高等问题，同时突破了大型语言模型（LLMs）因云端依赖导致的隐私泄露和计算资源限制。通过半监督生成的合成数据弥补了安全领域标注数据稀缺的短板，验证了小型模型经针对性微调后可达99%的检测准确率，为资源受限环境下的高效漏洞检测提供了学术范式。

衍生相关工作

该数据集推动了隐私保护型代码分析的研究方向，衍生出多篇探索SLMs在安全领域的创新工作。例如基于LoRa微调的Llama 2-7b模型（F1=87%）、结合强化学习的漏洞修复框架Vul-LLM等。相关成果被扩展至Java、C/C++等多语言场景，并催生了对合成数据质量评估、模型可解释性等细分方向的深入研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集