patched-codes/static-analysis-eval

Name: patched-codes/static-analysis-eval
Creator: patched-codes
Published: 2025-04-14 15:05:46
License: 暂无描述

Hugging Face2025-04-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/patched-codes/static-analysis-eval

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含76个Python程序，这些程序来自GitHub上排名前1000的开源项目。每个程序都包含一个由静态分析工具Semgrep检测到的漏洞。

This dataset contains 76 Python programs, all sourced from the top 1000 open-source projects on GitHub. Each program includes one vulnerability detected by the static analysis tool Semgrep.

提供机构：

patched-codes

原始信息汇总

数据集概述

数据集名称

static-analysis-eval

数据集描述

该数据集包含76个从真实Python开源项目（GitHub上排名前1000的项目）中提取的Python程序文件，每个文件都包含一个特定的静态分析器（Semgrep）检测到的漏洞。

数据集配置

配置名称: default
数据文件:
- 分割: train
- 路径: data/train-*

数据集信息

特征:
- 名称: source
  - 数据类型: string
- 名称: file_name
  - 数据类型: string
- 名称: cwe
  - 数据类型: string
分割:
- 名称: train
  - 字节数: 87854
  - 样本数: 76
下载大小: 53832
数据集大小: 87854

搜集汇总

数据集介绍

构建方式

在软件安全领域，静态分析工具对代码漏洞的检测能力至关重要。该数据集的构建基于真实开源项目，从GitHub排名前百的Python项目中精选了76个程序文件，每个文件均包含由Semgrep静态分析工具识别出的单一漏洞。通过自动化脚本扫描项目代码库，并依据开源规则集筛选出具有代表性的漏洞实例，确保了数据来源的可靠性与现实相关性。

特点

该数据集聚焦于Python代码的静态分析评估，其核心特征在于每个样本均对应一个具体的漏洞类型，并标注了相应的通用弱点枚举标识。数据集经过迭代更新，增强了实例的难度以应对模型性能的饱和趋势，同时提供了完整的生成与评估脚本，支持研究社区进行可复现的实验。数据结构的简洁性，仅包含源代码、文件名及弱点序列，便于直接应用于模型训练与测试。

使用方法

为利用该数据集进行模型评估，研究者需运行提供的评估脚本，该脚本支持多种配置选项，包括模型选择、少样本学习设置及相似性检索功能。使用前需配置Semgrep工具并登录以获取完整的漏洞检测规则。评估过程将自动记录修复结果并生成日志文件，便于量化模型在漏洞修复任务上的性能表现，并支持与公开排行榜中的先进模型进行对比分析。

背景与挑战

背景概述

在软件工程领域，静态分析作为检测代码漏洞的关键技术，长期面临自动化修复的挑战。由patched-codes团队于2024年构建的static-analysis-eval数据集，聚焦于评估大型语言模型在修复Python程序漏洞方面的能力。该数据集从GitHub排名前100的真实开源项目中精选了76个包含单一漏洞的Python文件，并利用Semgrep静态分析工具进行标注，其核心研究问题在于衡量模型对复杂安全缺陷的识别与修正效能。该数据集的发布为软件安全与人工智能的交叉研究提供了标准化基准，显著推动了自动化代码修复技术的发展。

当前挑战

该数据集旨在解决软件漏洞自动化修复这一领域核心问题，其挑战在于模型需深入理解代码语义与安全上下文，以准确识别并修正多样化的漏洞类型，如CWE分类中的各类缺陷。构建过程中的挑战则体现在数据采集与标注的复杂性：从海量开源项目中筛选具有代表性和单一漏洞的代码样本，需确保漏洞的真实性与静态分析工具检测结果的一致性；同时，随着静态分析工具规则的更新，数据集的时效性与评估标准的稳定性亦面临持续维护的压力。

常用场景

经典使用场景

在软件工程与代码安全领域，静态分析评估数据集为大型语言模型在修复软件漏洞方面的能力提供了标准化测试平台。该数据集从GitHub上排名前100的Python开源项目中提取了76个包含单一漏洞的真实程序文件，通过静态分析工具Semgrep进行标注，构建了一个贴近实际开发场景的基准测试环境。研究人员利用该数据集评估模型在理解漏洞上下文、生成正确补丁方面的性能，推动了自动化代码修复技术的发展。

衍生相关工作

围绕该数据集，衍生出了一系列重要的研究工作与技术改进。最具代表性的是OpenAI基于关联数据集‘synth-vuln-fixes’对GPT-4o进行微调，实现了当前该基准的最高性能。此外，论文《Patched MOA: optimizing inference for diverse software development tasks》提出的混合代理推理优化技术，也在该数据集上验证了无需微调即可提升模型性能的路径。这些工作共同推动了代码生成与安全修复模型的评估方法与性能边界。

数据集最近研究