five

patched-codes/static-analysis-eval

收藏
Hugging Face2025-04-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/patched-codes/static-analysis-eval
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含76个Python程序,这些程序来自GitHub上排名前1000的开源项目。每个程序都包含一个由静态分析工具Semgrep检测到的漏洞。

This dataset contains 76 Python programs, all sourced from the top 1000 open-source projects on GitHub. Each program includes one vulnerability detected by the static analysis tool Semgrep.
提供机构:
patched-codes
原始信息汇总

数据集概述

数据集名称

static-analysis-eval

数据集描述

该数据集包含76个从真实Python开源项目(GitHub上排名前1000的项目)中提取的Python程序文件,每个文件都包含一个特定的静态分析器(Semgrep)检测到的漏洞。

数据集配置

  • 配置名称: default
  • 数据文件:
    • 分割: train
    • 路径: data/train-*

数据集信息

  • 特征:

    • 名称: source
      • 数据类型: string
    • 名称: file_name
      • 数据类型: string
    • 名称: cwe
      • 数据类型: string
  • 分割:

    • 名称: train
      • 字节数: 87854
      • 样本数: 76
  • 下载大小: 53832

  • 数据集大小: 87854

搜集汇总
数据集介绍
main_image_url
构建方式
在软件安全领域,静态分析工具对代码漏洞的检测能力至关重要。该数据集的构建基于真实开源项目,从GitHub排名前百的Python项目中精选了76个程序文件,每个文件均包含由Semgrep静态分析工具识别出的单一漏洞。通过自动化脚本扫描项目代码库,并依据开源规则集筛选出具有代表性的漏洞实例,确保了数据来源的可靠性与现实相关性。
特点
该数据集聚焦于Python代码的静态分析评估,其核心特征在于每个样本均对应一个具体的漏洞类型,并标注了相应的通用弱点枚举标识。数据集经过迭代更新,增强了实例的难度以应对模型性能的饱和趋势,同时提供了完整的生成与评估脚本,支持研究社区进行可复现的实验。数据结构的简洁性,仅包含源代码、文件名及弱点序列,便于直接应用于模型训练与测试。
使用方法
为利用该数据集进行模型评估,研究者需运行提供的评估脚本,该脚本支持多种配置选项,包括模型选择、少样本学习设置及相似性检索功能。使用前需配置Semgrep工具并登录以获取完整的漏洞检测规则。评估过程将自动记录修复结果并生成日志文件,便于量化模型在漏洞修复任务上的性能表现,并支持与公开排行榜中的先进模型进行对比分析。
背景与挑战
背景概述
在软件工程领域,静态分析作为检测代码漏洞的关键技术,长期面临自动化修复的挑战。由patched-codes团队于2024年构建的static-analysis-eval数据集,聚焦于评估大型语言模型在修复Python程序漏洞方面的能力。该数据集从GitHub排名前100的真实开源项目中精选了76个包含单一漏洞的Python文件,并利用Semgrep静态分析工具进行标注,其核心研究问题在于衡量模型对复杂安全缺陷的识别与修正效能。该数据集的发布为软件安全与人工智能的交叉研究提供了标准化基准,显著推动了自动化代码修复技术的发展。
当前挑战
该数据集旨在解决软件漏洞自动化修复这一领域核心问题,其挑战在于模型需深入理解代码语义与安全上下文,以准确识别并修正多样化的漏洞类型,如CWE分类中的各类缺陷。构建过程中的挑战则体现在数据采集与标注的复杂性:从海量开源项目中筛选具有代表性和单一漏洞的代码样本,需确保漏洞的真实性与静态分析工具检测结果的一致性;同时,随着静态分析工具规则的更新,数据集的时效性与评估标准的稳定性亦面临持续维护的压力。
常用场景
经典使用场景
在软件工程与代码安全领域,静态分析评估数据集为大型语言模型在修复软件漏洞方面的能力提供了标准化测试平台。该数据集从GitHub上排名前100的Python开源项目中提取了76个包含单一漏洞的真实程序文件,通过静态分析工具Semgrep进行标注,构建了一个贴近实际开发场景的基准测试环境。研究人员利用该数据集评估模型在理解漏洞上下文、生成正确补丁方面的性能,推动了自动化代码修复技术的发展。
衍生相关工作
围绕该数据集,衍生出了一系列重要的研究工作与技术改进。最具代表性的是OpenAI基于关联数据集‘synth-vuln-fixes’对GPT-4o进行微调,实现了当前该基准的最高性能。此外,论文《Patched MOA: optimizing inference for diverse software development tasks》提出的混合代理推理优化技术,也在该数据集上验证了无需微调即可提升模型性能的路径。这些工作共同推动了代码生成与安全修复模型的评估方法与性能边界。
数据集最近研究
最新研究方向
在软件工程与人工智能交叉领域,静态分析评估数据集正推动大语言模型修复代码漏洞的前沿探索。当前研究聚焦于通过微调技术提升模型性能,例如OpenAI利用synth-vuln-fixes数据集微调GPT-4o,实现了61.06%的评估得分,成为该基准的新标杆。同时,混合代理(MOA)等推理优化方法展现出无需微调即可增强模型能力的潜力,结合检索增强生成(RAG)与少样本提示策略,进一步拓展了模型在复杂漏洞修复场景中的适应性。这些进展不仅加速了智能化代码审计工具的发展,也为软件安全领域的自动化缺陷修复提供了新的技术范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作