five

Java CVE Benchmark

收藏
github2025-10-02 更新2025-10-04 收录
下载链接:
https://github.com/MarkLee131/Java_CVE_Bench
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个全面的真实世界Java漏洞基准数据集,包含165个独特的CVE漏洞,涵盖流行的Java开源项目。该基准数据集专为静态应用安全测试工具的综合评估和比较而设计,为研究人员和从业者提供标准化的漏洞检测研究数据。

This is a comprehensive real-world Java vulnerability benchmark dataset containing 165 unique CVE vulnerabilities across popular Java open-source projects. This benchmark is specifically designed for comprehensive evaluation and comparison of static application security testing tools, providing standardized vulnerability detection research data for researchers and practitioners.
创建时间:
2025-09-30
原始信息汇总

Java CVE Benchmark 数据集概述

数据集基本信息

  • 数据集名称: Java CVE Benchmark
  • 数据规模: 包含165个独特的Java CVE漏洞
  • 项目数量: 165个Java开源项目
  • 数据来源: 真实世界的Java开源项目漏洞
  • 主要用途: 静态应用安全测试(SAST)工具评估

核心统计指标

统计维度 数量
独特CVE数量 165
Java项目数量 165
CWE弱点类型 37
CWE类别 8
漏洞方法数量 768
修复方法数量 891
平均GitHub星数 3,108
已验证下载URL数量 112

数据内容与结构

数据文件组织

  • 主数据目录: vuln_data/ 包含165个CSV文件
  • 下载数据库: java_cve_verified_download_urls.csv 提供112个已验证下载URL
  • 文件命名格式: {项目名称}_{CVE编号}_{版本号}.csv

数据字段内容

  • 漏洞路径:文件路径、行号范围、方法名称
  • 修复路径:对应的修复位置和方法
  • 元数据:CVE详情、受影响版本、CWE映射

数据获取方式

快速下载(推荐)

bash pip install pandas requests python3 download_vulnerabilities.py

  • 自动从Maven Central(109个)和GitHub(3个)下载
  • 文件保存至 final_downloads/ 目录
  • 支持进度显示和错误处理

手动选择

  • 通过 java_cve_verified_download_urls.csv 选择特定项目和版本

主要特性

  • 最大规模的真实Java CVE数据集
  • 经过三位专家严格验证
  • 方法级粒度的漏洞定位
  • 涵盖高星级的GitHub热门项目
  • 提供预验证的下载URL
  • 全面的CWE弱点覆盖(37种弱点,8个类别)
  • 研究级质量,适用于学术和工业研究

应用场景

  • SAST工具评估:漏洞检测能力全面比较
  • 安全研究:Java漏洞模式学术研究
  • 行业基准测试:商业SAST工具标准化评估

引用信息

论文标题: Comparison and Evaluation on Static Application Security Testing (SAST) Tools for Java
会议: ESEC/FSE 2023
DOI: https://doi.org/10.1145/3611643.3616262

项目资源

  • 项目网站: https://sites.google.com/view/java-sast-study/home
  • 许可证: MIT License
  • 当前状态: 112个已验证下载URL(共165个CVE),正在积极完善完整数据集
搜集汇总
数据集介绍
main_image_url
构建方式
在软件安全研究领域,构建高质量的漏洞基准数据集对于评估静态应用安全测试工具至关重要。Java CVE Benchmark通过系统化方法整合了165个真实世界Java开源项目中的独特CVE漏洞,每个漏洞均经过三位专家独立验证的严格流程。数据采集覆盖37种CWE弱点和8个安全缺陷类别,通过版本映射工具精确标注768个易受攻击方法和891个修复方法,确保数据粒度的精确性。该数据集特别注重项目代表性,所选项目平均获得3108个GitHub星标,体现了其在行业实践中的实际应用价值。
特点
作为当前规模最大的Java漏洞基准数据集,其显著特征体现在多维度的数据完整性。数据集囊括了从常见注入漏洞到资源管理错误等8大类安全缺陷,每个漏洞均提供方法级别的精确定位信息。特别值得关注的是,数据集已预先验证112个可下载链接,涵盖Maven中央仓库和GitHub等主流源码库,保证研究人员能够直接获取原始代码。数据文件采用标准化CSV格式存储,完整记录漏洞路径、修复位置及元数据信息,为对比研究提供结构化支持。
使用方法
研究人员可通过两种主要途径使用该数据集:推荐使用自动化脚本批量下载,通过执行Python脚本自动从验证过的URL列表获取所有JAR文件;亦可基于CSV文件手动选择特定项目版本进行针对性分析。数据集专门设计用于SAST工具评估场景,支持对漏洞检测能力、工具一致性和性能表现等多维度指标的系统化测评。每个CVE独立文件包含完整的漏洞路径和修复方法对照,便于开展检测规则有效性和漏洞模式识别等深度研究。
背景与挑战
背景概述
Java CVE Benchmark作为2023年由多所高校联合发布的静态应用安全测试评估基准,聚焦于现实场景中的Java漏洞检测研究。该数据集由Kaixuan Li等学者在ESEC/FSE会议上正式发布,涵盖165个真实CVE漏洞案例,涉及37种CWE弱点和8个安全缺陷类别。通过整合768个漏洞方法与891个修复方法的精确映射,该基准为安全测试工具的性能评估提供了标准化框架,显著推进了软件开发生命周期中的漏洞检测技术发展。
当前挑战
在静态应用安全测试领域,现有工具对真实漏洞的检测率仅达12.7%,暴露出传统规则引擎在复杂代码模式识别中的局限性。数据集构建过程中需克服多重技术障碍:需从165个高星开源项目中精确提取漏洞路径与修复代码的对应关系,完成112个验证下载链接的跨平台数据采集,并建立涵盖Maven中央库与GitHub仓库的异构数据源整合机制。这些挑战直接反映了现实环境中漏洞模式多样性与工具检测能力之间的显著差距。
常用场景
经典使用场景
在软件安全研究领域,Java CVE Benchmark为静态应用安全测试工具的评估提供了标准化平台。该数据集通过165个真实Java漏洞案例,构建了涵盖37种CWE弱点的测试环境,研究人员可基于方法级粒度的漏洞定位数据,系统比较不同SAST工具在漏洞检测覆盖率、误报率等关键指标上的表现。其精心设计的验证流程确保了评估结果的科学性与可复现性,已成为学术界评估静态分析工具性能的首选基准。
解决学术问题
该数据集有效解决了静态分析工具评估缺乏标准化基准的学术难题。通过构建真实漏洞场景,揭示了现有SAST工具仅能检测12.7%实际漏洞的严峻现状,为改进检测算法提供了明确方向。其方法级标注数据支撑了漏洞模式挖掘研究,而跨项目覆盖特性则助力于通用性检测模型的构建。这些突破性发现推动了软件安全测试理论的发展,为工具优化提供了实证基础。
衍生相关工作
基于该数据集衍生的研究已形成系列经典成果。多篇顶级会议论文利用其构建了新型漏洞检测模型,特别是在深度学习辅助的静态分析方向取得突破。部分研究聚焦于工具组合策略,探索了多工具协同检测的最佳实践。还有工作深入分析了特定CWE类型的检测盲区,为专项优化提供了理论支撑。这些衍生研究共同推动了软件安全检测技术的前沿发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作