Dataset PHPCVEs
收藏github2025-02-24 更新2025-02-27 收录
下载链接:
https://github.com/YichaoXu/Dataset-PHPCVEs
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从[CVEListV5@2025-02-14_1700Z](https://github.com/CVEProject/cvelistV5)中提取的五种最常见的PHP相关漏洞。数据集包括236个XSS实例、98个SQL注入实例、19个无限制文件上传实例、13个代码注入实例和13个命令注入实例。数据集按年份分类,并提供了真实标签。
This dataset contains the five most common PHP-related vulnerabilities extracted from [CVEListV5@2025-02-14_1700Z](https://github.com/CVEProject/cvelistV5). It includes 236 XSS instances, 98 SQL injection instances, 19 unrestricted file upload instances, 13 code injection instances, and 13 command injection instances. The dataset is categorized by year and provides ground-truth labels.
创建时间:
2025-02-23
原始信息汇总
Dataset PHPCVEs 数据集概述
数据集基本信息
- 数据总量:258个PHP Web应用程序漏洞
- 时间范围:2007年至2025年
- 项目类型:Web应用程序
- 唯一CWE类型数量:5
漏洞类型分布
| CWE类型 | 漏洞描述 | 数量 | 百分比 |
|---|---|---|---|
| CWE-79 | 跨站脚本攻击(XSS) | 145 | 56.2% |
| CWE-89 | SQL注入 | 75 | 29.1% |
| CWE-434 | 无限制文件上传 | 15 | 5.8% |
| CWE-94 | 代码注入 | 13 | 5.0% |
| CWE-77 | 命令注入 | 10 | 3.9% |
数据集特点
- 专注于五种最常见的污点式漏洞
- 包含原始易受攻击代码及其补丁
- 按CWE类型和CVE ID组织
- 数据集截至2025年2月14日为静态版本
获取方式
- 预构建数据集:从发布页面下载(https://github.com/YichaoXu/Dataset-PHPCVEs/releases)
- 从源码构建:通过reproduce.py脚本自定义收集过程
收集标准
- CVE记录必须包含PHP相关关键词
- 必须在引用中包含GitHub补丁链接
- 补丁必须包含至少一个相关的PHP文件
- 仓库必须被分类为Web应用程序
搜集汇总
数据集介绍

构建方式
Dataset PHPCVEs的构建基于CVEListV5数据库,通过筛选含有PHP相关关键词的CVE记录,并确保这些CVE的'refers'部分包含指向GitHub修补链接的信息。进一步筛选出修补链接中至少包含一个`.php`文件的CVE记录,从而确保数据集的相关性和实用性。数据集涵盖了五种最常发生的PHP相关漏洞类型,并按照年份进行分类,同时提供真实标签。
特点
该数据集的特点在于其专注于PHP相关的安全漏洞,包含跨站脚本(XSS)、SQL注入、不受限制的文件上传、代码注入和命令注入等多种类型的漏洞实例。数据集的构建注重实用性和效率,仅包含GitHub上可用的漏洞信息,且提供了详细的分类和标签,便于研究人员进行漏洞分析和安全评估。
使用方法
用户可以通过下载发布的zip文件、使用提供的Python脚本或通过Docker容器来获取数据集。Python脚本和Docker容器方法旨在自动化数据集的检索过程,并确保可重现性。使用这些工具时,需要确保Docker环境已正确配置。此外,使用数据集的研究人员被建议引用相关论文,以承认数据集的来源和贡献。
背景与挑战
背景概述
Dataset PHPCVEs数据集是在2025年2月14日基于CVEListV5构建的,专注于PHP相关的五个最常见安全漏洞,旨在为安全研究提供高效且针对性的资源。该数据集的创建,源于对PHP语言在软件开发中广泛使用背景下,安全漏洞研究的需求。由CVEProject维护的CVEListV5中筛选出的数据,经过精细过滤,确保每一个CVE记录均与PHP相关,并包含GitHub修复链接。该数据集的构建,对于提升PHP应用的安全性检测、漏洞修复以及安全编码标准的制定,具有显著的研究价值和实践意义。
当前挑战
数据集在构建过程中所面临的挑战主要包括:如何精确高效地从海量的CVE记录中筛选出PHP相关的漏洞;确保所选漏洞的GitHub修复链接有效且相关;以及如何组织数据集结构以便于研究人员的使用。在所解决的领域问题方面,该数据集面临着如何全面覆盖PHP中常见的漏洞类型,如跨站脚本(XSS)、SQL注入、文件上传漏洞、代码注入和命令注入等,并为之提供详实的案例和修复参考的挑战。
常用场景
经典使用场景
在软件安全研究领域,Dataset PHPCVEs数据集被广泛用于分析PHP相关安全漏洞。该数据集选自CVEListV5,包含最常见的五种安全漏洞类型,为研究人员提供了一个针对PHP语言特点的漏洞研究样本库,使其能够深入探究PHP应用中安全缺陷的普遍特征与规律。
实际应用
在实践应用中,Dataset PHPCVEs数据集可被用于提高PHP应用程序的安全性。安全开发人员和审计人员可以利用该数据集来增强漏洞检测工具的准确性,从而为软件开发流程提供更加坚实的安全保障。
衍生相关工作
基于Dataset PHPCVEs,学术界和工业界已经衍生出一系列相关工作,包括但不限于安全漏洞预测模型、漏洞修复建议系统以及安全编码规范的制定。这些工作共同推进了软件安全领域的知识积累与技术进步。
以上内容由遇见数据集搜集并总结生成



