TP-FP-Dataset-2

Hugging Face2025-03-01 更新2025-03-02 收录

下载链接：

https://huggingface.co/datasets/Mr-Vicky-01/TP-FP-Dataset-2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了软件漏洞的相关信息，包括漏洞文件的路径、CWE标识、漏洞类型、漏洞描述、严重性等级、相关代码片段、使用的扫描器类型、漏洞状态以及针对GPT和Gemini的状态。数据集分为训练集，提供了详细的统计信息，并有一个默认配置指向训练数据。

创建时间：

2025-02-28

搜集汇总

数据集介绍

构建方式

TP-FP-Dataset-2数据集的构建，是通过整合软件安全漏洞的相关信息，包括漏洞路径、漏洞类别（CWE）、漏洞标识、漏洞描述、严重程度、代码片段、扫描器类型、漏洞状态以及两种特定模型的状态等维度信息。此数据集的构建过程注重于漏洞特征的全面性与深度，旨在为相关研究提供丰富的数据支持。

使用方法

使用TP-FP-Dataset-2数据集时，用户可以依据数据集提供的详细字段信息，进行软件漏洞的分类、预测和检测等研究。数据集以train split为主要训练集，用户可通过下载后解压得到训练数据，进而利用数据集内的字段进行模型的训练与评估工作。

背景与挑战

背景概述

TP-FP-Dataset-2数据集，旨在为软件漏洞检测领域提供高质量的标注数据。该数据集由一系列研究人员开发，并于近年投入学术研究之中。它包含了软件漏洞的详细信息，如漏洞路径（path）、漏洞类别（cwe）、漏洞性质（vuln）、漏洞描述（vuln_desc）、严重性（severity）、代码片段（code）、扫描器类型（scanner）、漏洞状态（status）以及两种特定模型的状态（gpt_status和gemini_status）。该数据集的出现对提升软件安全漏洞识别的自动化水平具有显著影响，为相关领域的研究提供了宝贵资源。

当前挑战

在研究领域，TP-FP-Dataset-2数据集面临的挑战主要包括：如何准确识别并标注漏洞相关的特征，保证数据集的质量和可靠性；在解决软件漏洞检测问题时，如何处理数据中存在的噪声和不确定性；此外，构建过程中遇到的挑战包括数据收集的全面性、标注的一致性以及如何平衡数据集中各类漏洞的代表性。这些挑战对于提高数据集的实际应用价值至关重要。

常用场景

经典使用场景

在软件安全研究领域，TP-FP-Dataset-2数据集被广泛用于评估静态代码分析工具的性能。其核心在于区分真阳性（TP）与假阳性（FP）的漏洞报告，通过对代码路径、漏洞类别（CWE）、漏洞描述、严重性等级等属性的深入分析，研究人员可以训练模型以提升漏洞检测的准确性。

解决学术问题

该数据集有效解决了学术研究中如何量化与优化静态代码分析工具误报率的问题。通过精确标注的漏洞状态，例如gpt_status和gemini_status，研究学者能够对工具的预测性能进行客观评估，进而推动软件安全领域的发展。

实际应用

在实际应用中，TP-FP-Dataset-2数据集助力于提升软件开发过程中缺陷识别的自动化水平。安全工程师可利用该数据集训练出的模型，自动筛选出代码中潜在的安全风险，从而加强软件的安全性。

数据集最近研究