minified-diverseful-multilabels

Hugging Face2025-02-24 更新2025-02-25 收录

下载链接：

https://huggingface.co/datasets/lemon42-ai/minified-diverseful-multilabels

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个经过精简、清洗和去重的代码漏洞数据集，基于DiverseVul构建，包含C/C++语言的代码样本。数据集旨在帮助计算资源有限的科研人员进行代码漏洞研究，并可用于ModernBERT-base模型的微调。

This is a streamlined, cleaned and deduplicated code vulnerability dataset built upon DiverseVul, which contains code samples written in C/C++. The dataset is intended to assist researchers with limited computational resources in conducting code vulnerability research, and can be used for fine-tuning the ModernBERT-base model.

创建时间：

2025-02-21

搜集汇总

数据集介绍

构建方式

本数据集的构建，始于对原始DiverseVul数据集的清洗与精简。首先移除空值和重复项，保留首次出现的记录。随后，通过随机抽样，选取了19271个安全函数，这些函数的令牌数量介于50至595之间，以ModernBERT-base的令牌化器进行标记。对于不安全标签，仅保留了六种最常见的安全弱点，且为保持计算效率，同样只保留了小于595令牌的函数。

特点

Minified Diverseful For Code Vulnerability数据集，是一个经过压缩、清洗和注释的DiverseVul数据集版本，旨在助力代码漏洞检测研究。该数据集包含23847个样本，具有两个主要特征：func（C/C++代码）和cwe（CWE弱点）。数据集涵盖了六种常见的安全弱点类型，并特别注重样本的多样性和平衡性。

使用方法

使用本数据集时，用户可以将其用于ModernBERT-base的微调，以提升代码漏洞检测模型的性能。数据集的构建考虑了计算资源的限制，适合资源有限的科研人员使用。用户可在提供的GitHub仓库中找到全部代码，并可根据需要重构数据集，以适应不同的令牌长度要求。

背景与挑战

背景概述

minified-diverseful-multilabels数据集，是对DiverseVul数据集进行精简、清洗和去重的版本。该数据集由lemon42-ai团队发布，旨在助力研究人员在代码漏洞检测领域的研究。它包含23847个样本，主要特征包括C/C++代码片段（func）和CWE弱点（cwe）。该数据集支持C/C++编程语言，并专注于六种最常见的CWE弱点。minified-diverseful-multilabels数据集的构建，是为了在现代BERT-base模型上进行微调，以便于计算资源有限的研究人员在代码漏洞检测项目中使用。

当前挑战

数据集构建过程中，研究团队面临了诸多挑战。首先，原始数据集包含了大量的样本，清洗和去重过程要求高效的数据处理方法。其次，为了确保数据集的多样性和实用性，研究团队采用了特定的采样策略，选择了特定数量的安全代码片段和六种常见的CWE弱点。此外，由于计算资源的限制，研究团队还必须对函数的token长度做出限制，以适应模型训练的需求。在解决领域问题方面，minified-diverseful-multilabels数据集旨在提高代码漏洞检测的准确性和效率，但同时也面临着如何平衡数据集规模和计算资源限制的挑战。

常用场景

经典使用场景

在计算机编程与网络安全领域，minified-diverseful-multilabels数据集以其精简、清洁及注释完备的特性，成为代码漏洞检测研究的重要资源。该数据集主要用于训练机器学习模型，以识别C/C++代码中的安全漏洞，其经典使用场景在于通过细粒度的文本分类任务，对代码片段进行安全性与脆弱性评估。

实际应用

在实际应用中，minified-diverseful-multilabels数据集为网络安全防护提供了有力支撑。它能够帮助研究人员和从业者发现并修复潜在的代码漏洞，提高软件的安全性。此外，该数据集也被用于优化和训练漏洞检测工具，增强其在实际环境中的应用效能。

衍生相关工作

基于minified-diverseful-multilabels数据集，衍生出了一系列相关工作，包括但不限于对ModernBERT-base模型的微调，以及ThreatDetect-C-Cpp等安全检测工具的开发。这些工作不仅推动了代码脆弱性检测技术的进步，也为网络安全领域的发展做出了重要贡献。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集