five

minified-diverseful-multilabels

收藏
Hugging Face2025-02-24 更新2025-02-25 收录
下载链接:
https://huggingface.co/datasets/lemon42-ai/minified-diverseful-multilabels
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个经过精简、清洗和去重的代码漏洞数据集,基于DiverseVul构建,包含C/C++语言的代码样本。数据集旨在帮助计算资源有限的科研人员进行代码漏洞研究,并可用于ModernBERT-base模型的微调。

This is a streamlined, cleaned and deduplicated code vulnerability dataset built upon DiverseVul, which contains code samples written in C/C++. The dataset is intended to assist researchers with limited computational resources in conducting code vulnerability research, and can be used for fine-tuning the ModernBERT-base model.
创建时间:
2025-02-21
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集的构建,始于对原始DiverseVul数据集的清洗与精简。首先移除空值和重复项,保留首次出现的记录。随后,通过随机抽样,选取了19271个安全函数,这些函数的令牌数量介于50至595之间,以ModernBERT-base的令牌化器进行标记。对于不安全标签,仅保留了六种最常见的安全弱点,且为保持计算效率,同样只保留了小于595令牌的函数。
特点
Minified Diverseful For Code Vulnerability数据集,是一个经过压缩、清洗和注释的DiverseVul数据集版本,旨在助力代码漏洞检测研究。该数据集包含23847个样本,具有两个主要特征:func(C/C++代码)和cwe(CWE弱点)。数据集涵盖了六种常见的安全弱点类型,并特别注重样本的多样性和平衡性。
使用方法
使用本数据集时,用户可以将其用于ModernBERT-base的微调,以提升代码漏洞检测模型的性能。数据集的构建考虑了计算资源的限制,适合资源有限的科研人员使用。用户可在提供的GitHub仓库中找到全部代码,并可根据需要重构数据集,以适应不同的令牌长度要求。
背景与挑战
背景概述
minified-diverseful-multilabels数据集,是对DiverseVul数据集进行精简、清洗和去重的版本。该数据集由lemon42-ai团队发布,旨在助力研究人员在代码漏洞检测领域的研究。它包含23847个样本,主要特征包括C/C++代码片段(func)和CWE弱点(cwe)。该数据集支持C/C++编程语言,并专注于六种最常见的CWE弱点。minified-diverseful-multilabels数据集的构建,是为了在现代BERT-base模型上进行微调,以便于计算资源有限的研究人员在代码漏洞检测项目中使用。
当前挑战
数据集构建过程中,研究团队面临了诸多挑战。首先,原始数据集包含了大量的样本,清洗和去重过程要求高效的数据处理方法。其次,为了确保数据集的多样性和实用性,研究团队采用了特定的采样策略,选择了特定数量的安全代码片段和六种常见的CWE弱点。此外,由于计算资源的限制,研究团队还必须对函数的token长度做出限制,以适应模型训练的需求。在解决领域问题方面,minified-diverseful-multilabels数据集旨在提高代码漏洞检测的准确性和效率,但同时也面临着如何平衡数据集规模和计算资源限制的挑战。
常用场景
经典使用场景
在计算机编程与网络安全领域,minified-diverseful-multilabels数据集以其精简、清洁及注释完备的特性,成为代码漏洞检测研究的重要资源。该数据集主要用于训练机器学习模型,以识别C/C++代码中的安全漏洞,其经典使用场景在于通过细粒度的文本分类任务,对代码片段进行安全性与脆弱性评估。
实际应用
在实际应用中,minified-diverseful-multilabels数据集为网络安全防护提供了有力支撑。它能够帮助研究人员和从业者发现并修复潜在的代码漏洞,提高软件的安全性。此外,该数据集也被用于优化和训练漏洞检测工具,增强其在实际环境中的应用效能。
衍生相关工作
基于minified-diverseful-multilabels数据集,衍生出了一系列相关工作,包括但不限于对ModernBERT-base模型的微调,以及ThreatDetect-C-Cpp等安全检测工具的开发。这些工作不仅推动了代码脆弱性检测技术的进步,也为网络安全领域的发展做出了重要贡献。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作