DataSet_07032019.tar.gz, DataSet_03062019.tar.gz, DataSet_16082019.tar.gz, DataSet_20082019.tar.gz, DataSet_31082019.tar.gz
收藏github2024-04-10 更新2024-05-31 收录
下载链接:
https://github.com/uleroboticsgroup/SVCP4CDataset
下载链接
链接失效反馈官方服务:
资源简介:
该仓库包含五个数据集,列出了超过10000个C语言源代码文件中的现有缓冲区溢出漏洞。这些数据集特别适合提取特征和创建机器学习训练数据集。数据是从与SonarCloud链接的开源仓库中收集的。
This repository contains five datasets, listing over 10,000 existing buffer overflow vulnerabilities in C language source code files. These datasets are particularly suitable for feature extraction and the creation of machine learning training datasets. The data was collected from open-source repositories linked with SonarCloud.
创建时间:
2019-03-08
原始信息汇总
数据集概述
数据集描述
本数据集包含五个子数据集,专门用于记录C语言编写的超过10000个源代码文件中的缓冲区溢出漏洞。这些数据集适合用于提取特征和创建机器学习训练数据。
数据集来源
数据从与SonarCloud关联的开源仓库中收集,使用SVCP4C工具在不同日期进行收集。
数据集列表
| 名称 | 总文件数 | 校验和 |
|---|---|---|
| DataSet_07032019.tar.gz | 2305 | abc7e173fca5d1e7b22313dfade2be19297d6e6735e4d325301a2f410f488797 |
| DataSet_03062019.tar.gz | 2378 | ba367f4c4c21e26f6de79652185758394d80998d88b14a0bcbecc299b6336a3d |
| DataSet_16082019.tar.gz | 2262 | c12599c8412629925f09821bdf2a74970afd631a9e376cd7fd67bdc5fef9ec3f |
| DataSet_20082019.tar.gz | 2258 | 6c69f14cf6e839955d97e48afe502914715d84d409170ea0ba499107ec902943 |
| DataSet_31082019.tar.gz | 2257 | b3984fe3d91426b607f89222d44fef7bfcbb13af894ea2f29afadf96365da1de |
漏洞格式
漏洞通过在每个文件末尾添加的注释列出,格式为// starting_line,starting_offset;ending_line,ending_offset。例如,文件DataSet_03062019.tar.gz/bzip2debianstretche1.0.6/bzip2.c中有四个漏洞标记。
许可证
数据集根据CC BY-ND 4.0许可发布。
搜集汇总
数据集介绍

构建方式
该数据集的构建基于从开源代码仓库中收集的C语言源代码文件,这些文件包含了已知的缓冲区溢出漏洞。数据集的生成过程通过与[SonarCloud](https://sonarcloud.io/)关联的开源仓库,利用[SVCP4C](https://github.com/uleroboticsgroup/SVCP4C)工具进行自动化采集。每个数据集文件均包含数千个源代码文件,且在文件末尾通过注释标记了漏洞的具体位置,注释格式为`// starting_line,starting_offset;ending_line,ending_offset`,其中`offset`表示列数。
特点
该数据集的显著特点在于其专注于缓冲区溢出漏洞,涵盖了超过10000个C语言源代码文件。每个文件中的漏洞位置均通过精确的行号和列号进行标注,便于研究人员提取特征并用于机器学习模型的训练。此外,数据集的多样性和规模使其成为研究软件漏洞检测和修复的理想资源。
使用方法
该数据集适用于机器学习模型的训练和测试,尤其适合用于提取特征以构建漏洞检测模型。用户可以通过解析文件中的注释信息,提取漏洞的具体位置,进而进行特征工程和模型训练。数据集的文件格式为tar.gz压缩包,用户需解压后访问其中的源代码文件。使用时需遵循[CC BY-ND 4.0](https://creativecommons.org/licenses/by-nd/4.0/)许可协议,确保引用原始来源。
背景与挑战
背景概述
在软件安全领域,缓冲区溢出漏洞一直是威胁系统安全的主要问题之一。为了应对这一挑战,研究人员通过从开源代码库中收集存在缓冲区溢出漏洞的C语言源代码,构建了多个数据集,如DataSet_07032019.tar.gz等。这些数据集由Razvan Raducu等人于2020年创建,主要用于机器学习模型的训练,以识别和预防此类漏洞。数据集的构建基于SonarCloud平台,并使用了SVCP4C工具进行漏洞标注,涵盖了超过10000个源代码文件。这些数据集的发布为软件安全领域的研究提供了宝贵的资源,推动了自动化漏洞检测技术的发展。
当前挑战
该数据集在构建过程中面临多项挑战。首先,从开源代码库中筛选出存在缓冲区溢出漏洞的代码文件是一项复杂且耗时的任务。其次,如何准确标注漏洞的具体位置,确保标注的精确性和一致性,是数据集构建中的另一大难题。此外,随着软件开发技术的不断演进,数据集的更新和维护也面临持续的挑战,以确保其能够反映最新的漏洞模式和技术趋势。这些挑战不仅影响了数据集的质量,也对后续的机器学习模型训练提出了更高的要求。
常用场景
经典使用场景
该数据集的经典使用场景主要集中在软件安全领域,特别是针对缓冲区溢出漏洞的检测与分析。通过从开源代码库中收集的超过10000个C语言源代码文件,研究者可以提取特征并构建用于机器学习的训练数据集。这些数据集不仅为学术界提供了丰富的研究材料,也为工业界开发自动化漏洞检测工具提供了坚实的基础。
实际应用
在实际应用中,该数据集被广泛用于开发和测试自动化漏洞检测工具。通过训练机器学习模型,企业可以更高效地识别和修复潜在的缓冲区溢出漏洞,从而提升软件的安全性和可靠性。此外,该数据集还被用于教育和培训,帮助开发者提高对安全编码实践的认识和理解。
衍生相关工作
基于该数据集,许多相关的经典工作得以展开,包括但不限于缓冲区溢出漏洞的自动化检测算法、漏洞特征提取方法以及机器学习模型的优化研究。这些工作不仅丰富了软件安全领域的研究成果,还为后续的研究提供了宝贵的参考和借鉴。
以上内容由遇见数据集搜集并总结生成



