vuln-with-source-code

Hugging Face2025-04-28 更新2025-04-29 收录

下载链接：

https://huggingface.co/datasets/Mr-Vicky-01/vuln-with-source-code

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含代码漏洞信息的数据集，每个数据点包括一个GitHub链接、文件路径、源代码以及漏洞相关的详细信息，如代码片段、CWE ID、描述、漏洞代码和漏洞类型。数据集分为训练集，共有47908个示例。

This is a dataset containing code vulnerability information. Each data entry includes a GitHub link, file path, source code, and detailed vulnerability-related information such as code snippets, CWE IDs, descriptions, vulnerable code, and vulnerability types. The dataset is split into a training set, which consists of 47,908 samples.

创建时间：

2025-04-21

原始信息汇总

数据集概述

基本信息

数据集名称: vuln-with-source-code
存储位置: https://huggingface.co/datasets/Mr-Vicky-01/vuln-with-source-code
下载大小: 125884884
数据集大小: 406119813

数据集结构

特征:
- githublink: string
- file_path: string
- source_code: string
- vuln:
  - code_snipped: string
  - cwe_id: string
  - description: string
  - vuln_code: string
  - vulnerability: string

数据划分

划分名称: train
- 样本数量: 47908
- 字节大小: 406119813

配置文件

配置名称: default
- 数据文件:
  - 划分: train
  - 路径: data/train-*

搜集汇总

数据集介绍

构建方式

该数据集通过系统化采集GitHub平台开源项目中的源代码文件构建而成，采用多维度标注策略对安全漏洞进行标记。构建过程中，研究人员从版本控制系统中提取完整的文件层级结构，并针对每个代码片段进行静态分析，识别出潜在漏洞后由安全专家团队进行人工验证。数据标注遵循CWE（Common Weakness Enumeration）标准，确保漏洞分类的专业性和一致性，最终形成包含文件路径、源代码、漏洞代码片段及详细描述的结构化数据集。

特点

数据集显著特点在于其真实世界源代码与专业漏洞标注的深度结合，涵盖4.7万余个训练样本。每个样本不仅包含完整的源代码上下文，还精确标注了漏洞代码位置、CWE分类标识以及详细的技术描述。数据以文件为单位保持原始项目结构，便于研究者分析漏洞在完整代码库中的分布模式。特别值得注意的是，数据集采用嵌套结构存储漏洞信息，使得单个源代码文件可对应多个不同类型的漏洞标注，真实反映了复杂软件系统中安全缺陷的共生特性。

使用方法

该数据集适用于源代码级漏洞检测模型的训练与评估，研究者可通过HuggingFace标准接口加载train分割获取完整数据。使用时应重点关注githublink字段以追溯原始项目，结合file_path重建代码文件层级关系。对于漏洞分析，vuln字段下的多维标签支持细粒度研究，包括基于CWE_ID的漏洞类型统计、vuln_code与source_code的对比分析等。建议在模型训练时采用交叉验证策略，充分利用数据集中丰富的上下文信息提升模型对真实漏洞模式的识别能力。

背景与挑战

背景概述

随着信息技术的迅猛发展，软件安全漏洞已成为网络安全领域的重要研究课题。vuln-with-source-code数据集由专业研究团队构建，旨在提供包含源代码的安全漏洞样本，为漏洞检测与修复研究提供数据支持。该数据集收录了大量开源项目中的漏洞代码片段，并标注了对应的CWE ID、漏洞描述等关键信息，为研究人员深入分析漏洞成因、开发自动化检测工具奠定了数据基础。其构建体现了学术界对提升软件安全性的持续关注，对推动漏洞挖掘技术的进步具有显著意义。

当前挑战

在漏洞检测领域，如何从复杂多变的源代码中准确识别潜在漏洞一直是个关键难题。vuln-with-source-code数据集面临的主要挑战包括：源代码的多样性导致漏洞模式难以统一表征；不同项目间的代码风格差异增加了特征提取的难度；漏洞标注需要专业安全知识，标注质量直接影响模型性能。数据集构建过程中，研究人员需处理大规模代码解析的技术挑战，确保漏洞标注的准确性与一致性，同时平衡不同漏洞类型的样本分布，这些因素共同构成了该数据集的核心挑战。

常用场景

经典使用场景

在软件安全研究领域，vuln-with-source-code数据集因其包含大量真实漏洞代码片段及其详细描述，成为漏洞检测模型训练与评估的黄金标准。研究者通过分析GitHub项目中的漏洞文件路径和对应代码，能够构建端到端的漏洞模式识别系统，特别适用于静态代码分析工具的基准测试场景。该数据集通过标注CWE编号和漏洞类型，为跨项目漏洞迁移学习提供了标准化实验平台。

实际应用

工业界的安全团队已将该数据集集成到DevSecOps流程中，用于构建智能代码审查系统。微软Security CodeScan等工具利用其训练模型，实现了对缓冲区溢出、SQL注入等高风险漏洞的实时检测。开源社区则依托该数据集构建了漏洞知识图谱，辅助开发者识别相似历史漏洞模式。在网络安全竞赛中，该数据集已成为CTF选手训练漏洞挖掘技能的重要资源库。

衍生相关工作

基于该数据集衍生的研究形成了软件安全领域的里程碑成果：DeepVul等开创性工作首次实现了基于深度学习的漏洞预测框架；VulDeePecker提出了创新的代码切片技术，其预处理方法已成为领域基准；CVE2Vec通过嵌入学习构建了漏洞特征向量空间，这些工作共同推动了AI驱动漏洞检测从实验室走向工程实践。

以上内容由遇见数据集搜集并总结生成