five

cvevc_cve_commit_mappings

收藏
Hugging Face2025-08-29 更新2025-08-30 收录
下载链接:
https://huggingface.co/datasets/fals3/cvevc_cve_commit_mappings
下载链接
链接失效反馈
官方服务:
资源简介:
CVEVC Commit CVE Mappings数据集是一个包含commits和cves之间映射关系的数据集。它包含了三个splits:训练集、测试集和验证集。数据集的具体描述信息在README中未提供。
创建时间:
2025-08-16
原始信息汇总

数据集概述

基本信息

  • 数据集名称:CVEVC Commit CVE Mappings
  • 主要用途:提供CVE(通用漏洞披露)与提交(commit)之间的映射关系
  • 数据内容:包含CVE编号、提交ID和标签字段的映射数据

数据集结构

数据特征

  • cve:字符串类型,表示CVE编号
  • commit_id:字符串类型,表示提交ID
  • label:int64类型,标签信息

数据划分

  • 训练集(train)
    • 样本数量:49,507,600
    • 数据大小:3,439,573,928字节
  • 测试集(test)
    • 样本数量:3,125,297
    • 数据大小:217,775,125字节
  • 验证集(validation)
    • 样本数量:2,487,284
    • 数据大小:173,343,931字节

存储信息

  • 下载大小:1,681,204,396字节
  • 数据集总大小:3,830,692,984字节

使用方式

数据集可通过Hugging Face的datasets库加载,支持与相关CVE和提交数据集进行联合分析。

补充说明

数据集详情中的多个信息字段(如策划者、资金来源、语言、许可证等)标注为"[More Information Needed]",表示这些信息在当前版本中尚未提供。

搜集汇总
数据集介绍
main_image_url
构建方式
在网络安全研究领域,CVEVC Commit CVE Mappings数据集通过系统化方法整合了公开漏洞数据库与代码仓库信息,构建了CVE编号与Git提交哈希之间的精确映射关系。该数据集采用自动化脚本从多个权威源抓取数据,并经过严格清洗和验证,确保每条记录对应真实存在的漏洞修复提交,最终划分为训练集、测试集和验证集以支持机器学习任务。
特点
该数据集的核心特征在于其大规模和高精度特性,包含超过5500万条CVE-提交映射记录,每条记录均包含CVE编号、提交哈希和验证标签三元组结构。数据采用分块存储优化读写效率,且所有字段均经过一致性校验,确保漏洞与修复代码的对应关系准确无误,为漏洞分析研究提供了可靠的数据基础。
使用方法
研究人员可通过HuggingFace数据集库直接加载该资源,利用提供的Python接口快速获取映射关系。典型应用流程包括:分别加载CVE描述数据集、代码提交数据集及映射表,通过Polars库进行多表连接操作,从而构建完整的漏洞-代码关联分析框架,支持漏洞溯源、补丁分析等安全研究任务。
背景与挑战
背景概述
在网络安全研究领域,漏洞管理与代码修复的关联分析一直是保障软件安全的核心课题。cvevc_cve_commit_mappings数据集由未公开的研究团队构建,旨在通过系统化映射通用漏洞披露(CVE)标识与代码仓库提交记录(commit),为自动化漏洞追踪和修复验证提供数据基础。该数据集通过大规模关联安全公告与代码变更,显著提升了漏洞影响评估的精确性,并推动了软件供应链安全研究的发展。
当前挑战
该数据集致力于解决软件漏洞溯源与修复验证的复杂性问题,其核心挑战在于跨源数据对齐的可靠性:CVE描述的非结构化文本与代码提交信息的语义鸿沟增加了准确映射难度。构建过程中需克服多版本仓库的异构数据整合、提交记录与CVE时间戳的异步匹配,以及误报过滤等关键技术障碍。此外,数据规模带来的计算复杂度与标注一致性保障亦是重要挑战。
常用场景
经典使用场景
在软件安全漏洞研究领域,该数据集通过精准映射CVE编号与代码提交记录,为漏洞溯源分析提供关键数据支撑。研究者可基于此构建漏洞修复模式识别模型,分析不同漏洞类型的修复策略特征,以及开发者在应对安全威胁时的代码修改行为规律。
实际应用
实际应用中,该数据集被广泛应用于企业级漏洞管理系统,帮助安全团队快速定位漏洞对应的修复方案。在DevSecOps流程中,它支持自动化安全扫描工具验证补丁有效性,同时为第三方库漏洞影响分析提供数据依据,显著提升软件安全审计的准确性和效率。
衍生相关工作
基于该数据集衍生的经典工作包括漏洞传播路径可视化系统、智能补丁推荐引擎以及跨项目漏洞预测模型。这些研究不仅深化了对漏洞修复模式的理解,还催生了新型安全工具开发,如基于机器学习的漏洞优先级评估框架和自动化补丁验证平台,推动了软件安全领域的创新发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作