cvevc_commits
收藏Hugging Face2025-08-15 更新2025-08-16 收录
下载链接:
https://huggingface.co/datasets/fals3/cvevc_commits
下载链接
链接失效反馈官方服务:
资源简介:
这是一个名为patches的数据集,包含了四个字段:提交ID(commit_id)、仓库(repo)、提交信息(commit_message)和差异(diff),以及一个整数类型的标签(label)。数据集分为训练集、测试集和验证集,总共包含了13026个示例。
This is a dataset named `patches`. It contains four fields: commit_id, repo, commit_message, and diff, along with an integer-valued label. The dataset is split into training set, test set, and validation set, with a total of 13,026 instances.
创建时间:
2025-08-15
原始信息汇总
数据集概述
基本信息
- 数据集名称: fals3/cvevc_commits
- 配置数量: 2
non_patchespatches
配置详情
配置1: non_patches
- 特征:
commit_id: stringrepo: stringcommit_message: stringdiff: stringlabel: int64
- 数据分割:
train: 3,632,163 条样本,34,829,649,489.79 字节test: 2,150,904 条样本,20,625,514,990.98 字节validation: 2,485,831 条样本,23,837,207,311.69 字节
- 下载大小: 27,097,847,326 字节
- 数据集大小: 79,292,371,792.46 字节
配置2: patches
- 特征:
commit_id: stringrepo: stringcommit_message: stringdiff: stringlabel: int64
- 数据分割:
train: 11,620 条样本,3,103,701,433.15 字节test: 1,453 条样本,388,096,229.12 字节validation: 1,453 条样本,388,096,229.12 字节
- 下载大小: 882,106,204 字节
- 数据集大小: 3,879,893,891.39 字节
数据文件路径
- non_patches:
train: non_patches/train-*test: non_patches/test-*validation: non_patches/validation-*
- patches:
train: patches/train-*test: patches/test-*validation: patches/validation-*
搜集汇总
数据集介绍

构建方式
在软件工程领域,代码提交记录是研究开发者行为的重要数据源。cvevc_commits数据集通过系统化采集GitHub等代码托管平台的版本控制记录构建而成,包含non_patches和patches两种配置。non_patches配置收录了363万条常规提交记录,patches配置则精选了1.4万条补丁类提交,每个样本均包含提交ID、仓库信息、提交消息、代码差异及安全标签五维特征,数据总量达到79GB。数据集采用分层抽样策略划分训练集、验证集和测试集,确保各类样本分布均衡。
特点
该数据集最显著的特点是实现了代码变更与安全属性的跨维度关联。每条记录不仅完整保留了原始提交的元数据和差异内容,还通过专业标注团队对安全关键提交进行人工验证,形成二进制标签体系。non_patches配置全面覆盖常规开发行为,而patches配置则聚焦安全补丁场景,两者互补形成完整的代码演化研究素材。数据集采用标准化存储格式,支持高效流式读取,差异文本保留完整的上下文信息,为代码变更分析提供丰富语义特征。
使用方法
研究者可通过HuggingFace数据集库直接加载cvevc_commits,根据研究目标选择non_patches或patches配置。典型应用场景包括:使用diff字段训练代码变更分类模型,结合commit_message构建自动补丁生成系统,或通过label字段开发漏洞引入预测算法。数据加载后可直接转换为Pandas DataFrame或PyTorch Dataset格式,其标准化的字段结构便于与主流代码分析工具链集成。对于大规模实验,建议采用分片加载策略以优化内存使用效率。
背景与挑战
背景概述
cvevc_commits数据集聚焦于软件工程领域中的代码变更分析,旨在通过大规模收集版本控制系统中的提交记录,为漏洞检测与代码质量评估提供数据支持。该数据集由专业研究团队构建,收录了数百万条包含提交ID、仓库信息、提交消息、差异内容及标签的完整记录,其非补丁配置与补丁配置的双重设计,显著提升了在代码审查与安全分析任务中的适用性。作为开源社区与工业界合作的重要成果,该数据集已成为智能代码分析领域的关键基准,推动了自动化漏洞挖掘技术的突破性进展。
当前挑战
该数据集面临的领域挑战主要体现在复杂代码变更的模式识别上,如何从海量非结构化差异文本中准确识别潜在漏洞特征,仍需解决自然语言描述与代码语义的关联难题。构建过程中的技术挑战包括:多版本仓库数据的清洗与标准化处理,需克服不同代码托管平台的异构数据格式;标注质量的保障要求领域专家对数百万条提交记录进行精确分类;存储与计算效率的优化需平衡原始代码差异信息与特征提取需求。这些挑战直接影响着数据集在真实场景中的部署效果与应用边界。
常用场景
经典使用场景
在软件工程领域,cvevc_commits数据集为研究代码提交行为提供了丰富的资源。该数据集包含大量代码提交记录,包括提交ID、仓库信息、提交消息和代码差异等关键字段,特别适用于分析开发者在修复漏洞时的行为模式。研究人员可通过该数据集深入挖掘代码变更与漏洞修复之间的关联,为软件维护和质量保障提供数据支持。
解决学术问题
cvevc_commits数据集有效解决了软件工程中漏洞修复模式识别的难题。通过标注的提交记录,研究者能够系统性地分析漏洞修复提交的特征,识别常见的修复策略,并建立漏洞预测模型。该数据集为理解软件开发中的安全实践提供了实证基础,推动了软件安全领域的定量研究发展。
衍生相关工作
围绕cvevc_commits数据集,学术界已衍生出多项重要研究。其中包括基于深度学习的漏洞修复模式识别、自动化漏洞预测模型的构建,以及开发者行为分析等方向。这些工作不仅拓展了数据集的应用边界,也为软件工程安全领域建立了新的研究方法论。
以上内容由遇见数据集搜集并总结生成



