cvevc_commits

Hugging Face2025-08-15 更新2025-08-16 收录

下载链接：

https://huggingface.co/datasets/fals3/cvevc_commits

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个名为patches的数据集，包含了四个字段：提交ID（commit_id）、仓库（repo）、提交信息（commit_message）和差异（diff），以及一个整数类型的标签（label）。数据集分为训练集、测试集和验证集，总共包含了13026个示例。

This is a dataset named `patches`. It contains four fields: commit_id, repo, commit_message, and diff, along with an integer-valued label. The dataset is split into training set, test set, and validation set, with a total of 13,026 instances.

创建时间：

2025-08-15

原始信息汇总

数据集概述

基本信息

数据集名称: fals3/cvevc_commits
配置数量: 2
- non_patches
- patches

配置详情

配置1: non_patches

特征:
- commit_id: string
- repo: string
- commit_message: string
- diff: string
- label: int64
数据分割:
- train: 3,632,163 条样本，34,829,649,489.79 字节
- test: 2,150,904 条样本，20,625,514,990.98 字节
- validation: 2,485,831 条样本，23,837,207,311.69 字节
下载大小: 27,097,847,326 字节
数据集大小: 79,292,371,792.46 字节

配置2: patches

特征:
- commit_id: string
- repo: string
- commit_message: string
- diff: string
- label: int64
数据分割:
- train: 11,620 条样本，3,103,701,433.15 字节
- test: 1,453 条样本，388,096,229.12 字节
- validation: 1,453 条样本，388,096,229.12 字节
下载大小: 882,106,204 字节
数据集大小: 3,879,893,891.39 字节

数据文件路径

non_patches:
- train: non_patches/train-*
- test: non_patches/test-*
- validation: non_patches/validation-*
patches:
- train: patches/train-*
- test: patches/test-*
- validation: patches/validation-*

搜集汇总

数据集介绍

构建方式

在软件工程领域，代码提交记录是研究开发者行为的重要数据源。cvevc_commits数据集通过系统化采集GitHub等代码托管平台的版本控制记录构建而成，包含non_patches和patches两种配置。non_patches配置收录了363万条常规提交记录，patches配置则精选了1.4万条补丁类提交，每个样本均包含提交ID、仓库信息、提交消息、代码差异及安全标签五维特征，数据总量达到79GB。数据集采用分层抽样策略划分训练集、验证集和测试集，确保各类样本分布均衡。

特点

该数据集最显著的特点是实现了代码变更与安全属性的跨维度关联。每条记录不仅完整保留了原始提交的元数据和差异内容，还通过专业标注团队对安全关键提交进行人工验证，形成二进制标签体系。non_patches配置全面覆盖常规开发行为，而patches配置则聚焦安全补丁场景，两者互补形成完整的代码演化研究素材。数据集采用标准化存储格式，支持高效流式读取，差异文本保留完整的上下文信息，为代码变更分析提供丰富语义特征。

使用方法

研究者可通过HuggingFace数据集库直接加载cvevc_commits，根据研究目标选择non_patches或patches配置。典型应用场景包括：使用diff字段训练代码变更分类模型，结合commit_message构建自动补丁生成系统，或通过label字段开发漏洞引入预测算法。数据加载后可直接转换为Pandas DataFrame或PyTorch Dataset格式，其标准化的字段结构便于与主流代码分析工具链集成。对于大规模实验，建议采用分片加载策略以优化内存使用效率。

背景与挑战

背景概述

cvevc_commits数据集聚焦于软件工程领域中的代码变更分析，旨在通过大规模收集版本控制系统中的提交记录，为漏洞检测与代码质量评估提供数据支持。该数据集由专业研究团队构建，收录了数百万条包含提交ID、仓库信息、提交消息、差异内容及标签的完整记录，其非补丁配置与补丁配置的双重设计，显著提升了在代码审查与安全分析任务中的适用性。作为开源社区与工业界合作的重要成果，该数据集已成为智能代码分析领域的关键基准，推动了自动化漏洞挖掘技术的突破性进展。

当前挑战

该数据集面临的领域挑战主要体现在复杂代码变更的模式识别上，如何从海量非结构化差异文本中准确识别潜在漏洞特征，仍需解决自然语言描述与代码语义的关联难题。构建过程中的技术挑战包括：多版本仓库数据的清洗与标准化处理，需克服不同代码托管平台的异构数据格式；标注质量的保障要求领域专家对数百万条提交记录进行精确分类；存储与计算效率的优化需平衡原始代码差异信息与特征提取需求。这些挑战直接影响着数据集在真实场景中的部署效果与应用边界。

常用场景

经典使用场景

在软件工程领域，cvevc_commits数据集为研究代码提交行为提供了丰富的资源。该数据集包含大量代码提交记录，包括提交ID、仓库信息、提交消息和代码差异等关键字段，特别适用于分析开发者在修复漏洞时的行为模式。研究人员可通过该数据集深入挖掘代码变更与漏洞修复之间的关联，为软件维护和质量保障提供数据支持。

解决学术问题

cvevc_commits数据集有效解决了软件工程中漏洞修复模式识别的难题。通过标注的提交记录，研究者能够系统性地分析漏洞修复提交的特征，识别常见的修复策略，并建立漏洞预测模型。该数据集为理解软件开发中的安全实践提供了实证基础，推动了软件安全领域的定量研究发展。

衍生相关工作

围绕cvevc_commits数据集，学术界已衍生出多项重要研究。其中包括基于深度学习的漏洞修复模式识别、自动化漏洞预测模型的构建，以及开发者行为分析等方向。这些工作不仅拓展了数据集的应用边界，也为软件工程安全领域建立了新的研究方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集