curve

Hugging Face2025-11-15 更新2025-11-16 收录

下载链接：

https://huggingface.co/datasets/codemetic/curve

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了多个配置，每个配置都有训练集、验证集和测试集三个部分。特征包括唯一的标识符id，漏洞类别cwe（为一个字符串列表），来源source和标签label（表示是否为漏洞）。具体的数据集配置和大小如下：bigvul、diversevul、draper、megavul、mvd、pretrain、primevul、primevul-paired、reposvul和vuldeepecker。

创建时间：

2025-11-15

原始信息汇总

数据集概述

基本信息

数据集名称: curve
来源平台: Hugging Face
数据集地址: https://huggingface.co/datasets/codemetic/curve

数据集配置

1. bigvul

特征字段:
- id (字符串类型)
- cwe (字符串列表)
- source (字符串类型)
- label (布尔类型)
数据划分:
- train: 149,185个样本，130,698,191字节
- validation: 32,823个样本，27,857,571字节
- test: 32,859个样本，27,566,673字节
存储信息:
- 下载大小: 80,477,168字节
- 数据集大小: 186,122,435字节

2. diversevul

特征字段:
- id (字符串类型)
- source (字符串类型)
- label (布尔类型)
- cwe (字符串列表)
数据划分:
- train: 262,135个样本，315,502,128字节
- validation: 32,760个样本，38,932,345字节
- test: 32,760个样本，39,040,054字节
存储信息:
- 下载大小: 161,516,113字节
- 数据集大小: 393,474,527字节

3. draper

特征字段:
- id (字符串类型)
- source (字符串类型)
- label (布尔类型)
- cwe (字符串列表)
数据划分:
- train: 1,019,396个样本，767,283,791字节
- validation: 127,460个样本，96,687,081字节
- test: 127,419个样本，96,029,815字节
存储信息:
- 下载大小: 462,266,218字节
- 数据集大小: 960,000,687字节

4. megavul

特征字段:
- id (字符串类型)
- cwe (字符串列表)
- source (字符串类型)
- label (布尔类型)
数据划分:
- train: 275,119个样本，217,935,151字节
- validation: 39,373个样本，31,487,326字节
- test: 39,374个样本，31,409,711字节
存储信息:
- 下载大小: 126,399,427字节
- 数据集大小: 280,832,188字节

5. mvd

特征字段:
- id (字符串类型)
- source (字符串类型)
- cwe (字符串列表)
- label (布尔类型)
数据划分:
- train: 123,515个样本，151,094,730字节
- validation: 21,797个样本，26,828,576字节
- test: 36,329个样本，44,227,632字节
存储信息:
- 下载大小: 66,475,443字节
- 数据集大小: 222,150,938字节

6. pretrain

特征字段:
- id (字符串类型)
- source (字符串类型)
数据划分:
- train: 5,263,854个样本，4,273,900,224字节
存储信息:
- 下载大小: 1,795,568,100字节
- 数据集大小: 4,273,900,224字节

7. primevul

特征字段:
- id (字符串类型)
- source (字符串类型)
- label (布尔类型)
- cwe (字符串列表)
数据划分:
- train: 175,790个样本，213,213,799字节
- validation: 23,948个样本，27,286,419字节
- test: 24,788个样本，29,371,314字节
存储信息:
- 下载大小: 88,293,606字节
- 数据集大小: 269,871,532字节

8. primevul-paired

特征字段:
- id (字符串类型)
- source (字符串类型)
- label (布尔类型)
- cwe (字符串列表)
数据划分:
- train: 7,578个样本，36,707,441字节
- validation: 960个样本，3,711,199字节
- test: 870个样本，4,030,323字节
存储信息:
- 下载大小: 10,267,394字节
- 数据集大小: 44,448,963字节

9. reposvul

特征字段:
- id (字符串类型)
- source (字符串类型)
- cwe (字符串列表)
- label (布尔类型)
数据划分:
- train: 185,790个样本，192,271,567字节
- validation: 23,224个样本，23,694,393字节
- test: 23,224个样本，23,707,573字节
存储信息:
- 下载大小: 101,251,202字节
- 数据集大小: 239,673,533字节

10. vuldeepecker

特征字段:
- id (字符串类型)
- source (字符串类型)
- label (布尔类型)
- cwe (字符串列表)
数据划分:
- train: 128,116个样本，100,722,984字节
- validation: 16,015个样本，12,606,906字节
- test: 16,014个样本，12,849,941字节
存储信息:
- 下载大小: 48,182,432字节
- 数据集大小: 126,179,831字节

搜集汇总

数据集介绍

构建方式

在软件安全研究领域，Curve数据集通过整合多个权威漏洞数据库构建而成，涵盖BigVul、DiverseVul等十个子集。每个子集均采用标准化的数据抽取流程，从真实代码仓库中提取包含漏洞的代码片段，并标注对应的CWE类型及漏洞标签。数据经过严格的清洗与去重处理，确保样本的独立性与代表性，最终形成包含训练集、验证集和测试集的完整数据划分。

使用方法

研究人员可通过HuggingFace平台直接加载特定子集进行实验，数据集采用标准化的数据分割方式便于交叉验证。针对不同研究目标，可选择完整数据集进行预训练或使用特定子集进行微调。数据字段包含源代码、漏洞标签和CWE分类，支持端到端的漏洞检测模型开发，同时为迁移学习研究提供多场景验证基础。

背景与挑战

背景概述

在软件安全研究领域，漏洞检测始终是保障信息系统可靠性的核心议题。Curve数据集作为集成多个子集的综合性资源，由学术界与工业界合作构建，旨在系统化地解决源代码层面的安全缺陷识别问题。该数据集汇集了BigVul、DiverseVul等著名漏洞库，通过标注CWE类型与漏洞标签，为机器学习模型提供了丰富的训练样本。其构建工作推动了自动化漏洞挖掘技术的发展，显著提升了软件安全分析的效率与准确性。

当前挑战

漏洞检测领域面临代码语义理解与模式泛化的双重挑战，模型需区分复杂程序结构中的潜在威胁。数据集构建过程中，原始代码的异构性导致标注一致性难以保障，而漏洞样本的稀疏性进一步加剧了数据平衡的难度。跨项目漏洞的迁移学习要求数据具备高度代表性，这对数据清洗与特征工程提出了严峻考验。

常用场景

经典使用场景

在软件安全分析领域，Curve数据集通过整合多个子集如BigVul和DiverseVul，为漏洞检测任务提供了标准化的代码样本。这些数据源自真实世界的软件项目，涵盖了从函数级到文件级的代码片段，并标注了CWE类型和漏洞标签。研究人员利用该数据集训练深度学习模型，以识别代码中的潜在安全缺陷，推动了自动化漏洞挖掘技术的发展。

解决学术问题

Curve数据集有效解决了软件工程中漏洞检测的泛化性与准确性难题。通过大规模标注数据，它支持模型学习复杂代码模式与漏洞的关联性，显著降低了误报率。该资源为评估静态分析工具提供了统一基准，促进了跨项目漏洞预测、代码表征学习等研究方向的发展，对构建可信软件体系具有深远意义。

实际应用

该数据集已广泛应用于工业级代码审计工具的开发，帮助企业实现早期安全风险预警。在持续集成流程中，集成Curve训练的模型可自动扫描提交代码，识别缓冲区溢出、注入攻击等常见漏洞。安全团队借助其多维漏洞分类能力，优化了威胁评估流程，提升了软件开发生命周期的防御效率。

数据集最近研究