curve
收藏Hugging Face2025-11-15 更新2025-11-16 收录
下载链接:
https://huggingface.co/datasets/codemetic/curve
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了多个配置,每个配置都有训练集、验证集和测试集三个部分。特征包括唯一的标识符id,漏洞类别cwe(为一个字符串列表),来源source和标签label(表示是否为漏洞)。具体的数据集配置和大小如下:bigvul、diversevul、draper、megavul、mvd、pretrain、primevul、primevul-paired、reposvul和vuldeepecker。
创建时间:
2025-11-15
原始信息汇总
数据集概述
基本信息
- 数据集名称: curve
- 来源平台: Hugging Face
- 数据集地址: https://huggingface.co/datasets/codemetic/curve
数据集配置
1. bigvul
- 特征字段:
- id (字符串类型)
- cwe (字符串列表)
- source (字符串类型)
- label (布尔类型)
- 数据划分:
- train: 149,185个样本,130,698,191字节
- validation: 32,823个样本,27,857,571字节
- test: 32,859个样本,27,566,673字节
- 存储信息:
- 下载大小: 80,477,168字节
- 数据集大小: 186,122,435字节
2. diversevul
- 特征字段:
- id (字符串类型)
- source (字符串类型)
- label (布尔类型)
- cwe (字符串列表)
- 数据划分:
- train: 262,135个样本,315,502,128字节
- validation: 32,760个样本,38,932,345字节
- test: 32,760个样本,39,040,054字节
- 存储信息:
- 下载大小: 161,516,113字节
- 数据集大小: 393,474,527字节
3. draper
- 特征字段:
- id (字符串类型)
- source (字符串类型)
- label (布尔类型)
- cwe (字符串列表)
- 数据划分:
- train: 1,019,396个样本,767,283,791字节
- validation: 127,460个样本,96,687,081字节
- test: 127,419个样本,96,029,815字节
- 存储信息:
- 下载大小: 462,266,218字节
- 数据集大小: 960,000,687字节
4. megavul
- 特征字段:
- id (字符串类型)
- cwe (字符串列表)
- source (字符串类型)
- label (布尔类型)
- 数据划分:
- train: 275,119个样本,217,935,151字节
- validation: 39,373个样本,31,487,326字节
- test: 39,374个样本,31,409,711字节
- 存储信息:
- 下载大小: 126,399,427字节
- 数据集大小: 280,832,188字节
5. mvd
- 特征字段:
- id (字符串类型)
- source (字符串类型)
- cwe (字符串列表)
- label (布尔类型)
- 数据划分:
- train: 123,515个样本,151,094,730字节
- validation: 21,797个样本,26,828,576字节
- test: 36,329个样本,44,227,632字节
- 存储信息:
- 下载大小: 66,475,443字节
- 数据集大小: 222,150,938字节
6. pretrain
- 特征字段:
- id (字符串类型)
- source (字符串类型)
- 数据划分:
- train: 5,263,854个样本,4,273,900,224字节
- 存储信息:
- 下载大小: 1,795,568,100字节
- 数据集大小: 4,273,900,224字节
7. primevul
- 特征字段:
- id (字符串类型)
- source (字符串类型)
- label (布尔类型)
- cwe (字符串列表)
- 数据划分:
- train: 175,790个样本,213,213,799字节
- validation: 23,948个样本,27,286,419字节
- test: 24,788个样本,29,371,314字节
- 存储信息:
- 下载大小: 88,293,606字节
- 数据集大小: 269,871,532字节
8. primevul-paired
- 特征字段:
- id (字符串类型)
- source (字符串类型)
- label (布尔类型)
- cwe (字符串列表)
- 数据划分:
- train: 7,578个样本,36,707,441字节
- validation: 960个样本,3,711,199字节
- test: 870个样本,4,030,323字节
- 存储信息:
- 下载大小: 10,267,394字节
- 数据集大小: 44,448,963字节
9. reposvul
- 特征字段:
- id (字符串类型)
- source (字符串类型)
- cwe (字符串列表)
- label (布尔类型)
- 数据划分:
- train: 185,790个样本,192,271,567字节
- validation: 23,224个样本,23,694,393字节
- test: 23,224个样本,23,707,573字节
- 存储信息:
- 下载大小: 101,251,202字节
- 数据集大小: 239,673,533字节
10. vuldeepecker
- 特征字段:
- id (字符串类型)
- source (字符串类型)
- label (布尔类型)
- cwe (字符串列表)
- 数据划分:
- train: 128,116个样本,100,722,984字节
- validation: 16,015个样本,12,606,906字节
- test: 16,014个样本,12,849,941字节
- 存储信息:
- 下载大小: 48,182,432字节
- 数据集大小: 126,179,831字节
搜集汇总
数据集介绍

构建方式
在软件安全研究领域,Curve数据集通过整合多个权威漏洞数据库构建而成,涵盖BigVul、DiverseVul等十个子集。每个子集均采用标准化的数据抽取流程,从真实代码仓库中提取包含漏洞的代码片段,并标注对应的CWE类型及漏洞标签。数据经过严格的清洗与去重处理,确保样本的独立性与代表性,最终形成包含训练集、验证集和测试集的完整数据划分。
使用方法
研究人员可通过HuggingFace平台直接加载特定子集进行实验,数据集采用标准化的数据分割方式便于交叉验证。针对不同研究目标,可选择完整数据集进行预训练或使用特定子集进行微调。数据字段包含源代码、漏洞标签和CWE分类,支持端到端的漏洞检测模型开发,同时为迁移学习研究提供多场景验证基础。
背景与挑战
背景概述
在软件安全研究领域,漏洞检测始终是保障信息系统可靠性的核心议题。Curve数据集作为集成多个子集的综合性资源,由学术界与工业界合作构建,旨在系统化地解决源代码层面的安全缺陷识别问题。该数据集汇集了BigVul、DiverseVul等著名漏洞库,通过标注CWE类型与漏洞标签,为机器学习模型提供了丰富的训练样本。其构建工作推动了自动化漏洞挖掘技术的发展,显著提升了软件安全分析的效率与准确性。
当前挑战
漏洞检测领域面临代码语义理解与模式泛化的双重挑战,模型需区分复杂程序结构中的潜在威胁。数据集构建过程中,原始代码的异构性导致标注一致性难以保障,而漏洞样本的稀疏性进一步加剧了数据平衡的难度。跨项目漏洞的迁移学习要求数据具备高度代表性,这对数据清洗与特征工程提出了严峻考验。
常用场景
经典使用场景
在软件安全分析领域,Curve数据集通过整合多个子集如BigVul和DiverseVul,为漏洞检测任务提供了标准化的代码样本。这些数据源自真实世界的软件项目,涵盖了从函数级到文件级的代码片段,并标注了CWE类型和漏洞标签。研究人员利用该数据集训练深度学习模型,以识别代码中的潜在安全缺陷,推动了自动化漏洞挖掘技术的发展。
解决学术问题
Curve数据集有效解决了软件工程中漏洞检测的泛化性与准确性难题。通过大规模标注数据,它支持模型学习复杂代码模式与漏洞的关联性,显著降低了误报率。该资源为评估静态分析工具提供了统一基准,促进了跨项目漏洞预测、代码表征学习等研究方向的发展,对构建可信软件体系具有深远意义。
实际应用
该数据集已广泛应用于工业级代码审计工具的开发,帮助企业实现早期安全风险预警。在持续集成流程中,集成Curve训练的模型可自动扫描提交代码,识别缓冲区溢出、注入攻击等常见漏洞。安全团队借助其多维漏洞分类能力,优化了威胁评估流程,提升了软件开发生命周期的防御效率。
数据集最近研究
最新研究方向
在软件安全分析领域,Curve数据集凭借其整合多个漏洞检测子集的优势,正推动基于深度学习的漏洞发现技术迈向新高度。当前研究聚焦于利用预训练语言模型对代码语义进行深层解析,通过跨项目漏洞模式迁移学习提升模型泛化能力。随着零日漏洞威胁日益严峻,该数据集支持的图神经网络与注意力机制融合方法,能有效识别复杂代码上下文中的潜在风险。这些进展不仅加速了智能代码审计工具的开发,更为构建自适应软件安全防护体系奠定了数据基石。
以上内容由遇见数据集搜集并总结生成



