EddieChen372/python_vul_cvefix_small
收藏Hugging Face2022-12-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/EddieChen372/python_vul_cvefix_small
下载链接
链接失效反馈官方服务:
资源简介:
数据集python_vul_cvefix_small主要包含与Python代码漏洞修复相关的数据。数据集的特征包括标签、修复前的代码、修复后的代码、标签文本、删除的代码、添加的代码、规范化后的修复前代码、规范化后的修复后代码、修复前文档字符串位置和修复后文档字符串位置。数据集分为训练集和测试集,分别包含160和41个样本。
提供机构:
EddieChen372
原始信息汇总
数据集概述
数据集名称
- python_vul_cvefix_small
数据集特征
- label: 类别标签,包含以下类别:
- 0: CWE-22
- 1: CWE-79
- 2: CWE-601
- code_before: 修改前的代码,数据类型为字符串。
- code_after: 修改后的代码,数据类型为字符串。
- label_text: 标签文本,数据类型为字符串。
- deleted: 删除的代码,包含以下结构:
- code: 删除的代码片段,数据类型为字符串序列。
- line_no: 删除的代码行号,数据类型为整数序列。
- added: 添加的代码,包含以下结构:
- code: 添加的代码片段,数据类型为字符串序列。
- line_no: 添加的代码行号,数据类型为整数序列。
- normalized_code_before: 修改前的标准化代码,数据类型为字符串。
- normalized_code_after: 修改后的标准化代码,数据类型为字符串。
- before_doc_string_pos: 修改前文档字符串位置,数据类型为整数序列。
- after_doc_string_pos: 修改后文档字符串位置,数据类型为整数序列。
数据集分割
- train: 训练集,包含160个样本,总字节数为10903264.596273292。
- test: 测试集,包含41个样本,总字节数为3609181.0。
数据集大小
- 下载大小: 5041260字节
- 数据集总大小: 14512445.596273292字节



