MSR_20_Code_vulnerability_CSV_Dataset|软件安全数据集|漏洞管理数据集
收藏数据集概述
数据集名称
A C/C++ Code Vulnerability Dataset with Code Changes and CVE Summaries
数据集描述
数据集内容
- 时间范围:2002年至2019年
- 特征数量:21个特征
- 数据格式:CSV
- 主要文件:all_c_cpp_release2.0.csv
特征详情
特征 | 列名 | 描述 |
---|---|---|
Access Complexity | access_complexity | 反映攻击复杂度 |
Authentication Required | authentication_required | 是否需要认证 |
Availability Impact | availability_impact | 对可用性的潜在影响 |
Commit ID | commit_id | 代码仓库中的提交ID |
Commit Message | commit_message | 开发者提交信息 |
Confidentiality Impact | confidentiality_impact | 对保密性的潜在影响 |
CWE ID | cwe_id | 常见弱点枚举ID |
CVE ID | cve_id | 常见漏洞和暴露ID |
CVE Page | cve_page | CVE详情网页链接 |
CVE Summary | summary | CVE总结信息 |
CVSS Score | score | 漏洞的相对严重性 |
Files Changed | files_changed | 变更的文件及对应补丁 |
Integrity Impact | integrity_impact | 对完整性的潜在影响 |
Mini-version After Fix | version_after_fix | 修复后的版本ID |
Mini-version Before Fix | version_before_fix | 修复前的版本ID |
Programming Language | lang | 项目编程语言 |
Project | project | 项目名称 |
Publish Date | publish_date | CVE发布日期 |
Reference Link | ref_ink | CVE页面中的参考链接 |
Update Date | update_date | CVE更新日期 |
Vulnerability Classification | vulnerability_classification | 漏洞类型 |
额外数据
- 分割函数数据:CSV格式,包含函数变更前后的信息及是否为漏洞函数。
- 中间文件:数据收集和清理过程中的中间文件。
- JSON格式数据集:提供JSON格式的数据集。
数据集使用建议
- 工具推荐:使用Pandas(Python包)处理CSV文件。
- 数据处理:建议使用Python3及相关库(如Beautiful Soup和Pandas)进行数据处理。

HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
典型分布式光伏出力预测数据集
光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。
国家基础学科公共科学数据中心 收录