Awesome-Cybersecurity-Datasets
收藏github2019-08-22 更新2024-05-31 收录
下载链接:
https://github.com/snrtherock/Awesome-Cybersecurity-Datasets
下载链接
链接失效反馈官方服务:
资源简介:
一个精选的网络安全数据集列表,包含多种类型的网络安全数据集,如网络流量、恶意软件、网络应用等。
A curated list of cybersecurity datasets covering various types such as network traffic, malware, web applications, etc.
创建时间:
2019-04-03
原始信息汇总
Awesome-Cybersecurity-Datasets
数据集分类
- 网络流量
- 恶意软件
- Web应用
- URLs & 域名
- 主机
- 电子邮件
- 欺诈
- 蜜罐
- 二进制文件
- 钓鱼
- 密码
- 杂项
数据集详情
网络流量
- 统一主机和网络数据集:包含从洛斯阿拉莫斯国家实验室企业网络收集的约90天的网络和主机事件数据。
- 综合多源网络安全事件数据集:包含从洛斯阿拉莫斯国家实验室内部网络收集的58天连续事件数据。
- 用户-计算机认证关联时间数据集:包含从洛斯阿拉莫斯国家实验室企业网络收集的9个月内708,304,516次成功认证事件。
- 加拿大网络安全研究所数据集:全球范围内被大学、私营行业和独立研究者使用的数据集。
- KDD Cup 1999数据:包含在军事网络环境中模拟的各种入侵的标准审计数据集。
- 2017-SUEE数据集:包含乌尔姆大学电气工程学生会网络服务器的进出流量数据。
- CTU-13数据集:包含僵尸网络、正常和背景流量的标记数据集。
- PCAP文件:包含恶意软件流量、网络取证、SCADA/ICS网络捕获、数据包注入攻击等。
- Project Sonar:每月生成多个UDP数据集,通过发送特定UDP探测遍历整个IPv4地址空间。
- IoT设备捕获数据集:包含31个智能家居IoT设备在设置过程中发出的流量数据。
恶意软件
- UNSW-NB15数据集:包含九种攻击家族的数据集,利用Argus和Bro-IDS工具生成49个特征。
- 恶意软件训练集:包含APT1、Crypto、Locker、Zeus等恶意软件样本的数据集。
- Drebin数据集:包含5,560个来自179个不同恶意软件家族的应用程序。
- Stratosphere IPS数据集:包含恶意软件捕获、正常捕获和混合捕获的数据集。
- 微软恶意软件分类挑战数据集:包含9种不同恶意软件家族的文件数据集。
Web应用
- 西点NSA数据集:包含Snort入侵检测日志、域名服务日志、Web服务器日志等。
- Web攻击负载:包含各种Web攻击负载的集合。
- 机器学习驱动的Web应用防火墙数据集:包含Web应用防火墙的正常和恶意查询集合。
- Internet-Wide扫描数据存储库:包含IPv4主机、Alexa顶级网站和已知X.509证书的每日快照。
- 500K HTTP头:包含Alexa排名前500K网站的HTTP头数据。
- HTTP数据集CSIC 2010:包含自动生成的数千个Web请求,用于测试Web攻击防护系统。
- ISOT数据集:包含ISOT实验室收集的各种数据集,如ISOT Web交互数据集和ISOT僵尸网络数据集。
- Web日志SecRepo:包含SecRepo社区和SecRepo Web应用程序生成的Web日志。
- Common Crawl:包含过去7年收集的PB级数据,包括原始网页数据、提取的元数据和文本提取。
- 网站分类数据集:包含手动分类的网站数据集,分为两级主题层次结构。
- AZSecure数据:包含Web论坛、网络钓鱼网站、Twitter数据等。
URLs & 域名
- 恶意URL数据集:包含约240万个URL和320万个特征。
- cybercrime-tracker:包含标记的恶意URL列表。
- 恶意软件域名列表:包含恶意软件域名列表。
- ZeuS Tracker:包含ZeuS命令与控制服务器的域名和IP阻止列表。
- Feodo Tracker:包含Feodo僵尸网络命令与控制服务器的列表。
- Ransomware Tracker:提供各种类型的阻止列表,以阻止勒索软件僵尸网络的通信。
- URLhaus:分享用于恶意软件分发的恶意URL的项目。
- Alexa顶级100万:包含Alexa排名前100万的网站的CSV数据集。
- OpenDNS顶级域名列表:包含OpenDNS解析器接收查询的前10,000个域名。
- The Majestic Million:包含拥有最多引用子网的100万个域名。
- StopForumSpam:包含我们认为仅用于滥用的IP地址、域名和用户名列表。
主机
- ADFA入侵检测数据集:提供用于传统HIDS评估的现代Linux和Windows数据集。
- 统一主机和网络数据集:包含从洛斯阿拉莫斯国家实验室企业网络收集的网络和主机事件数据。
- 公共安全日志共享站点:包含各种系统和安全设备的免费共享日志样本。
- Aktaion2数据:包含用于入侵检测的安全信号和行为数据。
电子邮件
- 2007 TREC公共垃圾邮件语料库:包含75,419条消息,其中25,220条是正常邮件,50,199条是垃圾邮件。
- SPAM列表:包含SPAM消息的列表。
欺诈
- 信用卡欺诈数据集:包含2013年9月欧洲持卡人的信用卡交易数据,其中492笔是欺诈交易。
蜜罐
- DDS数据集收集:包含AWS蜜罐收集的CSV文件和域名分类数据。
- Threat_Research:包含从我的蜜罐网络收集的威胁研究数据。
二进制文件
- Ember数据集:包含2017年扫描的110万个PE文件的SHA256哈希。
钓鱼
- 钓鱼网站数据集:包含用于预测钓鱼网站的重要特征。
密码
- Yahoo密码频率语料库:包含2011年5月从Yahoo收集的经过处理的密码频率列表。
杂项
- SecRepo:包含各种安全相关数据的样本。
- PANDA SHARE:包含PANDA动态分析平台生成的执行记录。
- SHERLOCK:包含从三星Galaxy S5智能手机收集的近6000亿个数据点。
- WerdLists:包含用于编写软件安全测试用例的单词列表、字典和其他数据集。
搜集汇总
数据集介绍

构建方式
Awesome-Cybersecurity-Datasets是一个经过精心策划的网络安全数据集列表,涵盖了网络流量、恶意软件、Web应用程序、URL和域名等多种类型的数据。该数据集的构建主要依托于社区贡献,用户可以通过发送pull request或直接联系维护者来贡献新的数据集。数据集的来源包括但不限于Los Alamos National Laboratory、Canadian Institute for Cybersecurity、UNSW-NB15等知名研究机构和企业。
特点
该数据集的特点在于其内容的全面性和多样性,不仅包含了网络流量和主机事件数据,还涵盖了恶意软件样本、Web应用程序攻击载荷、恶意URL和域名等多种类型的数据。此外,数据集通常伴随着详细的标签和特征,有利于研究人员进行深入的网络安全分析和模型训练。
使用方法
用户可以通过GitHub页面直接访问和下载所需的数据集。每个数据集通常都有详细的README文件,说明数据集的构成、来源和使用方式。此外,部分数据集还提供了API接口,便于自动化下载和集成。对于参与贡献的用户,可以通过pull request的方式将新的数据集添加到列表中。
背景与挑战
背景概述
Awesome-Cybersecurity-Datasets是一个精心策划的网络安全数据集列表,涵盖了网络流量、恶意软件、Web应用程序、URL和域名、主机、电子邮件、欺诈、蜜罐、二进制文件、钓鱼和密码等多个方面的数据集。该数据集由Santiago Hormigos创建并维护,旨在为网络安全研究提供丰富的资源。自创建以来,它已经吸引了全球范围内的大学、私企和独立研究者的关注,并对其所涉及的领域产生了显著的影响。
当前挑战
尽管Awesome-Cybersecurity-Datasets为网络安全研究提供了宝贵的资源,但在数据集的构建和使用过程中仍面临一些挑战。首先,数据集的多样性和大规模性使得管理和维护成为一个挑战。其次,随着网络威胁的不断演变,数据集的时效性成为一个重要问题,需要定期更新以保持其相关性。此外,不同数据集之间的格式和结构不一致,给数据集成和分析带来了困难。最后,隐私和安全性问题也是构建和使用这些数据集时必须考虑的重要因素。
常用场景
经典使用场景
在网络安全领域,Awesome-Cybersecurity-Datasets数据集以其全面性和多样性被广泛用于研究和实战演练。该数据集的经典使用场景在于为研究人员提供丰富的网络安全事件记录,包括网络流量、恶意软件、Web应用攻击载荷等,进而辅助构建和测试入侵检测系统、恶意软件识别模型等安全工具。
解决学术问题
该数据集解决了网络安全研究中数据不足和多样性缺失的问题,为学术研究提供了真实场景下的网络安全事件数据。通过这些数据,研究者能够更好地理解和分析网络攻击的模式和特征,从而推动网络安全技术的发展。此外,数据集的多样性也使得它能够服务于不同的学术领域,如异常检测、恶意软件分类、网络流量分析等。
衍生相关工作
基于该数据集,已经衍生出许多经典的工作,包括但不限于入侵检测模型的构建、恶意软件家族的识别和分类、网络流量的异常检测等。这些工作不仅提高了网络安全领域的科研水平,也为实际应用提供了有效的技术支撑。
以上内容由遇见数据集搜集并总结生成



