Awesome-Cybersecurity-Datasets

github2020-02-23 更新2024-05-31 收录

下载链接：

https://github.com/ashrith/Awesome-Cybersecurity-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

一个精选的网络安全数据集列表，包含多种类型的网络安全数据集，如网络流量、恶意软件、网络应用等。

A curated list of cybersecurity datasets covering various types including network traffic, malware, web applications, and more.

创建时间：

2019-05-20

原始信息汇总

数据集概述

网络流量

Unified Host and Network Dataset - 来自Los Alamos National Laboratory企业网络的网络和计算机事件数据，覆盖约90天。
Comprehensive, Multi-Source Cyber-Security Events - 来自Los Alamos National Laboratory内部网络的58天事件数据。
User-Computer Authentication Associations in Time - 来自Los Alamos National Laboratory企业网络的9个月用户到计算机认证事件数据。
Canadian Institute for Cybersecurity datasets - 全球大学、私营行业和独立研究人员使用的数据集。
KDD Cup 1999 Data - 包含多种模拟军事网络环境入侵的标准审计数据集。
2017-SUEE-data-set - Ulm University学生会电气工程部门网络服务器的进出流量数据，包含攻击流量。
CTU-13 Dataset - 包含僵尸网络、正常和背景流量的标记数据集。
PCAP files - 包含恶意软件流量、网络取证、SCADA/ICS网络捕获等。
pcapt - PCAP文件的大型存储库。
Project Sonar - 每月生成多个UDP数据集，通过发送协议特定的UDP探针遍历整个IPv4地址空间。
IoT devices captures - 31个智能家居IoT设备在设置过程中发出的流量数据。

恶意软件

UNSW-NB15 data set - 包含九种攻击家族的数据集，使用Argus和Bro-IDS工具生成49个特征。
Malware Training Sets - 包含APT1、Crypto、Locker和Zeus等样本的分类数据集。
The Drebin Dataset - 包含179个不同恶意软件家族的5,560个应用程序样本。
Stratosphere IPS - 包含恶意软件捕获、正常捕获和混合捕获的数据集。
Microsoft Malware Classification Challenge - 包含9个不同家族的已知恶意软件文件。

Web应用

West Point NSA Data Sets - 包含Snort入侵检测日志、域名服务日志、Web服务器日志和日志服务器聚合日志。
Web Attack Payloads - 包含Web攻击载荷的集合。
Machine-Learning-driven-Web-Application-Firewall - 包含Web应用防火墙的好坏查询集。
Internet-Wide Scan Data Repository - Censys项目发布的每日IPv4主机、Alexa顶级网站和已知X.509证书的快照。
500K HTTP Headers - 最近爬取的Alexa顶级50万网站的HTTP头。
HTTP DATASET CSIC 2010 - 包含自动生成的数千个Web请求的数据集，用于测试Web攻击防护系统。
ISOT datasets - ISOT实验室收集的多种数据集，包括Web交互数据集和僵尸网络数据集。
Web Logs Secrepo - 由secrepo社区和Web应用程序生成的Web日志。
Common Crawl - 包含过去7年收集的原始网页数据、提取的元数据和文本提取的数据集。
Website Classification Dataset - 手动分类的整个选择性存档的网站分类信息。
AZSecure-data - 提供Web论坛、互联网钓鱼网站、Twitter数据等的数据集。

URL和域名

Malicious URLs Dataset - 包含约240万个URL和320万个特征的数据集。
cybercrime-tracker - 包含标记的恶意URL列表。
Malware Domain List - 恶意软件域名列表。
ZeuS Tracker - 跟踪全球ZeuS命令和控制服务器（主机）并提供域名和IP阻断列表。
Feodo Tracker - Feodo僵尸网络C&C服务器列表。
Ransomware Tracker - 提供多种类型的阻断列表，允许阻断勒索软件僵尸网络C&C流量。
URLhaus - 分享用于恶意软件分发的恶意URL的项目。
Alexa Top 1 Million - 包含Alexa顶级100万个网站的CSV数据集。
OpenDNS Top Domains List - 包含OpenDNS解析器全球接收查询的前10,000个域名。
The Majestic Million - 包含Majestic发现的具有最多引用子网的100万个域名。
StopForumSpam - 提供IP地址、域名和用户名的阻断列表。

主机

The ADFA Intrusion Detection Datasets - 提供用于传统HIDS评估的当代Linux和Windows数据集。
Unified Host and Network Dataset - 同网络流量部分描述。
Public Security Log Sharing Site - 包含来自各种系统、安全设备、应用程序等的免费共享日志样本。
Aktaion2 Data - 旨在作为入侵检测中混合多种安全信号和行为的教学工具。

电子邮件

2007 TREC Public Spam Corpus - 包含75,419条消息，其中25,220条是正常邮件，50,199条是垃圾邮件。
SPAM list - 包含垃圾邮件消息列表。

欺诈

Credit Card Fraud - 包含2013年9月欧洲持卡人信用卡交易的数据集，其中492笔交易是欺诈。

蜜罐

DDS Dataset Collection - 来自AWS蜜罐的CSV文件，包含域名和DGA或合法的高级分类。
Threat_Research - 从网络蜜罐收集的威胁研究数据的集中存储库。

二进制文件

The ember dataset - 包含2017年扫描的110万个PE文件的sha256哈希。

钓鱼

Phishing Websites Data Set - 包含预测钓鱼网站的重要特征的数据集。

密码

Yahoo Password Frequency Corpus - 包含2011年5月从Yahoo收集的经过消毒的密码频率列表。

杂项

SecRepo - 包含安全相关数据的样本。
PANDA SHARE - 存储由PANDA动态分析平台生成的执行记录，旨在使动态分析可重复。
SHERLOCK - 包含从Samsung Galaxy S5智能手机收集的几乎所有软件和硬件传感器的时间序列数据。
WerdLists - 包含用于编写软件安全测试案例的单词列表、字典和其他数据集。

搜集汇总

数据集介绍

构建方式

Awesome-Cybersecurity-Datasets 是一个经过精心策划和整理的网络安全数据集列表，旨在为研究人员和从业者提供丰富的数据资源。该数据集的构建主要通过网络爬虫、实验室模拟、现实世界日志收集等多种方式获取原始数据，再经过筛选、清洗、标注等流程，形成具有研究价值的标准化数据集。

特点

该数据集的特点在于其内容的全面性和多样性，涵盖了网络流量、恶意软件、Web应用、URL和域名、主机、电子邮件、欺诈、蜜罐、二进制文件、钓鱼网站、密码等多个维度。此外，数据集通常伴随着详细的元数据信息，如数据来源、采集时间、数据格式等，为使用者提供了极大的便利。

使用方法

用户可以通过数据集提供的官方网站或GitHub页面下载所需的数据集。在使用时，用户需根据数据集的文档说明，了解数据集的结构和特征，并根据自身的需求进行相应的预处理。例如，数据集可能需要去重、归一化或转换格式等操作，以便于后续的数据分析和模型训练。

背景与挑战

背景概述

Awesome-Cybersecurity-Datasets 是一个经过精心策划的网络安全数据集列表，旨在为研究者和开发者提供丰富的资源。该数据集涵盖了网络流量、恶意软件、Web应用程序、URL和域名、主机、电子邮件、欺诈、蜜罐、二进制文件、钓鱼、密码等多个方面的数据集。创建于近年，由网络安全研究者 Santiago Hormillosa 维护，并通过 GitHub 进行更新。该数据集对网络安全领域的研究具有重大影响，为相关领域的研究提供了宝贵的实验资源。

当前挑战

尽管 Awesome-Cybersecurity-Datasets 提供了丰富的数据资源，但在使用过程中也面临着一些挑战。首先，数据集的多样性和规模给数据清洗、整合和特征提取带来了困难。其次，由于网络安全领域的快速发展，数据集的时效性成为一个挑战，需要不断更新以反映最新的威胁。此外，数据标注的质量和一致性也是影响数据集使用效果的关键因素。

常用场景

经典使用场景

在网络安全领域，Awesome-Cybersecurity-Datasets数据集因其全面覆盖了网络流量、恶意软件、Web应用、URL与域名、主机、电子邮件、欺诈、蜜罐、二进制文件、钓鱼和密码等多种类型的数据而成为经典。研究者通常使用该数据集进行入侵检测、恶意软件分析、网络攻击模式识别等安全分析工作。

衍生相关工作

基于该数据集，衍生出了一系列相关的研究工作，包括但不限于入侵检测系统的研究与开发、恶意软件分类算法的优化、网络流量异常检测技术的改进等。这些研究成果进一步推动了网络安全领域的科技进步和产业发展。

数据集最近研究