five

Awesome-Cybersecurity-Datasets

收藏
github2020-02-23 更新2024-05-31 收录
下载链接:
https://github.com/ashrith/Awesome-Cybersecurity-Datasets
下载链接
链接失效反馈
官方服务:
资源简介:
一个精选的网络安全数据集列表,包含多种类型的网络安全数据集,如网络流量、恶意软件、网络应用等。

A curated list of cybersecurity datasets covering various types including network traffic, malware, web applications, and more.
创建时间:
2019-05-20
原始信息汇总

数据集概述

网络流量

  • Unified Host and Network Dataset - 来自Los Alamos National Laboratory企业网络的网络和计算机事件数据,覆盖约90天。
  • Comprehensive, Multi-Source Cyber-Security Events - 来自Los Alamos National Laboratory内部网络的58天事件数据。
  • User-Computer Authentication Associations in Time - 来自Los Alamos National Laboratory企业网络的9个月用户到计算机认证事件数据。
  • Canadian Institute for Cybersecurity datasets - 全球大学、私营行业和独立研究人员使用的数据集。
  • KDD Cup 1999 Data - 包含多种模拟军事网络环境入侵的标准审计数据集。
  • 2017-SUEE-data-set - Ulm University学生会电气工程部门网络服务器的进出流量数据,包含攻击流量。
  • CTU-13 Dataset - 包含僵尸网络、正常和背景流量的标记数据集。
  • PCAP files - 包含恶意软件流量、网络取证、SCADA/ICS网络捕获等。
  • pcapt - PCAP文件的大型存储库。
  • Project Sonar - 每月生成多个UDP数据集,通过发送协议特定的UDP探针遍历整个IPv4地址空间。
  • IoT devices captures - 31个智能家居IoT设备在设置过程中发出的流量数据。

恶意软件

  • UNSW-NB15 data set - 包含九种攻击家族的数据集,使用Argus和Bro-IDS工具生成49个特征。
  • Malware Training Sets - 包含APT1、Crypto、Locker和Zeus等样本的分类数据集。
  • The Drebin Dataset - 包含179个不同恶意软件家族的5,560个应用程序样本。
  • Stratosphere IPS - 包含恶意软件捕获、正常捕获和混合捕获的数据集。
  • Microsoft Malware Classification Challenge - 包含9个不同家族的已知恶意软件文件。

Web应用

  • West Point NSA Data Sets - 包含Snort入侵检测日志、域名服务日志、Web服务器日志和日志服务器聚合日志。
  • Web Attack Payloads - 包含Web攻击载荷的集合。
  • Machine-Learning-driven-Web-Application-Firewall - 包含Web应用防火墙的好坏查询集。
  • Internet-Wide Scan Data Repository - Censys项目发布的每日IPv4主机、Alexa顶级网站和已知X.509证书的快照。
  • 500K HTTP Headers - 最近爬取的Alexa顶级50万网站的HTTP头。
  • HTTP DATASET CSIC 2010 - 包含自动生成的数千个Web请求的数据集,用于测试Web攻击防护系统。
  • ISOT datasets - ISOT实验室收集的多种数据集,包括Web交互数据集和僵尸网络数据集。
  • Web Logs Secrepo - 由secrepo社区和Web应用程序生成的Web日志。
  • Common Crawl - 包含过去7年收集的原始网页数据、提取的元数据和文本提取的数据集。
  • Website Classification Dataset - 手动分类的整个选择性存档的网站分类信息。
  • AZSecure-data - 提供Web论坛、互联网钓鱼网站、Twitter数据等的数据集。

URL和域名

  • Malicious URLs Dataset - 包含约240万个URL和320万个特征的数据集。
  • cybercrime-tracker - 包含标记的恶意URL列表。
  • Malware Domain List - 恶意软件域名列表。
  • ZeuS Tracker - 跟踪全球ZeuS命令和控制服务器(主机)并提供域名和IP阻断列表。
  • Feodo Tracker - Feodo僵尸网络C&C服务器列表。
  • Ransomware Tracker - 提供多种类型的阻断列表,允许阻断勒索软件僵尸网络C&C流量。
  • URLhaus - 分享用于恶意软件分发的恶意URL的项目。
  • Alexa Top 1 Million - 包含Alexa顶级100万个网站的CSV数据集。
  • OpenDNS Top Domains List - 包含OpenDNS解析器全球接收查询的前10,000个域名。
  • The Majestic Million - 包含Majestic发现的具有最多引用子网的100万个域名。
  • StopForumSpam - 提供IP地址、域名和用户名的阻断列表。

主机

  • The ADFA Intrusion Detection Datasets - 提供用于传统HIDS评估的当代Linux和Windows数据集。
  • Unified Host and Network Dataset - 同网络流量部分描述。
  • Public Security Log Sharing Site - 包含来自各种系统、安全设备、应用程序等的免费共享日志样本。
  • Aktaion2 Data - 旨在作为入侵检测中混合多种安全信号和行为的教学工具。

电子邮件

  • 2007 TREC Public Spam Corpus - 包含75,419条消息,其中25,220条是正常邮件,50,199条是垃圾邮件。
  • SPAM list - 包含垃圾邮件消息列表。

欺诈

  • Credit Card Fraud - 包含2013年9月欧洲持卡人信用卡交易的数据集,其中492笔交易是欺诈。

蜜罐

  • DDS Dataset Collection - 来自AWS蜜罐的CSV文件,包含域名和DGA或合法的高级分类。
  • Threat_Research - 从网络蜜罐收集的威胁研究数据的集中存储库。

二进制文件

  • The ember dataset - 包含2017年扫描的110万个PE文件的sha256哈希。

钓鱼

  • Phishing Websites Data Set - 包含预测钓鱼网站的重要特征的数据集。

密码

  • Yahoo Password Frequency Corpus - 包含2011年5月从Yahoo收集的经过消毒的密码频率列表。

杂项

  • SecRepo - 包含安全相关数据的样本。
  • PANDA SHARE - 存储由PANDA动态分析平台生成的执行记录,旨在使动态分析可重复。
  • SHERLOCK - 包含从Samsung Galaxy S5智能手机收集的几乎所有软件和硬件传感器的时间序列数据。
  • WerdLists - 包含用于编写软件安全测试案例的单词列表、字典和其他数据集。
搜集汇总
数据集介绍
main_image_url
构建方式
Awesome-Cybersecurity-Datasets 是一个经过精心策划和整理的网络安全数据集列表,旨在为研究人员和从业者提供丰富的数据资源。该数据集的构建主要通过网络爬虫、实验室模拟、现实世界日志收集等多种方式获取原始数据,再经过筛选、清洗、标注等流程,形成具有研究价值的标准化数据集。
特点
该数据集的特点在于其内容的全面性和多样性,涵盖了网络流量、恶意软件、Web应用、URL和域名、主机、电子邮件、欺诈、蜜罐、二进制文件、钓鱼网站、密码等多个维度。此外,数据集通常伴随着详细的元数据信息,如数据来源、采集时间、数据格式等,为使用者提供了极大的便利。
使用方法
用户可以通过数据集提供的官方网站或GitHub页面下载所需的数据集。在使用时,用户需根据数据集的文档说明,了解数据集的结构和特征,并根据自身的需求进行相应的预处理。例如,数据集可能需要去重、归一化或转换格式等操作,以便于后续的数据分析和模型训练。
背景与挑战
背景概述
Awesome-Cybersecurity-Datasets 是一个经过精心策划的网络安全数据集列表,旨在为研究者和开发者提供丰富的资源。该数据集涵盖了网络流量、恶意软件、Web应用程序、URL和域名、主机、电子邮件、欺诈、蜜罐、二进制文件、钓鱼、密码等多个方面的数据集。创建于近年,由网络安全研究者 Santiago Hormillosa 维护,并通过 GitHub 进行更新。该数据集对网络安全领域的研究具有重大影响,为相关领域的研究提供了宝贵的实验资源。
当前挑战
尽管 Awesome-Cybersecurity-Datasets 提供了丰富的数据资源,但在使用过程中也面临着一些挑战。首先,数据集的多样性和规模给数据清洗、整合和特征提取带来了困难。其次,由于网络安全领域的快速发展,数据集的时效性成为一个挑战,需要不断更新以反映最新的威胁。此外,数据标注的质量和一致性也是影响数据集使用效果的关键因素。
常用场景
经典使用场景
在网络安全领域,Awesome-Cybersecurity-Datasets数据集因其全面覆盖了网络流量、恶意软件、Web应用、URL与域名、主机、电子邮件、欺诈、蜜罐、二进制文件、钓鱼和密码等多种类型的数据而成为经典。研究者通常使用该数据集进行入侵检测、恶意软件分析、网络攻击模式识别等安全分析工作。
衍生相关工作
基于该数据集,衍生出了一系列相关的研究工作,包括但不限于入侵检测系统的研究与开发、恶意软件分类算法的优化、网络流量异常检测技术的改进等。这些研究成果进一步推动了网络安全领域的科技进步和产业发展。
数据集最近研究
最新研究方向
在网络安全领域,Awesome-Cybersecurity-Datasets数据集的近期研究方向主要集中在网络流量分析、恶意软件检测、Web应用安全、域名安全、主机安全等多个维度。研究学者们利用这些数据集进行深度学习模型的训练,以实现对网络攻击的自动识别和响应。其中,针对网络流量的研究聚焦于异常检测和入侵检测系统的优化;恶意软件检测研究则侧重于新型恶意软件家族的识别和分类;Web应用安全领域的研究着重于防御SQL注入、跨站脚本等攻击;域名安全研究关注于恶意域名的发现和阻断;主机安全研究则关注于基于主机的入侵检测和异常行为分析。这些研究对于提升网络安全防护能力具有重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作