Awesome-Datasets-for-Cybersecurity

github2024-07-24 更新2024-07-25 收录

下载链接：

https://github.com/NY1024/Awesome-Datasets-for-Cybersecurity

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库收集了多个与网络安全相关的数据集，包括网络流量、恶意软件分析、网络防御竞赛等，旨在支持网络安全研究和分析。

This repository collects multiple datasets related to cybersecurity, including network traffic datasets, malware analysis datasets, and cybersecurity defense competition datasets, among others, with the goal of supporting cybersecurity research and analysis.

创建时间：

2024-07-24

原始信息汇总

网络安全数据集概述

分类

网络

MACCDC2012
- 描述：美国国家网络安全联盟中大西洋大学生网络安全竞赛（MACCDC）的数据集，提供学生在竞争环境中测试网络安全技能的机会，重点关注网络基础设施的操作管理和保护。
- 链接：MACCDC
Unified Host and Network Data Set
- 描述：包含来自洛斯阿拉莫斯国家实验室企业网络的匿名网络和主机事件，覆盖约90天，包括Windows企业计算机和内部路由器的日志。
- 链接：Unified Host and Network Data Set
The Malware Capture Facility Project
- 描述：捷克技术大学的ATG集团项目，旨在捕获、分析和发布真实的长期恶意软件流量。
- 链接：The Malware Capture Facility Project
Cyber Defence Exercises
- 描述：包含来自各种练习和竞赛的网络流量，如网络防御练习（CDX）和红队/蓝队竞赛。
- 链接：Cyber Defence Exercises
UNSW-NB15 Raw Network Packets
- 描述：澳大利亚国防军大学网络安全中心提供的网络数据包数据集。
- 链接：UNSW-NB15 Raw Network Packets
Malware traffic analysis
- 描述：分享数据包捕获（pcap）文件和恶意软件样本的网站。
- 链接：Malware traffic analysis
Network Forensics Puzzle Contest
- 描述：网络取证谜题竞赛的数据集。
- 链接：Network Forensics Puzzle Contest
SampleCaptures
- 描述：Wireshark示例捕获数据集。
- 链接：SampleCaptures
Public Data Sets
- 描述：用于测试和分析的公共数据集集合。
- 链接：Public Data Sets
LBNL-FTP-PKT
- 描述：包含劳伦斯伯克利国家实验室公共FTP服务器在十天期间内的所有匿名FTP连接。
- 链接：LBNL-FTP-PKT
Network Packet Dumps
- 描述：数字公司提供的网络数据包转储数据集。
- 链接：Network Packet Dumps
KDD Cup 1999 Data
- 描述：第三届国际知识发现和数据挖掘工具竞赛使用的数据集。
- 链接：KDD Cup 1999 Data
Detecting Malicious URLs
- 描述：检测恶意URL的项目数据集。
- 链接：Detecting Malicious URLs
OpenDNS Top Domains List
- 描述：OpenDNS提供的顶级域名列表，包含全球解析器接收查询的前10,000个域名。
- 链接：OpenDNS Top Domains List
UDP
- 描述：通过发送特定协议的UDP探测收集的数据，覆盖整个IPv4地址空间。
- 链接：UDP
DGA RCHIVE
- 描述：提供由恶意软件使用域生成算法（DGA）生成的域名数据集。
- 链接：DGA RCHIVE
IoT devices captures
- 描述：包含31个智能家居IoT设备在设置期间发出的流量数据，每个设备类型至少重复20次。
- 链接：IoT devices captures
2017-SUEE-data-set
- 描述：包含乌尔姆大学电气工程学生联盟（Fachbereichsvertretung Elektrotechnik）网站服务器进出流量的数据集。
- 链接：2017-SUEE-data-set
HTTP DATASET CSIC 2010
- 描述：CSIC 2010提供的HTTP数据集，包含正常和恶意请求。
- 链接：HTTP DATASET CSIC 2010
MCFP
- 描述：捷克技术大学的ATG集团项目，捕获、分析和发布真实和长期恶意软件流量。
- 链接：MCFP

网站

Website Phishing
- 描述：包含网站钓鱼问题的数据集，用于电子银行和电子商务行业的在线交易安全研究。
- 链接：Website Phishing
Phish-IRIS dataset
- 描述：包含1313个训练样本和1539个测试样本的钓鱼网站数据集。
- 链接：Phish-IRIS dataset
Website Classification Dataset
- 描述：包含手动分类的网站数据集，分为两级主题层次结构。
- 链接：Website Classification Dataset

URL

欺诈

Credit Card Fraud
- 描述：包含信用卡欺诈事件的数据集。
- 链接：Credit Card Fraud

垃圾邮件

2007 TREC Public Spam Corpus
- 描述：包含计算机病毒、欺诈性请求和其他有害材料的公共垃圾邮件语料库。
- 链接：2007 TREC Public Spam Corpus

威胁情报

MISP Threat Sharing
- 描述：MISP项目提供的威胁共享数据集。
- 链接：MISP Threat Sharing
malware-indicators
- 描述：Citizen Lab调查过程中发现的恶意软件指标数据集。
- 链接：malware-indicators
All
- 描述：AlienVault OTX提供的全球脉冲数据集。
- 链接：All
Malware Corpus Tracker
- 描述：恶意软件语料库跟踪器数据集。
- 链接：Malware Corpus Tracker
Cybercrime-track
- 描述：网络犯罪跟踪器数据集。
- 链接：Cybercrime-track
Unit 42 iocs
- 描述：Unit 42公共报告相关的指标数据集。
- 链接：Unit 42 iocs
Threatfeeds
- 描述：威胁源数据集。
- 链接：Threatfeeds
C2IntelFeeds
- 描述：C2情报源数据集。
- 链接：C2IntelFeeds
stopforumspam
- 描述：论坛垃圾邮件阻止数据集。
- 链接：stopforumspam
The Majestic Million
- 描述：Majestic提供的百万域名列表。
- 链接：The Majestic Million

软件

C2
- 描述：C2相关数据集。
- 链接：C2
Malware Share
- 描述：恶意软件共享数据集。
- 链接：Malware Share
BODMAS Malware Dataset
- 描述：Blue Hexagon Open Dataset for Malware AnalysiS，包含57,293个恶意软件样本和77,142个良性样本。
- 链接：BODMAS Malware Dataset
Malware Sample Sources
- 描述：恶意软件样本来源数据集。
- 链接：Malware Sample Sources
Malware-Threat-Reports
- 描述：包含实际恶意软件的数据集。
- 链接：Malware-Threat-Reports
MalwareTrainingSets
- 描述：恶意软件训练集数据集。
- 链接：MalwareTrainingSets
Elastic Malware Benchmark for Empowering Researchers
- 描述：EMBER数据集，包含PE文件的特征，用于研究人员基准测试。
- 链接：Elastic Malware Benchmark for Empowering Researchers
Open Malware Database
- 描述：开放恶意软件数据库。
- 链接：Open Malware Database
PlugX Chronicles
- 描述：关于PlugX恶意软件的文章和信息集合。
- 链接：PlugX Chronicles
The Drebin Dataset
- 描述：包含5,560个来自179个不同恶意软件家族的应用程序数据集。
- 链接：The Drebin Dataset
JavaScript Vulnerability DataSet
- 描述：JavaScript漏洞数据集。
- 链接：JavaScript Vulnerability DataSet
payloads
- 描述：攻击载荷数据集。
- 链接：payloads
Malware Knowledge Base
- 描述：恶意软件知识库数据集。
- 链接：Malware Knowledge Base

取证

Digital Corpora
- 描述：提供用于计算机取证教育和研究的数字语料库，包括磁盘映像、内存转储和网络数据包捕获。
- 链接：Digital Corpora
Verizon VERIS Database
- 描述：VERIS社区数据库，支持有效的信息共享和网络安全集体智能。
- 链接：Verizon VERIS Database
Malware dump
- 描述：恶意软件转储数据集。
- 链接：Malware dump
Windows EVTX Samples
- 描述：与特定攻击和后利用技术相关的Windows事件样本。
- 链接：Windows EVTX Samples
Aktaion2
- 描述：Aktaion2数据集。
- 链接：Aktaion2

认证

User-Computer Authentication Associations in Time
- 描述：包含708,304,516个成功认证事件的数据集，记录了用户和计算机之间的认证关联。
- 链接：User-Computer Authentication Associations in Time

载荷

Web attack payloads
- 描述：包含网络攻击载荷的数据集。
- 链接：Web attack payloads

蜜罐

Sweetie data
- 描述：包含三个月蜜罐数据的数据集，主要使用T-Pot收集。
- 链接：Sweetie data
Threat_Research
- 描述：集中存储从蜜罐网络收集的威胁研究数据。
- 链接：Threat_Research

系统

Windows Audit Logs
- 描述：用于检测恶意行为的Windows审计日志数据集。
- 链接：Windows Audit Logs
Public Security Log Sharing Site
- 描述：包含各种系统和安全设备的公共日志样本。
- 链接：Public Security Log Sharing Site
self.logs
- 描述：自定义日志数据集。
- 链接：self.logs

虚假信息

Awesome Misinformation
- 描述：精选的虚假信息资源列表。
- 链接：Awesome Misinformation

密码

yahoo_password_frequencies_corpus
- 描述：雅虎密码频率语料库。
- 链接：yahoo_password_frequencies_corpus

综合数据集

Comprehensive, Multi-Source Cyber-Security Events Auth
- 描述：包含58天连续的网络安全事件数据，包括Windows认证事件、进程启动/停止事件、DNS查询、网络流量数据和红队事件。
- 链接：Comprehensive, Multi-Source Cyber-Security Events Auth
Intelligence and Security Informatics Data Sets
- 描述：提供Web论坛、钓鱼网站、Twitter数据和其他数据集，支持国际激进主义社交媒体研究和地理网络论坛研究。
- 链接：Intelligence and Security Informatics Data Sets
Security Datasets
- 描述：提供恶意和良性数据集，支持信息安全社区的数据分析和威胁研究。

搜集汇总

数据集介绍

构建方式

Awesome-Datasets-for-Cybersecurity数据集的构建方式是通过系统性地收集和分类来自多个来源的网络安全相关数据。这些数据涵盖了网络流量、恶意软件、威胁情报、网络取证、系统日志等多个领域。数据集的构建者通过整合公开可用的数据集，如MACCDC2012、Unified Host and Network Data Set、Malware Capture Facility Project等，确保了数据集的多样性和广泛性。此外，数据集还包括了来自学术研究、竞赛和实际网络环境的样本，以提供一个全面且实用的网络安全研究资源。

特点

Awesome-Datasets-for-Cybersecurity数据集的特点在于其广泛性和多样性。该数据集不仅包含了网络流量和恶意软件的样本，还涵盖了威胁情报、网络取证、系统日志等多个领域。这种多样性使得研究人员能够在一个统一的平台下进行跨领域的网络安全研究。此外，数据集的分类和标签系统使得用户可以方便地检索和分析特定类型的数据，从而提高了数据集的实用性和研究效率。

使用方法

使用Awesome-Datasets-for-Cybersecurity数据集时，用户首先需要根据研究需求选择合适的类别和数据子集。数据集提供了详细的分类和标签，用户可以通过这些信息快速定位所需数据。随后，用户可以下载相应的数据文件进行分析。数据集支持多种格式的数据文件，如PCAP、CSV等，用户可以根据自己的工具和方法选择合适的格式。此外，数据集还提供了一些示例代码和工具，帮助用户快速上手并进行数据分析。

背景与挑战

背景概述

Awesome-Datasets-for-Cybersecurity数据集是一个专注于网络安全领域的综合数据集，由多个研究机构和大学共同创建。该数据集的创建旨在为网络安全研究提供丰富的资源，涵盖了从网络流量分析到恶意软件检测等多个子领域。主要研究人员和机构包括美国国家网络安全教育倡议（National CyberWatch）、捷克技术大学（Czech Technical University）等。核心研究问题涉及网络攻击的检测与防御、恶意软件的行为分析以及网络取证等。该数据集的发布对网络安全领域的研究产生了深远影响，为研究人员提供了宝贵的实验数据，推动了相关技术的进步。

当前挑战

Awesome-Datasets-for-Cybersecurity数据集在构建过程中面临了多重挑战。首先，数据集的多样性要求从不同来源收集和整合数据，这涉及到数据的标准化和匿名化处理，以确保数据的安全性和可用性。其次，恶意软件和网络攻击的动态性使得数据集的更新和维护成为一个持续的挑战。此外，数据集的规模和复杂性增加了数据分析和处理的难度，需要高效的算法和工具来提取有价值的信息。最后，数据集的开放性和共享性也带来了数据隐私和安全方面的挑战，如何在保护用户隐私的同时促进数据共享是一个亟待解决的问题。

常用场景

经典使用场景

在网络安全领域，Awesome-Datasets-for-Cybersecurity数据集被广泛用于网络流量分析、恶意软件检测和威胁情报收集等经典场景。例如，研究人员利用该数据集中的网络流量数据进行入侵检测系统的开发与评估，通过分析不同类型的网络流量，识别潜在的攻击行为。此外，该数据集还支持恶意软件家族的分类研究，通过对比不同恶意软件样本的特征，提升检测算法的准确性和鲁棒性。

解决学术问题

Awesome-Datasets-for-Cybersecurity数据集解决了网络安全领域中多个关键的学术研究问题。首先，它为入侵检测系统（IDS）的研究提供了丰富的实证数据，帮助学者们开发和验证新的检测算法。其次，该数据集支持恶意软件分析，通过提供大量的恶意软件样本和相关网络流量数据，促进了恶意软件行为模式的研究。此外，数据集中的威胁情报数据为网络安全态势感知和预测提供了基础，推动了相关理论和方法的发展。

衍生相关工作

基于Awesome-Datasets-for-Cybersecurity数据集，衍生了许多重要的相关工作。例如，一些研究团队利用该数据集开发了高效的入侵检测算法，显著提升了检测速度和准确率。同时，该数据集也促进了恶意软件分析工具的发展，研究人员通过分析数据集中的恶意软件样本，开发了多种恶意软件检测和分类工具。此外，数据集中的威胁情报数据还被用于构建网络安全知识图谱，支持更智能的网络安全决策和响应。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集