Unified Host and Network Dataset

github2024-05-23 更新2024-05-31 收录

下载链接：

https://github.com/shramos/Awesome-Cybersecurity-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

统一主机和网络数据集是从洛斯阿拉莫斯国家实验室企业网络收集的网络和计算机（主机）事件的子集，持续约90天。主机事件日志来自实验室企业网络中大多数运行Microsoft Windows操作系统的计算机。网络事件数据来自LANL企业网络内的许多内部企业路由器。

The Unified Host and Network Dataset is a subset of network and computer (host) events collected from the enterprise network of Los Alamos National Laboratory, spanning approximately 90 days. The host event logs are derived from the majority of computers within the laboratory's enterprise network that operate on the Microsoft Windows operating system. The network event data originates from numerous internal enterprise routers within the LANL enterprise network.

创建时间：

2018-08-29

原始信息汇总

数据集概述

网络流量

Unified Host and Network Dataset
来源：Los Alamos National Laboratory
描述：包含约90天的网络和计算机事件数据，源自LANL企业网络内的计算机和内部企业路由器。
Comprehensive, Multi-Source Cyber-Security Events
来源：Los Alamos National Laboratory
描述：代表58天的去标识化事件数据，收集自LANL内部网络的五个来源。
User-Computer Authentication Associations in Time
来源：Los Alamos National Laboratory
描述：涵盖9个月，代表708,304,516次用户到计算机的成功认证事件。
Canadian Institute for Cybersecurity datasets
来源：Canadian Institute for Cybersecurity
描述：被全球的大学、私营企业和独立研究人员使用。
KDD Cup 1999 Data
来源：UCI
描述：包含多种入侵模拟的军事网络环境数据。
2017-SUEE-data-set
来源：Ulm University
描述：包含来自Ulm大学电气工程学生会的网络服务器进出流量，混有攻击流量。
CTU-13 Dataset
来源：StratosphereIPS
描述：包含僵尸网络、正常和背景流量的标记数据集。
PCAP files
来源：Netresec
描述：包含恶意软件流量、网络取证、SCADA/ICS网络捕获等。
pcapt
来源：pcapr.net
描述：PCAP文件的大型存储库。
Project Sonar
来源：Rapid7
描述：每月生成多个UDP数据集，通过发送协议特定的UDP探针收集数据。
IoT devices captures
来源：Aalto University
描述：代表31个智能家居IoT设备在设置过程中的流量。

恶意软件

UNSW-NB15 data set
来源：UNSW Canberra
描述：包含九种攻击家族的数据集，使用Argus和Bro-IDS工具生成49个特征。
Malware Training Sets
来源：Marcoramilli
描述：包含APT1、Crypto、Locker和Zeus等恶意软件样本。
The Drebin Dataset
来源：TU Braunschweig
描述：包含5,560个应用程序，来自179个不同的恶意软件家族。
Stratosphere IPS
来源：StratosphereIPS
描述：包含恶意软件捕获、正常捕获和混合捕获。
Microsoft Malware Classification Challenge
来源：Kaggle
描述：提供一组已知的恶意软件文件，代表9个不同的家族。

软件

Javascript Vulnerability dataset
来源：University of Szeged
描述：从Node Security Project和Snyk平台的数据库以及GitHub的代码修复补丁构建的数据集。

Web应用

West Point NSA Data Sets
来源：West Point
描述：包含Snort入侵检测日志、域名服务日志、Web服务器日志等。
Web Attack Payloads
来源：GitHub
描述：收集的Web攻击载荷。
Machine-Learning-driven-Web-Application-Firewall
来源：GitHub
描述：一组用于Web应用防火墙的好坏查询。
Internet-Wide Scan Data Repository
来源：Censys
描述：发布每日快照，包含每个IPv4主机的配置信息。
500K HTTP Headers
来源：HackerTarget
描述：最近爬取的Alexa排名前50万的网站的HTTP头部信息。
HTTP DATASET CSIC 2010
来源：CSIC
描述：包含数千个自动生成的Web请求，用于测试Web攻击防护系统。
ISOT datasets
来源：UVic
描述：通过不同项目收集的多种数据集，包括ISOT Web交互数据集等。
Web Logs Secrepo
来源：Secrepo
描述：由Secrepo社区和Web应用程序生成的Web日志。
Common Crawl
来源：Common Crawl
描述：包含过去7年收集的PB级原始网页数据、提取的元数据和文本提取。
Website Classification Dataset
来源：UK Web Archive
描述：手动分类的网站数据集，包括一个两级主题层次结构。
AZSecure-data
来源：AZSecure-data
描述：提供Web论坛、互联网钓鱼网站、Twitter数据等。

URLs与域名

Malicious URLs Dataset
来源：Sysnet UCSD
描述：包含约240万个URL和320万个特征的数据集。
cybercrime-tracker
来源：cybercrime-tracker.net
描述：标记的恶意URL列表。
Malware Domain List
来源：MalwareDomainList
描述：恶意软件域名列表。
ZeuS Tracker
来源：Abuse.ch
描述：跟踪全球的ZeuS命令与控制服务器。
Feodo Tracker
来源：Abuse.ch
描述：Feodo僵尸网络C&C服务器列表。
Ransomware Tracker
来源：Abuse.ch
描述：提供多种类型的阻止列表，以阻止勒索软件僵尸网络C&C流量。
URLhaus
来源：Abuse.ch
描述：分享用于恶意软件分发的恶意URL。
Alexa Top 1 Million
来源：Alexa
描述：包含Alexa排名前100万的网站的CSV数据集。
OpenDNS Top Domains List
来源：OpenDNS
描述：全球顶级10,000个域名列表，按流行度排序。
The Majestic Million
来源：Majestic
描述：我们发现拥有最多参考子网的百万个域名。
StopForumSpam
来源：StopForumSpam
描述：提供IP地址、域名和用户名，用于防止滥用。

主机

The ADFA Intrusion Detection Datasets
来源：UNSW Canberra
描述：提供用于传统HIDS评估的当代Linux和Windows数据集。
Unified Host and Network Dataset
来源：Los Alamos National Laboratory
描述：包含约90天的网络和计算机事件数据，源自LANL企业网络内的计算机和内部企业路由器。
Public Security Log Sharing Site
来源：Dreamhosters
描述：包含来自各种系统、安全设备和应用程序的免费可共享日志样本。
Aktaion2 Data
来源：GitHub
描述：用于学习/教学如何将多种安全信号和行为融入入侵检测的表达框架。

电子邮件

2007 TREC Public Spam Corpus
来源：University of Waterloo
描述：包含75,419条消息，其中25,220条是正常邮件，50,199条是垃圾邮件。
SPAM list
来源：TechHelplist
描述：垃圾邮件消息列表。

欺诈

Credit Card Fraud
来源：Kaggle
描述：包含2013年9月欧洲持卡人的信用卡交易数据，其中492笔交易是欺诈。

蜜罐

DDS Dataset Collection
来源：Data Driven Security
描述：来自AWS蜜罐的tar/gzip CSV文件，包含域名和DGA或合法的高级分类。
Threat_Research
来源：GitHub
描述：从我的蜜罐网络收集的威胁研究数据。

二进制文件

The ember dataset
来源：Endgame
描述：包含110万个sha256哈希，来自2017年扫描的PE文件。

钓鱼

Phishing Websites Data Set
来源：UCI
描述：揭示预测钓鱼网站的重要特征。

密码

Yahoo Password Frequency Corpus
来源：Figshare
描述：包含2011年5月从Yahoo收集的消毒密码频率列表。

杂项

SecRepo
来源：Secrepo
描述：安全相关数据的样本。
PANDA SHARE
来源：RRShare
描述：存储由PANDA动态分析平台生成的执行记录，用于使动态分析可重复。
SHERLOCK
来源：Ben-Gurion University
描述：从三星Galaxy S5智能手机收集的几乎所有软件和硬件传感器的时间序列数据集。
WerdLists
来源：DeCal
描述：用于编写软件安全测试案例的词列表、字典和其他数据集。

搜集汇总

数据集介绍

构建方式

统一主机与网络数据集（Unified Host and Network Dataset）是从洛斯阿拉莫斯国家实验室的企业网络中提取的一个子集，涵盖了约90天的网络和计算机事件数据。该数据集的构建基于实验室企业网络中的大部分运行Microsoft Windows操作系统的计算机，以及内部企业路由器的网络事件数据。通过整合主机事件日志和网络事件数据，该数据集为网络安全研究提供了一个全面且多维度的视角。

特点

统一主机与网络数据集的显著特点在于其综合性和实时性。该数据集不仅包含了主机层面的详细日志，如操作系统事件和用户活动，还涵盖了网络层面的数据，如路由器流量和内部网络通信。这种多层次的数据整合使得研究人员能够更全面地分析和理解网络安全事件的复杂性。此外，数据的高频率更新确保了研究的前沿性和实用性。

使用方法

统一主机与网络数据集适用于多种网络安全研究场景，包括但不限于入侵检测系统（IDS）的开发与测试、恶意软件行为分析、以及网络流量异常检测。研究人员可以通过访问数据集的官方网站下载所需数据，并利用数据分析工具如Python的Pandas库或网络安全专用工具进行深入分析。在使用过程中，建议结合具体的网络安全研究问题，选择合适的数据子集和分析方法，以最大化数据集的应用价值。

背景与挑战

背景概述

Unified Host and Network Dataset（统一主机和网络数据集）是由洛斯阿拉莫斯国家实验室（Los Alamos National Laboratory, LANL）收集并发布的一个网络安全数据集。该数据集涵盖了大约90天内从LANL企业网络中收集的网络和计算机（主机）事件。主机事件日志主要来源于运行Microsoft Windows操作系统的多数企业计算机，而网络事件数据则来源于LANL企业网络内的多个内部企业路由器。该数据集的创建旨在为网络安全领域的研究提供丰富的数据资源，特别是在网络和主机事件的关联分析方面，为网络安全防御和入侵检测系统的开发提供了宝贵的实验数据。

当前挑战

Unified Host and Network Dataset在构建过程中面临了多重挑战。首先，数据集的规模庞大，涉及数百万条事件记录，这要求高效的数据存储和处理技术。其次，数据来源多样，包括主机日志和网络流量，如何确保这些异构数据的同步和一致性是一个技术难题。此外，数据集的隐私和安全问题也不容忽视，特别是在处理包含敏感信息的企业网络数据时，必须采取严格的匿名化和加密措施。最后，数据集的标注和分类工作复杂，需要专业的网络安全知识来准确识别和标记各类事件，以确保数据集在实际应用中的有效性。

常用场景

经典使用场景

在网络安全领域，Unified Host and Network Dataset 被广泛应用于网络入侵检测和主机行为分析。该数据集整合了来自洛斯阿拉莫斯国家实验室企业网络的网络事件和主机事件日志，涵盖了约90天的数据。通过分析这些数据，研究人员可以识别异常网络流量和主机活动，从而有效检测潜在的网络威胁和恶意行为。

衍生相关工作

基于 Unified Host and Network Dataset，许多相关的经典工作得以开展。例如，研究人员利用该数据集开发了多种先进的入侵检测算法，显著提升了网络威胁的检测率。此外，该数据集还促进了主机行为分析工具的发展，帮助识别和阻止恶意软件的传播。在学术界，基于该数据集的研究成果多次发表在顶级网络安全会议上，推动了该领域的技术进步和知识积累。

数据集最近研究