Unified Host and Network Dataset

github2024-03-05 更新2024-05-31 收录

下载链接：

https://github.com/Hackinfinity/Cyber-Security-Dataset-collections

下载链接

链接失效反馈

官方服务：

资源简介：

统一主机和网络数据集是从洛斯阿拉莫斯国家实验室企业网络收集的大约90天的网络和计算机（主机）事件的子集。主机事件日志来自大多数运行Microsoft Windows操作系统的实验室企业计算机。网络事件数据来自实验室企业网络内的许多内部企业路由器。

The Unified Host and Network Dataset is a subset of approximately 90 days' worth of network and computer (host) events collected from the enterprise network of Los Alamos National Laboratory. The host event logs are derived from the majority of the laboratory's enterprise computers running the Microsoft Windows operating system. The network event data originates from numerous internal enterprise routers within the laboratory's enterprise network.

创建时间：

2018-08-31

原始信息汇总

数据集概述

1. Unified Host and Network Dataset

来源: Los Alamos National Laboratory
描述: 包含约90天的网络和计算机事件数据，源自LANL企业网络中的大多数Windows操作系统计算机和内部企业路由器。

2. Comprehensive, Multi-Source Cyber-Security Events

来源: Los Alamos National Laboratory
描述: 包含58天的去标识化事件数据，收集自LANL内部企业网络的五个不同来源。

3. User-Computer Authentication Associations in Time

来源: Los Alamos National Laboratory
描述: 包含9个月的用户到计算机成功认证事件数据，总计708,304,516次认证。

4. SHERLOCK

来源: Ben-Gurion University of the Negev
描述: 包含来自三星Galaxy S5智能手机的软件和硬件传感器数据，数据点超过600亿，记录超过10亿。

5. Canadian Institute for Cybersecurity datasets

来源: Canadian Institute for Cybersecurity
描述: 被全球大学、私营行业和独立研究人员使用的数据集。

6. AZSecure-data

来源: AZSecure-data PORTAL
描述: 提供Web论坛、互联网钓鱼网站、Twitter数据等访问。

7. Credit Card Fraud

来源: Kaggle
描述: 包含2013年9月欧洲信用卡持有者的交易数据，其中492次欺诈交易，总交易数为284,807。

8. KDD Cup 1999 Data

来源: UCI
描述: 包含在军事网络环境中模拟的各种入侵数据。

9. DDS Dataset Collection

来源: Data Driven Security
描述: 包含AWS蜜罐收集的CSV文件，以及域名和DGA或合法的高级分类。

10. UNSW-NB15 data set

来源: UNSW Canberra
描述: 包含九种攻击类型，使用Argus和Bro-IDS工具生成49个特征。

11. 2017-SUEE-data-set

来源: Ulm University
描述: 包含Ulm大学电气工程学生会网络服务器的进出流量，混合了攻击流量。

12. 2007 TREC Public Spam Corpus

来源: University of Waterloo
描述: 包含75,419条消息，其中25,220条为正常邮件，50,199条为垃圾邮件。

13. West Point NSA Data Sets

来源: West Point
描述: 包含Snort入侵检测日志、域名服务日志、Web服务器日志和日志服务器聚合日志。

14. The ember dataset

来源: Endgame Inc.
描述: 包含2017年扫描的110万个PE文件的sha256哈希。

15. Malware Training Sets

来源: Marcoramilli
描述: 包含APT1、Crypto、Locker和Zeus等样本的分类数据集。

16. Malicious URLs Dataset

来源: UCSD
描述: 包含约240万个URL和320万个特征。

17. CTU-13 Dataset

来源: Stratosphere IPS
描述: 包含机器人网络、正常和背景流量的标记数据集。

18. The ADFA Intrusion Detection Datasets

来源: UNSW Canberra
描述: 提供用于HIDS评估的现代Linux和Windows数据集。

19. Web Attack Payloads

来源: Foospidy
描述: 包含一系列Web攻击载荷。

20. Machine-Learning-driven-Web-Application-Firewall

来源: Faizan24
描述: 包含用于Web应用防火墙的好坏查询集合。

21. PCAP files

来源: Netresec
描述: 包含恶意软件流量、网络取证、SCADA/ICS网络捕获等。

22. The Drebin Dataset

来源: TU Braunschweig
描述: 包含5,560个来自179个不同恶意软件家族的应用程序。

23. Phishing Websites Data Set

来源: UCI
描述: 包含用于预测钓鱼网站的重要特征。

24. cybercrime-tracker

来源: Cybercrime Tracker
描述: 包含标记的恶意URL列表。

25. Malware Domain List

来源: Malware Domain List
描述: 包含恶意软件域名列表。

26. Internet-Wide Scan Data Repository

来源: Censys
描述: 包含每日更新的IPv4主机、Alexa顶级网站和已知X.509证书的快照。

27. 500K HTTP Headers

来源: HackerTarget
描述: 包含Alexa排名前500K网站的HTTP头。

28. HTTP DATASET CSIC 2010

来源: CSIC
描述: 包含自动生成的数千个Web请求，用于测试Web攻击防护系统。

29. ISOT datasets

来源: UVic
描述: 包含ISOT实验室收集的多个数据集，如Web交互数据集和Botnet数据集。

30. ZeuS Tracker

来源: Abuse.ch
描述: 跟踪全球的ZeuS命令与控制服务器。

31. Feodo Tracker

来源: Abuse.ch
描述: 包含Feodo botnet的C&C服务器列表。

32. Ransomware Tracker

来源: Abuse.ch
描述: 提供多种类型的阻止列表，以阻止勒索软件botnet C&C流量。

33. URLhaus

来源: Abuse.ch
描述: 分享用于恶意软件分发的恶意URL。

34. Yahoo Password Frequency Corpus

来源: Figshare
描述: 包含2011年5月从Yahoo收集的密码频率列表。

35. SPAM list

来源: TechHelplist
描述: 包含垃圾邮件消息列表。

36. Web Logs Secrepo

来源: SecRepo
描述: 包含SecRepo社区和Web应用程序生成的Web日志。

37. SecRepo

来源: SecRepo
描述: 包含安全相关数据的样本。

38. pcapt

来源: PCAPr
描述: 包含大量PCAP文件的存储库。

39. Threat_Research

来源: JonathanPhillips
描述: 包含从网络蜜罐收集的威胁研究数据。

40. Alexa Top 1 Million

来源: Alexa
描述: 包含最受欢迎的100万个网站的CSV数据集。

41. Public Security Log Sharing Site

来源: Log Sharing
描述: 包含各种系统的免费可共享日志样本，包括安全、网络设备和应用程序。

42. OpenDNS Top Domains List

来源: OpenDNS
描述: 包含全球接收查询的前10,000个域名。

43. Project Sonar

来源: Rapid7
描述: 每月生成多个UDP数据集，通过发送协议特定的UDP探针收集。

44. PANDA SHARE

来源: RRShare
描述: 存储由PANDA动态分析平台生成的执行记录，用于重复性动态分析。

45. Stratosphere IPS

来源: Stratosphere IPS
描述: 包含恶意软件捕获、正常捕获和混合捕获。

46. The Majestic Million

来源: Majestic
描述: 包含具有最多引用子网的100万个域名。

47. Common Crawl

来源: Common Crawl
描述: 包含过去7年收集的PB级原始网页数据、提取的元数据和文本提取。

48. IoT devices captures

来源: Aalto University
描述: 包含31个智能家庭IoT设备在设置过程中发出的流量。

49. Website Classification Dataset

来源: UK Web Archive
描述: 包含手动分类的网站数据，分为两级主题层次结构。

50. Aktaion2 Data

来源: JZadeh
描述: 用于教学和学习如何将多种安全信号和行为融合到入侵检测框架中的数据。

51. Website Phishing Data Set

来源: UCI
描述: 包含1353个不同来源的合法和钓鱼网站的特征。

52. Microsoft Malware Classification Challenge

来源: Kaggle
描述: 提供一组已知恶意软件文件，代表9个不同家族，每个文件有唯一的20字符哈希值和家族名称。

53. StopForumSpam

来源: StopForumSpam
描述: 提供IP地址、域名和用户名的数据，用于防止论坛滥用。

搜集汇总

数据集介绍

构建方式

Unified Host and Network Dataset的构建基于洛斯阿拉莫斯国家实验室（LANL）企业网络中的主机和网络事件数据。该数据集涵盖了约90天的时间跨度，主要收集了运行微软Windows操作系统的主机事件日志，以及来自内部企业路由器的网络事件数据。这些数据经过精心筛选和处理，以确保其代表性和完整性，为网络安全研究提供了坚实的基础。

特点

Unified Host and Network Dataset的显著特点在于其多维度的数据覆盖，既包含主机层面的详细日志，也涵盖了网络层面的流量信息。数据集的时间跨度为90天，提供了丰富的时序数据，能够支持对网络攻击行为的长期分析和模式识别。此外，数据来源于实际的企业网络环境，具有高度的真实性和实用性，能够为网络安全研究提供宝贵的参考。

使用方法

Unified Host and Network Dataset的使用方法多样，主要适用于网络安全领域的研究和开发。研究人员可以利用该数据集进行网络攻击检测、异常行为分析以及安全策略的验证。数据集中的主机和网络事件数据可以单独或结合使用，以构建复杂的网络安全模型。此外，该数据集还可用于机器学习算法的训练和测试，帮助提升网络安全系统的智能化水平。

背景与挑战

背景概述

Unified Host and Network Dataset是由美国洛斯阿拉莫斯国家实验室（LANL）于2017年发布的一个网络安全数据集，旨在为网络安全研究提供全面的主机和网络事件数据。该数据集包含了约90天内从LANL企业网络中收集的主机事件日志和网络事件数据，涵盖了大多数运行Microsoft Windows操作系统的主机以及内部企业路由器生成的数据。该数据集的发布为网络安全领域的研究人员提供了宝贵的资源，特别是在入侵检测、异常行为分析和网络流量建模等方面具有重要的应用价值。通过整合主机和网络数据，该数据集为研究复杂网络环境中的安全威胁提供了多维度的视角。

当前挑战

Unified Host and Network Dataset在解决网络安全问题时面临多重挑战。首先，网络攻击的多样性和复杂性使得从海量数据中准确识别异常行为变得极为困难，尤其是在面对高级持续性威胁（APT）时。其次，数据集中包含的主机和网络事件数据具有高度异构性，如何有效地融合和分析这些不同类型的数据是一个技术难题。在构建过程中，研究人员还需应对数据隐私和匿名化的挑战，确保在公开数据的同时不泄露敏感信息。此外，数据的时间跨度和规模也对存储和计算资源提出了较高的要求，进一步增加了数据处理的复杂性。

常用场景

经典使用场景

Unified Host and Network Dataset在网络安全领域中被广泛用于分析和检测企业内部网络中的异常行为。该数据集结合了主机事件日志和网络事件数据，为研究人员提供了一个全面的视角，用于研究网络攻击的传播路径和影响范围。通过分析这些数据，研究人员能够识别潜在的恶意活动，并开发出更有效的入侵检测系统。

解决学术问题

该数据集解决了网络安全研究中的多个关键问题，尤其是在企业内部网络中的威胁检测和响应方面。通过提供真实的企业网络数据，研究人员能够验证和改进现有的入侵检测算法，提升其在实际环境中的准确性和鲁棒性。此外，该数据集还为研究网络攻击的复杂性和多样性提供了宝贵的数据支持，推动了网络安全领域的前沿研究。

衍生相关工作

基于Unified Host and Network Dataset，许多经典的网络安全研究工作得以展开。例如，研究人员利用该数据集开发了多种基于机器学习的入侵检测模型，显著提高了检测的准确性和效率。此外，该数据集还被用于研究网络攻击的传播机制，推动了网络安全领域的理论发展和实践应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集