Internet-background-noise

Hugging Face2025-01-05 更新2025-01-06 收录

下载链接：

https://huggingface.co/datasets/burpheart/Internet-background-noise

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含通过互联网蜜罐收集的HTTP噪声数据，这些数据是原始的、未标记的网络数据包，包括元数据、有效载荷和头部信息。数据集适用于训练和评估用于网络入侵检测、网络安全和流量分析的机器学习模型。数据集的模式包括源IP地址、源端口、目标IP标签、目标端口、国家、ISO代码、ASN、ASN组织、请求体、解析的体参数、错误标志、HTTP方法、请求路径、HTTP头部、时间戳、用户代理字符串、解析的URI参数、完整的HTTP请求字符串、请求体的哈希、整个HTTP请求数据的哈希、请求路径的哈希和请求头部的哈希。数据集以Parquet格式存储，并提供了示例数据。

This dataset contains HTTP noise data collected via internet honeypots. These are raw, unlabeled network packets that include metadata, payloads, and header information. This dataset is suitable for training and evaluating machine learning models for network intrusion detection, cybersecurity, and traffic analysis. The schema of the dataset includes: source IP address, source port, destination IP label, destination port, country, ISO code, ASN, ASN organization, request body, parsed body parameters, error flags, HTTP methods, request path, HTTP headers, timestamp, user-agent string, parsed URI parameters, full HTTP request string, hash of the request body, hash of the entire HTTP request data, hash of the request path, and hash of the HTTP headers. The dataset is stored in Parquet format, with sample data provided.

创建时间：

2025-01-05

搜集汇总

数据集介绍

构建方式

Internet Background Noise数据集通过部署互联网蜜罐系统捕获原始HTTP流量构建而成。蜜罐系统模拟典型的互联网背景噪声，收集了包括元数据、载荷和头部信息在内的未标记网络数据包。数据以Parquet格式存储，涵盖了源IP地址、目标IP标签、端口、HTTP方法、路径、头部、时间戳等关键字段，确保数据的完整性和多样性。

使用方法

Internet Background Noise数据集主要用于网络入侵检测、网络安全分析和流量分析等领域的研究。研究人员可通过加载Parquet格式的数据文件，利用其丰富的网络特征进行模型训练和评估。由于数据未标记，特别适合用于无监督学习任务，如聚类分析或异常检测。同时，数据集中的哈希值字段可用于数据完整性验证和去重操作。

背景与挑战

背景概述

Internet Background Noise数据集由网络安全研究团队通过蜜罐技术收集，旨在模拟互联网背景噪声中的HTTP流量。该数据集由GitHub用户burpheart及其团队于2024年发布，主要包含未标记的网络数据包，涵盖源IP地址、目标IP标签、HTTP头信息、请求体等关键字段。其核心研究问题聚焦于网络入侵检测、网络安全分析及流量异常识别，为机器学习模型的无监督学习和异常检测提供了丰富的数据支持。该数据集在网络安全领域具有重要影响力，为研究人员提供了真实且多样化的网络流量数据，推动了网络攻击检测技术的发展。

当前挑战

Internet Background Noise数据集在解决网络入侵检测问题时面临多重挑战。首先，由于数据为未标记的原始流量，模型训练依赖于无监督学习或半监督学习，增加了异常检测的难度。其次，数据中包含大量非结构化或损坏的二进制数据，如请求体中的非可打印字符，这给数据预处理和特征提取带来了复杂性。此外，数据集构建过程中，蜜罐技术的局限性可能导致部分数据失真或丢失，影响数据的完整性和准确性。最后，尽管目标IP地址和主机头信息已匿名化，但源IP地址仍可能涉及隐私问题，需在分析中谨慎处理。这些挑战共同构成了该数据集在网络安全研究中的关键难点。

常用场景

经典使用场景

在网络安全领域，Internet Background Noise数据集被广泛用于模拟和分析互联网背景噪声。通过捕获来自蜜罐的原始HTTP流量，该数据集为研究人员提供了一个真实的网络环境，用于训练和评估网络入侵检测系统。其丰富的网络特征数据，如源IP地址、端口、HTTP头部和有效载荷，使得该数据集成为网络安全研究中不可或缺的工具。

解决学术问题

该数据集解决了网络安全研究中的多个关键问题，特别是在网络入侵检测和异常流量分析方面。通过提供未标记的原始网络数据，研究人员可以开发无监督学习算法，识别潜在的恶意流量模式。此外，该数据集还支持对网络流量行为的深入分析，帮助理解互联网背景噪声的构成及其对网络安全的影响。

实际应用

在实际应用中，Internet Background Noise数据集被广泛用于企业网络安全系统的开发和测试。通过使用该数据集，企业可以模拟真实的网络攻击场景，评估其防御系统的有效性。此外，该数据集还被用于开发自动化工具，帮助网络安全团队快速识别和响应潜在的网络威胁。

数据集最近研究