A.csv, B.csv

github2024-05-06 更新2024-05-31 收录

下载链接：

https://github.com/always-spring01/Data_Deduplication_Model

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于分析网络数据包的恶意性，包含两个主要属性：Payload（16进制表示的每个数据包负载）和Label（正误检测分类结果，0表示误报，1表示正确检测）。数据集用于通过去除重复数据来提高机器学习性能。

本数据集旨在剖析网络数据包的恶意特征，其中涵盖了两个核心属性：负载（以十六进制形式表示的各个数据包内容）以及标签（用于正误检测的分类结果，其中0代表误报，1代表准确检测）。该数据集的设计旨在通过剔除冗余信息，以优化机器学习模型的性能表现。

创建时间：

2024-02-12

原始信息汇总

数据集概述

数据集目的

本数据集旨在通过有效去除网络数据包中的重复性数据，提高机器学习模型的性能。具体而言，该模型通过分析大量网络数据包数据，识别并移除重复的数据包，以减少数据偏差并加速学习过程。

数据集结构

数据集包含两个主要属性：

Payload：记录每个数据包的负载，以16进制表示。
Label：标记数据包的分类结果，其中0表示误报，1表示正确报。

数据集由两个文件组成：A.csv 和 B.csv，具体结构如下：

文件名	总数量	标签0数量	标签1数量
A.csv	1,118,257	1,086,944	31,313
B.csv	2,336,672	2,301,395	35,277

数据预处理

数据预处理包括以下步骤：

数据分割：将数据集按80%和20%的比例分为训练集和评估集。
数据抽样：从每个数据集中随机抽取一定数量的数据，保持标签比例不变。

数据向量化

为了进行重复性检测，数据集中的Payload部分被转换为ASCII向量。这种转换有助于简化后续的相似度比较。

数据采样

采用多进程处理方法，将数据集分割成多个样本数据集，以提高处理效率。每个样本数据集包含最多10,000个数据。

聚类分析

使用余弦相似度作为基础，对数据进行聚类分析。聚类过程仅对标签为0的数据进行，以减少数据偏差。

代表值提取

在聚类后，从每个聚类中提取代表值，以形成最终的轻量化数据集。提取策略根据聚类大小进行调整，以平衡数据集的多样性和轻量化需求。

评估

通过比较原始数据集和轻量化数据集的性能指标（如F1分数、准确率、精确率、召回率和运行时间），评估模型的效果。评估结果显示，轻量化数据集在保持较高性能的同时，显著减少了数据量和处理时间。

结论

本数据集通过一系列精细的数据处理步骤，有效地减少了数据集的规模，同时保持了机器学习模型的性能。这表明通过数据去重和优化，可以显著提升数据处理效率和模型性能。

搜集汇总

数据集介绍

构建方式

该数据集的构建旨在解决网络数据包分析中的数据冗余问题。数据集由两个文件组成，分别为A.csv和B.csv，每个文件包含大量网络数据包的Payload和对应的Label。Payload以16进制形式记录，而Label则表示数据包的分类结果，0代表误报，1代表正报。数据集的构建过程中，首先对原始数据进行预处理，将数据分为训练集和评估集，比例为80%和20%。随后，通过ASCII向量化方法将Payload转换为向量，并基于余弦相似度进行聚类，以去除冗余数据。最终，通过多进程处理和代表值提取，生成精简后的数据集。

特点

该数据集的主要特点在于其针对网络数据包的冗余性进行了有效的处理。数据集中的Payload以16进制形式记录，部分数据包包含不可读的二进制数据，而Label则存在明显的类别不平衡问题。通过聚类和多进程处理，数据集在保持类别比例的同时，显著减少了数据量，提升了数据处理的效率。此外，数据集的构建过程中采用了余弦相似度作为聚类标准，确保了数据的去冗余效果。

使用方法

该数据集可用于训练和评估网络数据包分类模型，特别是在处理大规模网络数据时，能够有效减少数据冗余，提升模型的训练效率。使用时，用户可以将数据集分为训练集和测试集，利用预处理后的数据进行模型训练。通过余弦相似度聚类和多进程处理，用户可以进一步优化数据集的规模，确保模型在处理大规模数据时的性能。最终，用户可以通过评估指标如F1 score、Accuracy score等，对模型的性能进行全面评估。

背景与挑战

背景概述

A.csv 和 B.csv 数据集由韩国国立大学（Kookmin Univ.）于2024年创建，旨在解决网络数据包分析中的数据冗余问题。该数据集的核心研究问题是如何通过有效去除数据包中的冗余信息，提升机器学习模型的性能。数据集包含两个主要属性：Payload（以16进制表示的网络数据包内容）和Label（标记数据包的正误分类结果）。该数据集的创建对网络数据包分析领域具有重要意义，尤其是在处理大规模网络数据时，能够显著减少数据冗余，提升模型训练效率。

当前挑战

该数据集面临的挑战主要集中在两个方面：首先，数据集的构建过程中，处理大规模网络数据包时，如何高效地进行数据冗余检测与去除是一个技术难题。其次，数据集中的标签分布存在明显的偏差（Label Bias），即大部分数据包被标记为正常（0），而恶意数据包（1）的比例极低。这种标签不平衡问题会导致模型在训练过程中过度偏向于正常数据包，从而影响模型的泛化能力。此外，数据集的Payload部分包含大量不可读的二进制数据，如何有效地将其转换为可用于机器学习的特征向量也是一个重要挑战。

常用场景

经典使用场景

该数据集的经典使用场景主要集中在网络数据包的恶意检测与分类任务中。通过分析大量网络数据包的Payload和Label，模型能够有效识别出恶意数据包，从而提升网络安全的防护能力。特别是在处理大规模数据时，通过去除重复数据，模型能够显著减少训练时间和数据偏差，从而提高分类器的准确性和效率。

解决学术问题

该数据集解决了在大规模网络数据包分析中常见的数据冗余和偏差问题。通过去除重复数据，模型不仅减少了训练时间，还缓解了数据偏差对分类器性能的影响。这一方法在学术研究中具有重要意义，因为它为处理不平衡数据集提供了一种有效的解决方案，尤其是在网络安全领域，能够显著提升恶意数据包检测的准确性和效率。

衍生相关工作

基于该数据集的研究衍生了一系列相关工作，特别是在数据去重和恶意数据包检测领域。通过引入多进程处理和高效的聚类算法，研究人员进一步优化了数据处理效率，提升了模型的性能。此外，该数据集还为其他研究提供了基础，例如在不平衡数据集上的分类算法改进和大规模数据处理技术的优化，推动了网络安全领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集