five

自定义恶意软件流量数据集|恶意软件检测数据集|加密网络流量数据集

收藏
arXiv2025-01-10 更新2025-01-14 收录
恶意软件检测
加密网络流量
下载链接:
http://arxiv.org/abs/2501.05387v1
下载链接
链接失效反馈
资源简介:
该数据集由巴里大学计算机科学系的研究团队创建,旨在支持加密网络流量中的恶意软件检测研究。数据集包含1127条独特的恶意软件流量连接,涵盖了54个不同的恶意软件家族,是目前公开数据集中规模较大的一个。数据来源于多个公开和专有的恶意网络流量源,包括勒索软件、木马等不同类型的恶意软件。数据集的创建过程涉及从原始网络流量中提取多视图特征,如握手信息、证书信息、时间相关特征等。该数据集的应用领域主要集中在加密网络流量的恶意软件检测,旨在通过可解释的人工智能技术提升检测模型的透明度和可靠性。
提供机构:
巴里大学计算机科学系, 意大利
创建时间:
2025-01-10
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于多源网络流量数据的整合,涵盖了54种不同的恶意软件家族。研究人员从公开和专有的恶意网络流量中收集了1127个独特的连接样本,这些样本来自多个来源,包括信息安全和对象实验室提供的勒索软件样本、特洛伊木马样本以及CTU-13数据集中的恶意流量。此外,正常流量数据来自本地网络的自采集流量和CTU-13数据集。通过使用Joy框架,研究人员从原始网络流量中构建了双向流,并提取了多视角特征,包括握手信息、证书信息、时间与长度相关数据以及统计特征。
使用方法
该数据集的使用方法主要包括数据预处理、特征提取、模型训练与验证以及解释模块的应用。研究人员首先通过Joy框架从原始流量中构建双向流,并提取多视角特征。随后,使用集成学习模型(如随机森林、XGBoost和极端随机树)进行恶意流量的检测与分类。在模型训练过程中,采用了10折交叉验证和超参数优化技术。最后,通过SHAP技术对模型进行全局和局部解释,识别出对模型决策影响最大的特征,如最大数据包大小、平均包到达间隔时间和TLS版本等。该数据集的使用不仅提升了恶意流量检测的准确性,还增强了模型的可解释性,适用于加密网络环境中的恶意行为分析。
背景与挑战
背景概述
随着网络通信中加密技术的广泛应用,恶意软件逐渐利用加密通道进行传播,传统的恶意软件检测方法在面对加密流量时显得力不从心。为了应对这一挑战,Sileshi Nibret Zeleke等人于2025年提出了一个自定义恶意软件流量数据集,旨在通过可解释的人工智能(XAI)技术检测加密网络流量中的恶意行为。该数据集由意大利巴里大学的研究团队构建,包含了来自54个恶意软件家族的1,127个独特连接,是目前公开数据集中规模最大、覆盖最广的恶意软件流量数据集之一。该数据集不仅为加密恶意流量的检测提供了丰富的实验数据,还通过集成学习模型展示了99%以上的准确率、精确率和F1分数,显著推动了加密流量分析领域的研究进展。
当前挑战
该数据集的研究面临多重挑战。首先,加密恶意流量的检测本身是一个复杂的问题,由于加密技术的保护,传统的深度包检测方法无法直接分析流量内容,导致恶意行为难以被发现。其次,构建数据集时,研究人员需要从多个来源收集加密流量数据,并确保数据的多样性和代表性,这在实际操作中面临数据获取和标注的困难。此外,加密流量的特征提取也是一个技术难点,研究人员需要从握手信息、证书数据、时间间隔等多个维度提取特征,以区分正常流量与恶意流量。最后,如何在保证检测准确性的同时,提升模型的可解释性,使得安全分析师能够理解模型的决策过程,也是该领域亟待解决的问题。
常用场景
经典使用场景
自定义恶意软件流量数据集在网络安全领域中被广泛应用于加密流量中的恶意行为检测。该数据集通过提取加密通信中的多视角特征,如握手信息、证书信息、时间间隔和包长度等,结合可解释的人工智能(XAI)技术,帮助研究人员在不解密流量的情况下识别恶意流量。其经典使用场景包括在企业和组织的网络边缘部署恶意流量检测系统,以实时监控和防御潜在的加密恶意软件攻击。
解决学术问题
该数据集解决了加密流量中恶意软件检测的难题,尤其是在不解密流量的前提下识别未知恶意行为。通过引入可解释的人工智能技术,研究人员能够更好地理解模型决策过程,提升检测系统的透明度和可靠性。此外,该数据集还填补了现有开源数据集中恶意流量样本不足的空白,提供了涵盖54个恶意软件家族的1127个独特连接,为加密恶意流量检测的研究提供了丰富的数据支持。
实际应用
在实际应用中,该数据集被用于开发和优化企业级网络安全系统,帮助组织在不侵犯用户隐私的前提下检测加密流量中的恶意行为。通过部署基于该数据集的检测模型,企业能够有效识别和阻断恶意软件传播,减少数据泄露和网络攻击的风险。此外,该数据集还可用于网络安全培训和教育,帮助安全分析师更好地理解加密流量中的恶意行为特征。
数据集最近研究
最新研究方向
近年来,随着网络加密通信的广泛应用,恶意软件通过加密通道传播的现象日益增多,传统的恶意流量检测方法面临巨大挑战。针对这一背景,研究者们开始探索如何在不解密网络流量的情况下,利用可解释的人工智能(XAI)技术进行恶意流量检测。最新的研究方向集中在多视角特征提取与集成学习模型的结合上,通过从加密通信的多个维度提取特征,如握手信息、证书数据、时间间隔和包长度等,构建高效的检测模型。特别是,基于Shapley Additive Explanations(SHAP)的全局和局部解释方法,能够揭示模型决策的关键特征,如最大包大小、平均包到达间隔时间和TLS版本等,从而提升模型的透明度和可靠性。此外,研究者还提出了包含1127个恶意流量样本的自定义数据集,涵盖54个恶意软件家族,为加密恶意流量检测提供了丰富的实验数据。这些研究不仅推动了加密恶意流量检测技术的发展,还为网络安全领域的模型可解释性提供了新的思路。
相关研究论文
  • 1
    Integrating Explainable AI for Effective Malware Detection in Encrypted Network Traffic巴里大学计算机科学系, 意大利 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

NASA Battery Dataset

用于预测电池健康状态的数据集,由NASA提供。

github 收录

HUSTgearbox

This reposotory release a gearbox failure dataset, which can support intelliegnt fault diagnosis research

github 收录

NOAA ISD

NOAA ISD(Integrated Surface Database)是由美国国家海洋和大气管理局(NOAA)维护的一个全球气象数据集。该数据集包含了从全球各地气象站收集的气象观测数据,包括温度、湿度、风速、气压等气象参数。数据涵盖了从1929年至今的长时间跨度,是气象研究和气候分析的重要数据来源。

www.ncei.noaa.gov 收录