DNS-tunnelling-detection-by-fusing-encoding-feature-and-behavioral-feature

github2024-05-08 更新2024-05-31 收录

下载链接：

https://github.com/Utah1A/DNS-tunnelling-detection-by-fusing-encoding-feature-and-behavioral-feature

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由天津大学可信软件实验室联合企业内部安全实验室共同构建，用于研究DNS隧道检测。数据集包含基础数据集和泛化测试集两部分，采用pcap格式存储。基础数据集通过访问Alexa排名前1K网站的子域名获取可信站点子网站，并在校内实验室环境中采集良性DNS样本。恶意样本部分则使用开源贡献的DNS隧道流量，模拟环境中使用8种不同的DNS隧道工具收集。泛化测试集从一家安全企业的办公网络中获取，用于测试模型的鲁棒性。

This dataset was jointly constructed by the Trusted Software Laboratory of Tianjin University and an internal security laboratory of a corporate entity, aimed at researching DNS tunnel detection. The dataset comprises two parts: a foundational dataset and a generalization test set, both stored in pcap format. The foundational dataset was created by accessing subdomains of the top 1K websites according to Alexa rankings to obtain trusted sub-sites, and benign DNS samples were collected within the laboratory environment on campus. The malicious samples were gathered using open-source contributed DNS tunnel traffic, employing eight different DNS tunneling tools in a simulated environment. The generalization test set was acquired from the office network of a security company, intended to test the robustness of the model.

创建时间：

2024-05-08

原始信息汇总

DNS-tunnelling-detection-by-fusing-encoding-feature-and-behavioral-feature 数据集概述

数据集构建

合作单位：天津大学可信软件实验室与企业内部安全实验室。
数据集用途：用于文章《DNS tunnelling detection by fusing encoding feature and behavioral feature》研究。

数据集内容

基础数据集

良性样本：通过查询Alexa排名前1K网站的子域名，获取10万个可信站点子网站，并在校内实验室环境中采集良性DNS样本。
恶意样本：采用开源贡献的DNS隧道流量，使用8种不同DNS隧道工具（如iodine, dnscat2等）在模拟环境中收集。

泛化测试数据集

良性样本：从安全企业的办公网络中获取手动筛选的DNS数据包。
恶意样本：收集了150个黑客常用的命令，用于Linux和Windows系统上的内网渗透，通过不同的DNS隧道工具获取。

数据集格式

存储格式：使用PCAP格式存储数据。
IP地址：数据集中的IP地址仅限于独立组网环境，与现实网络中的IP无关。

注意事项

数据集可能包含非DNS协议的packets，解析时需注意过滤。

引用信息

引用文献：Tu Y, Liu S, Sun Q. DNS tunnelling detection by fusing encoding feature and behavioral feature[J]. Computers & Security, 2023:132.

搜集汇总

数据集介绍

构建方式

该数据集由天津大学可信软件实验室与企业内部安全实验室联合构建，旨在通过融合编码特征与行为特征来检测DNS隧道。数据集包含基础数据集和泛化测试集两部分，均以pcap格式存储。基础数据集通过透明证书查询Alexa排名前1000网站的子域名，获取10万个可信站点子网站，并在实验室环境中采集良性DNS样本。同时，采用开源贡献的DNS隧道流量作为恶意样本，这些流量通过8种不同的DNS隧道工具在模拟环境中收集。泛化测试集则从企业办公网络中手动筛选DNS数据包，并引入更具挑战性的恶意样本，以测试模型在复杂环境中的鲁棒性。

特点

该数据集的显著特点在于其样本的多样性和真实性。基础数据集通过实验室环境采集的良性样本与开源贡献的恶意样本相结合，确保了样本的广泛覆盖。泛化测试集进一步从企业网络中获取数据，增强了数据集在复杂环境中的适用性。此外，数据集中的恶意样本不仅包含心跳数据包，还引入了实际攻击负载，如黑客常用的150个命令，从而更真实地模拟了DNS隧道的攻击场景。

使用方法

使用该数据集时，用户需注意pcap文件中可能包含的非DNS协议数据包，需进行过滤处理。数据集可用于训练和测试DNS隧道检测模型，特别是那些依赖于编码特征和行为特征的模型。用户可通过解析pcap文件提取所需的DNS流量特征，并结合其他特征工程方法进行模型训练。此外，数据集的泛化测试集部分可用于评估模型在不同网络环境中的表现，以确保模型的鲁棒性和泛化能力。

背景与挑战

背景概述

DNS隧道检测是网络安全领域的重要研究方向，旨在识别通过DNS协议进行的隐蔽通信。天津大学可信软件实验室与企业内部安全实验室联合构建了这一数据集，旨在通过融合编码特征与行为特征来提升DNS隧道检测的准确性。该数据集基于2023年发表的研究论文《DNS tunnelling detection by fusing encoding feature and behavioral feature》，其核心研究问题是如何在复杂网络环境中有效识别DNS隧道行为。通过采集Alexa排名前1000网站的子域名以及使用多种DNS隧道工具生成的恶意流量，该数据集为研究者提供了一个全面的实验平台，推动了DNS隧道检测技术的发展。

当前挑战

该数据集在构建过程中面临多项挑战。首先，良性样本的采集需要在受限的校园环境中进行，难以全面代表真实网络环境，因此需要通过手动筛选扩展样本集。其次，恶意样本的生成依赖于模拟环境中的DNS隧道工具，如何确保这些工具生成的流量与真实攻击场景一致是一个难题。此外，数据集中包含的非DNS协议数据包增加了数据解析的复杂性，研究者需在解析时进行有效过滤。最后，如何在更复杂的环境中测试模型的鲁棒性，尤其是面对真实攻击负载时的表现，是该数据集面临的主要挑战之一。

常用场景

经典使用场景

该数据集的经典使用场景主要集中在DNS隧道检测领域，通过融合编码特征和行为特征，研究人员能够构建高效的检测模型。具体而言，数据集中的良性DNS流量样本和恶意DNS隧道流量样本为模型训练提供了丰富的数据支持，使得模型能够在复杂的网络环境中准确识别和区分正常与异常的DNS流量。

衍生相关工作

基于该数据集，研究人员已开展了一系列相关工作，包括改进DNS隧道检测算法、优化特征提取方法以及开发新型检测模型。这些工作不仅提升了检测的准确性和效率，还为DNS隧道检测技术的标准化和实际部署提供了理论和实践支持。

数据集最近研究