five

PDNS-Net

收藏
arXiv2022-03-15 更新2024-06-21 收录
下载链接:
https://github.com/qcri/PDNSNet
下载链接
链接失效反馈
官方服务:
资源简介:
PDNS-Net是由斯里兰卡科伦坡大学和卡塔尔计算研究机构共同创建的大型异构图数据集,包含447,000个节点和897,000条边,用于恶意域名分类任务。该数据集通过被动DNS数据收集构建,涵盖了2021年10月的互联网域名解析信息。PDNS-Net不仅规模远超同类数据集,还提供了详细的数据收集方法、异构图构建、描述性统计和初步的图分类性能分析。该数据集的应用领域主要集中在网络安全,特别是用于改进图学习算法在大型异构图上的性能,解决恶意域名识别等问题。

PDNS-Net is a large-scale heterogeneous graph dataset jointly created by the University of Colombo in Sri Lanka and the Qatar Computing Research Institute. It contains 447,000 nodes and 897,000 edges, and is designed for malicious domain classification tasks. This dataset is constructed via passive DNS data collection, covering Internet domain name resolution information from October 2021. PDNS-Net not only far exceeds similar datasets in scale, but also provides detailed data collection methods, heterogeneous graph construction procedures, descriptive statistics, and preliminary graph classification performance analyses. Its application fields mainly focus on cybersecurity, specifically for improving the performance of graph learning algorithms on large-scale heterogeneous graphs and solving problems such as malicious domain name identification.
提供机构:
斯里兰卡科伦坡大学
创建时间:
2022-03-15
搜集汇总
数据集介绍
main_image_url
构建方式
PDNS-Net数据集的构建,始于恶意域名种子集合的收集,这些种子来自VirusTotal平台。随后,利用Farsight PDNS服务对恶意域名进行域名-IP解析的扩展,进而构建出一个包含域名、IP、子域名等多种节点类型及它们之间关系的异质知识图谱。在图构造过程中,对域名节点进行特征提取,并对整个图进行修剪,以降低噪声。最后,为满足不同规模实验需求,还构建了一个较小的子图版本mPDNS-Net。
特点
PDNS-Net数据集的特点在于其规模宏大、异质性以及针对恶意域名分类任务的专业设计。它不仅包含了大量的节点和边,而且整合了多种不同类型的节点和复杂的关系,这使得该数据集在理解和学习大型异质图方面具有独特的价值。此外,该数据集还提供了丰富的节点特征和预定义的元路径,为图学习算法的研究和开发提供了便利。
使用方法
使用PDNS-Net数据集时,研究者可以采用不同的图神经网络模型来进行恶意域名分类任务。该数据集提供了两种规模版本,研究者可以根据自身需求选择合适的版本。在模型训练过程中,可以利用数据集中的预定义特征和元路径来辅助模型学习。此外,该数据集也支持通过随机游走的方式进行子图采样,以适应不同的模型和实验设置。
背景与挑战
背景概述
PDNS-Net数据集,由Udesh Kumarasinghe、Fatih Deniz和Mohamed Nabeel等研究人员于2022年创建,是一个包含447K节点和897K边的异质图数据集,旨在用于恶意域名分类任务。该数据集的构建基于2021年10月的被动DNS数据收集,是目前公开的最大的异质图数据集,比IMDB和DBLP数据集分别大38倍和17倍。PDNS-Net的创建填补了大规模异质图数据集的空白,为图学习算法的研究提供了新的资源和挑战。
当前挑战
PDNS-Net数据集在构建过程中遇到的挑战主要包括:1)如何从大规模的DNS数据中提取有效的异质图结构;2)如何为异质图中的不同节点和边类型设计合适的特征表示;3)当前图神经网络模型在处理大规模异质图时的性能限制。在解决的问题方面,PDNS-Net数据集的挑战包括:1)异质图分类任务的挑战,例如如何利用图结构有效地区分恶意域名和良性域名;2)构建过程中的技术挑战,例如数据采集、图构建和特征提取等环节的技术难题。
常用场景
经典使用场景
PDNS-Net作为一个大规模异质图数据集,其经典使用场景在于为恶意域名分类任务提供支持。通过构建包含域名、IP、子域名等多种类型的节点以及它们之间复杂关系的异质图,该数据集使得研究者能够在大型异质图上进行图学习算法的训练和评估,进而提高恶意域名检测的准确性。
解决学术问题
PDNS-Net解决了现有 benchmark 数据集中异质图数据稀缺的问题,特别是为恶意域名分类这一学术研究提供了丰富的数据资源。它填补了当前研究中大型异质图数据集的空白,有助于推动图学习算法在异质图上的研究和应用。
衍生相关工作
PDNS-Net的发布促进了相关领域的研究,衍生出了一系列相关工作。例如,基于PDNS-Net的恶意域名检测系统、网络攻击模式识别算法等,这些工作进一步拓展了PDNS-Net的应用范围,推动了网络安全领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作