Network Classification Benchmark Dataset

Name: Network Classification Benchmark Dataset
Creator: São Carlos Institute of Physics, University of São Paulo
Published: 2025-06-07 04:22:22
License: 暂无描述

arXiv2025-06-07 更新2025-06-11 收录

下载链接：

http://scg.ifsc.usp.br/networksbenchmarks

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由合成网络组成，这些网络被分类为不同的类别和子类别，旨在测试不同网络分类方法的有效性和鲁棒性。数据集包括4,200个网络，分布在四个类别中，每个类别又进一步分为不同的子类别。数据集还包括四种类型的结构噪声，用于测试特征提取方法在噪声环境下的性能。

This dataset comprises synthetic networks classified into distinct classes and subclasses, with the purpose of testing the effectiveness and robustness of various network classification approaches. It contains 4,200 networks distributed across four categories, each of which is further subdivided into various subclasses. Additionally, the dataset includes four types of structural noise, which are designed to evaluate the performance of feature extraction methods in noisy environments.

提供机构：

São Carlos Institute of Physics, University of São Paulo

创建时间：

2025-06-07

搜集汇总

数据集介绍

构建方式

该数据集通过精心设计的合成网络构建，涵盖了随机网络、小世界网络、几何网络和无标度网络四大类，每类进一步细分为不同子类，共计4,200个网络。网络规模从100到1,000个节点不等，平均度数介于4至22之间。为评估分类方法的鲁棒性，研究团队还引入了四种结构噪声（链接添加、链接移除、链接组合和链接交换），并设置了10%至100%共十个噪声等级，最终生成16,800个含噪网络版本。

特点

数据集具有多层级分类体系与可控噪声环境两大核心特征。其网络类别覆盖了Erdős-Rényi、Watts-Strogatz等经典模型，以及Barabási-Albert变体等现代网络类型，形成4类11子类的完整体系。通过精确调控的噪声注入机制，数据集能够模拟真实网络中的结构扰动，为评估算法在噪声条件下的稳定性提供了标准化测试平台。特别设计的Deterministic Tourist Walk with Bifurcation（DTWB）特征提取方法在该数据集上表现出色，达到99.5%的类别分类准确率。

使用方法

研究者可通过三种典型方式使用该数据集：首先进行无噪声环境下的基准测试，采用留一法交叉验证评估特征提取方法（如DTWB、LLNA或Graph2Vec）的分类性能；其次通过噪声数据集验证算法的抗干扰能力，比较不同噪声强度下的准确率衰减曲线；最后可开展跨类别迁移学习实验，探究特征表示方法在异质网络类型间的泛化能力。数据集配套提供标准化的SVM分类流程与评估指标，确保实验结果的可比性。

背景与挑战

背景概述

Network Classification Benchmark Dataset是由Joao V. Merenda等人于2025年提出的一个创新性基准数据集，旨在评估网络分类方法的有效性和鲁棒性。该数据集由人工合成的网络组成，涵盖了随机网络、小世界网络、几何网络和无标度网络等四大类，并进一步细分为多个子类。研究团队来自圣保罗大学的人工智能与复杂系统实验室，致力于解决复杂网络分析中的模式识别和分类问题。该数据集的推出为网络科学领域的研究提供了重要的基准工具，尤其在噪声环境下评估分类算法的性能方面具有显著影响力。

当前挑战

该数据集主要应对网络分类领域的两个核心挑战：一是如何在不同类型的网络结构中提取有效的特征表示，二是如何在存在结构噪声的情况下保持分类的准确性。构建过程中面临的挑战包括：1)设计具有代表性的合成网络以覆盖真实网络的多样性；2)引入可控的结构噪声模拟现实场景；3)开发能够同时处理大类和小类分类任务的评估框架。实验结果表明，传统拓扑特征在噪声环境下表现不佳，而基于确定性旅游漫步和网络自动机的方法展现出更强的鲁棒性。

常用场景

经典使用场景

Network Classification Benchmark Dataset 是网络科学领域的一项重要资源，专门用于评估和比较不同网络分类方法的性能。该数据集包含四类合成网络（随机网络、小世界网络、几何网络和无标度网络），每类网络进一步细分为多个子类。其经典使用场景包括测试特征提取方法（如确定性游客游走、类生命网络自动机等）在无噪声和高噪声环境下的分类准确性和鲁棒性。通过系统化的实验设计，该数据集为研究人员提供了一个标准化平台，用于验证新型网络分类算法的有效性。

衍生相关工作

该数据集衍生了多项经典工作，包括确定性分叉游客游走（DTWB）的优化及其在网络多尺度特征提取中的应用。基于数据集的实验结果，后续研究进一步探索了图嵌入技术（如Graph2Vec）与动态游走方法的融合，提升了跨领域网络的迁移学习能力。此外，类生命自动机（LLNA）的状态密度时间演化模式（SDTEP）被扩展用于时序网络分析，推动了动态网络表征学习的发展。这些衍生工作显著丰富了复杂网络模式识别的技术体系。

数据集最近研究