five

Blogcatalog, Citeseer, Cora, Cornell, Flickr, Pubmed, Texas, UAI2010, Washington, Wisconsin, Email, Wiki, ACM, Amazon, DBLP, IMDB, Cellphone, DBLP, Dynamic_cora, highSchool, Java

收藏
github2024-04-11 更新2024-05-31 收录
下载链接:
https://github.com/GDM-SCNU/Datasets
下载链接
链接失效反馈
官方服务:
资源简介:
该仓库包含多种类型的网络数据集,如复杂网络、拓扑网络、多层网络和动态网络,用于社区检测、图神经网络等研究。

This repository encompasses a variety of network datasets, including complex networks, topological networks, multilayer networks, and dynamic networks, which are utilized for research in community detection, graph neural networks, and related fields.
创建时间:
2022-06-23
原始信息汇总

数据集概述

数据集分类

复杂网络

  • Blogcatalog
  • Citeseer
  • Cora
  • Cornell
  • Flickr
  • Pubmed
  • Texas
  • UAI2010
  • Washington
  • Wisconsin

拓扑网络

  • Email
  • Wiki

多层网络

  • ACM
  • Amazon
  • DBLP
  • IMDB

动态网络

  • Cellphone
  • DBLP
  • Dynamic_cora
  • highSchool
  • Java

重叠复杂网络

数据集格式

  • name: 数据集名称
  • topo: 拓扑结构,类型为csr_matrix
  • attr: 属性信息,类型为csr_matrix
  • label: 标签信息,类型为csr_matrix,n×k矩阵,1表示隶属于该社区,否则为0

数据集文件名示例

  • Fb_X: Facebook X
  • mag_chem: Chemistry
  • mag_cs: Computer Science
  • mag_med: Medicine
  • mag_end: Engineering

数据集特征

  1. 所有数据集均包含节点自环。
  2. 数据集中,除标签外,其余矩阵仅包含1或0。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建方式主要基于多种网络类型的收集与整理,涵盖了复杂网络、拓扑网络、多重网络以及动态网络等多种形式。每个数据集均通过特定的网络结构和节点属性进行描述,并附带相应的标签信息,以标识节点所属的社区。数据集的构建过程中,确保了节点自环的存在,并且所有矩阵(除标签外)仅包含1或0标志,以简化数据处理和分析的复杂性。
特点
该数据集的显著特点在于其多样性和广泛的应用领域。它包含了多种类型的网络数据,如复杂网络、拓扑网络、多重网络和动态网络,适用于不同的研究需求。此外,数据集中的每个节点都附带有详细的属性信息和标签,便于进行社区检测和网络分析。数据集的格式统一,便于加载和处理,且所有数据均带有节点自环,确保了网络的完整性。
使用方法
使用该数据集时,用户可以通过Python的pickle库加载所需的数据集文件。加载后的数据集包含多个关键字段,如'name'(数据集名称)、'topo'(拓扑结构)、'attr'(节点属性)和'label'(节点标签)。这些字段以csr_matrix格式存储,便于进行高效的矩阵运算和网络分析。用户可以根据具体的研究需求,选择合适的数据集进行加载和分析,从而实现对网络结构和社区关系的深入研究。
背景与挑战
背景概述
在复杂网络研究领域,Blogcatalog、Citeseer、Cora等数据集的创建为社区检测和网络分析提供了宝贵的资源。这些数据集由多个知名机构和研究人员共同开发,旨在解决复杂网络中的社区结构识别问题。通过提供多样化的网络拓扑和属性信息,这些数据集为研究者提供了深入探索网络结构与功能关系的平台。特别是,这些数据集的发布时间集中在2010年代,标志着复杂网络研究进入了一个新的阶段,对推动图神经网络和社区检测算法的发展起到了关键作用。
当前挑战
这些数据集在构建和应用过程中面临多项挑战。首先,复杂网络的异质性和动态性使得社区检测算法的设计和验证变得复杂。其次,数据集的构建需要处理大量的原始数据,确保数据的准确性和一致性,这是一个耗时且技术要求高的过程。此外,如何在保持数据隐私和安全的前提下,提供足够的信息以支持研究,也是一个重要的挑战。最后,随着网络规模的增大,如何高效地存储和处理这些大规模数据集,对计算资源和算法性能提出了更高的要求。
常用场景
经典使用场景
这些数据集在复杂网络分析领域中具有广泛的应用,尤其是在社区检测和图神经网络的研究中。例如,Cora数据集常用于节点分类任务,通过分析节点的属性和拓扑结构,研究者可以训练模型以预测节点的标签。此外,Flickr和Blogcatalog数据集则常用于社交网络分析,帮助研究者理解用户行为和社区结构。
实际应用
在实际应用中,这些数据集被广泛用于社交网络分析、推荐系统和网络安全等领域。例如,Email和Wiki数据集可用于分析组织内部的通信模式,帮助优化工作流程和提高沟通效率。此外,Amazon和ACM数据集在电子商务和学术推荐系统中也有广泛应用,通过分析用户行为和兴趣,提供个性化的推荐服务。
衍生相关工作
基于这些数据集,研究者们开发了多种图神经网络模型和社区检测算法。例如,Oleksandr S.和Günnemann S.在2019年提出的重叠社区检测方法,就是基于这些数据集进行验证和优化的。此外,这些数据集还促进了动态网络和多层网络分析的研究,推动了复杂网络理论的进一步发展。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务