Amazon Computers, Amazon Photo, Coauthor CS, Coauthor Physics, Cora, CiteSeer, PubMed

Name: Amazon Computers, Amazon Photo, Coauthor CS, Coauthor Physics, Cora, CiteSeer, PubMed
Creator: 耶鲁大学
Published: 2024-12-09 11:09:04
License: 暂无描述

arXiv2024-12-09 更新2024-12-11 收录

下载链接：

http://arxiv.org/abs/2412.06173v1

下载链接

链接失效反馈

官方服务：

资源简介：

本文研究了七个常用的图学习数据集，包括Amazon Computers、Amazon Photo、Coauthor CS、Coauthor Physics、Cora、CiteSeer和PubMed。这些数据集主要用于图神经网络的基准测试，涵盖了社交网络、合作网络和引文网络等多种类型。数据集大小适中，具有小世界现象，适合进行图结构分析。研究通过对比MLP和图神经网络在这些数据集上的表现，发现MLP在某些数据集上表现出色，甚至超过了图神经网络，表明这些数据集的特征已经包含了足够的图信息，使得图结构的使用变得不那么必要。研究还提出了新的合成数据集，旨在更好地评估图神经网络的性能。

This paper investigates seven widely-used graph learning datasets, including Amazon Computers, Amazon Photo, Coauthor CS, Coauthor Physics, Cora, CiteSeer, and PubMed. These datasets are primarily employed for benchmarking graph neural networks (GNNs), covering diverse types such as social networks, co-authorship networks, and citation networks. With moderate scale and the small-world phenomenon, these datasets are well-suited for graph structure analysis. By comparing the performance of Multi-Layer Perceptrons (MLPs) and GNNs on these datasets, this study finds that MLPs deliver outstanding performance on certain datasets and even outperform GNNs, indicating that the node features of these datasets already encompass sufficient graph-related information, making the utilization of graph structures less necessary. Additionally, this paper proposes a novel synthetic dataset intended to better evaluate the performance of graph neural networks.

提供机构：

耶鲁大学

创建时间：

2024-12-09

搜集汇总

数据集介绍

构建方式

该数据集由七个广泛使用的图学习基准组成，包括Amazon Computers、Amazon Photo、Coauthor CS、Coauthor Physics、Cora、CiteSeer和PubMed。这些数据集的构建基于真实的社交网络和学术引用网络，涵盖了从商品购买到学术合作的多种场景。数据集中的节点特征和图结构分别编码了节点的个体信息和节点间的交互关系。通过这些数据集，研究者可以评估图神经网络在节点分类和链接预测等任务中的表现。

特点

这些数据集的特点在于其广泛的应用背景和多样化的图结构。Amazon Computers和Amazon Photo数据集反映了商品购买行为中的共现关系，而Coauthor CS和Coauthor Physics则展示了学术合作中的共著关系。Cora、CiteSeer和PubMed数据集则代表了学术引用网络中的引用关系。这些数据集不仅具有丰富的节点特征，还包含了复杂的图结构，使得它们成为图学习领域的经典基准。

使用方法

这些数据集主要用于图神经网络的训练和评估，特别是在节点分类和链接预测任务中。研究者可以通过加载这些数据集，使用图卷积网络（GCN）、图注意力网络（GAT）等图神经网络模型进行训练。此外，数据集的节点特征和图结构可以分别用于特征提取和图结构分析，帮助研究者更好地理解图数据的内在关系。通过对比不同模型的性能，研究者可以评估图结构在不同任务中的重要性，并为图神经网络的设计提供指导。

背景与挑战

背景概述

近年来，图机器学习在深度学习领域中占据了重要地位，尤其是在处理具有图结构的数据时，如图神经网络（GNNs）的应用。这些数据类型包括社交网络、知识图谱中的概念关系、自然科学现象以及视觉交互等。图神经网络通过图邻域聚合层（通常通过消息传递模型实现），使得节点特征能够以一种系统化的方式相互作用。Amazon Computers、Amazon Photo、Coauthor CS、Coauthor Physics、Cora、CiteSeer和PubMed等数据集是图学习领域中广泛使用的基准数据集，这些数据集展示了现实世界中的图结构，并且具有小世界现象，适合作为图神经网络的基准测试。

当前挑战

尽管这些数据集在图学习领域中被广泛使用，但研究表明，节点特征本身往往已经包含了足够的图结构信息，以至于在某些情况下，图结构的使用并不显著提升模型性能。具体挑战包括：1) 节点特征中已经包含了图结构信息，导致图结构的使用在某些数据集上效果不明显；2) 构建过程中，如何设计能够真正依赖图结构的数据集，以避免节点特征“泄露”图信息，成为一个关键问题。此外，现有的基准数据集在评估图神经网络性能时，可能存在系统性调参不足的问题，导致基准性能被低估。

常用场景

经典使用场景

该数据集主要用于图机器学习领域的基准测试，特别是在节点分类和链接预测任务中。这些数据集如Amazon Computers、Amazon Photo、Coauthor CS、Coauthor Physics、Cora、CiteSeer和PubMed，广泛应用于图神经网络（GNN）的研究中，用于评估模型在处理图结构数据时的性能。

实际应用

这些数据集在实际应用中广泛用于社交网络分析、推荐系统、知识图谱构建等领域。例如，在社交网络中，这些数据集可用于预测用户之间的互动关系；在推荐系统中，它们可以帮助识别用户可能感兴趣的商品或内容；在知识图谱中，这些数据集有助于推断实体之间的关系。

衍生相关工作

基于这些数据集的研究衍生了许多相关工作，包括对图神经网络架构的改进、图结构与节点特征交互的深入分析，以及设计更复杂的合成数据集以测试图学习方法的有效性。例如，研究者提出了基于Watts-Strogatz模型的合成数据集，用于评估图结构在不同任务中的必要性，并探讨了图神经网络在处理复杂图结构时的性能瓶颈。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集