five

Wiki-CS

收藏
github2024-05-09 更新2024-05-31 收录
下载链接:
https://github.com/pmernyei/wiki-cs-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Wiki-CS是一个基于Wikipedia的数据集,用于图神经网络的基准测试。该数据集包含节点特征、邻接列表、标签和数据集分割,支持节点分类和链接预测等任务。

Wiki-CS is a Wikipedia-based dataset designed for benchmarking graph neural networks. The dataset includes node features, adjacency lists, labels, and dataset splits, supporting tasks such as node classification and link prediction.
创建时间:
2019-10-19
原始信息汇总

数据集概述

数据集名称

Wiki-CS

数据集用途

用于基准测试图神经网络(Graph Neural Networks)。

数据集内容

  • 节点特征:包含在dataset/data.json文件中。
  • 邻接列表:包含在dataset/data.json文件中。
  • 标签:包含在dataset/data.json文件中,每个标签对应一个类别名称。
  • 数据集分割:提供20种不同的训练分割,以避免对特定小集的训练节点过拟合。
  • 元数据:包含在dataset/metadata.json文件中,描述节点来源和用于特征的文本内容,以及标签对应的类别名称。

数据集加载

  • 通过PyTorch Geometric加载:使用torch_geometric.datasets.WikiCS类。
  • 从文件加载:参考experiments/linkprediction/load_wiki.pyexperiments/node_classification/load_graph_data.py

实验

  • 节点分类:支持模型包括svm, mlp, gcn, gat, appnp
  • 链接预测:包含SVM和VGAE的基准测试。

引用信息

@article{mernyei2020wiki, title={Wiki-CS: A Wikipedia-Based Benchmark for Graph Neural Networks}, author={Mernyei, P{e}ter and Cangea, C{u{a}}t{u{a}}lina}, journal={arXiv preprint arXiv:2007.02901}, year={2020} }

搜集汇总
数据集介绍
main_image_url
构建方式
Wiki-CS数据集以维基百科为基础,通过提取和整理维基百科页面中的文本内容和超链接结构,构建了一个用于图神经网络基准测试的数据集。该数据集的构建过程包括使用`wikiextractor`工具提取文章文本数据,通过`mysqldump-to-csv`处理超链接数据,并结合`Wikipedia category sanitizer`对类别标签进行清洗和标准化。最终,数据集以节点特征、邻接列表、标签和数据分割的形式呈现,提供了20种不同的训练分割,以支持半监督节点分类任务的标准化评估。
特点
Wiki-CS数据集的主要特点在于其基于维基百科的真实数据,具有丰富的文本特征和复杂的图结构。数据集提供了20种不同的训练分割,有效避免了模型对特定训练节点的过拟合问题。此外,数据集支持节点分类和链接预测任务,适用于多种图神经网络模型的基准测试。节点特征和标签的元数据详细描述了每个节点的来源及其对应的维基百科页面内容,增强了数据集的可解释性。
使用方法
使用Wiki-CS数据集时,可以通过PyTorch Geometric库中的`torch_geometric.datasets.WikiCS`类直接加载数据集。数据集文件中包含了节点特征、邻接列表、标签以及20种不同的训练分割。用户可以通过加载`dataset/data.json`文件获取数据集的向量化表示,并通过`dataset/metadata.json`文件获取节点和标签的元数据。实验部分提供了节点分类和链接预测的参考代码,用户可以根据需要调整超参数并运行相应的实验脚本。
背景与挑战
背景概述
Wiki-CS数据集是由Mernyei和Cangea于2020年创建的,旨在为图神经网络(Graph Neural Networks, GNNs)提供一个基于维基百科的基准测试平台。该数据集通过整合维基百科的页面内容和超链接结构,构建了一个包含节点特征、邻接列表和标签的图数据集。其核心研究问题是如何在半监督学习框架下,利用图神经网络进行节点分类和链接预测。Wiki-CS的推出为图神经网络的研究提供了新的实验平台,特别是在处理大规模图数据时,如何有效提取和利用节点特征成为研究的重点。
当前挑战
Wiki-CS数据集在构建过程中面临多个挑战。首先,如何从维基百科的庞大内容中提取有用的节点特征和标签,确保数据的准确性和代表性,是一个技术难题。其次,数据集提供了20种不同的训练分割,以避免模型对特定训练集的过拟合,这要求研究者在实验中进行多重验证和结果平均,增加了实验的复杂性。此外,在节点分类和链接预测任务中,如何设计高效的图神经网络模型,以应对图结构数据的复杂性和多样性,也是当前研究的主要挑战。
常用场景
经典使用场景
Wiki-CS数据集作为基于维基百科的图神经网络基准,其经典使用场景主要集中在图神经网络的节点分类和链接预测任务上。通过提供20种不同的训练分割,该数据集允许研究者在半监督学习框架下对节点分类模型进行标准化评估,从而有效避免过拟合问题。此外,Wiki-CS还支持多种图神经网络模型的实验,如GCN、GAT和APPNP等,为研究者提供了丰富的实验平台。
解决学术问题
Wiki-CS数据集解决了图神经网络领域中常见的过拟合问题,特别是在半监督节点分类任务中,通过提供多样化的训练分割,确保模型在不同数据集上的泛化能力。此外,该数据集还为链接预测任务提供了基准,帮助研究者评估不同模型在图结构数据上的表现。其意义在于推动了图神经网络的标准化评估,为学术界提供了统一的实验平台。
衍生相关工作
基于Wiki-CS数据集,研究者们开展了多项经典工作,包括改进的图卷积网络(GCN)、图注意力网络(GAT)和近似个性化路径推理网络(APPNP)等。这些工作不仅在节点分类和链接预测任务上取得了显著进展,还为图神经网络的理论研究提供了新的视角。此外,Wiki-CS还激发了其他基于维基百科的图数据集的开发,进一步推动了图神经网络在实际应用中的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作