Wiki-CS|图神经网络数据集|基准测试数据集

github2024-05-09 更新2024-05-31 收录

图神经网络

基准测试

下载链接：

https://github.com/pmernyei/wiki-cs-dataset

下载链接

链接失效反馈

资源简介：

Wiki-CS是一个基于Wikipedia的数据集，用于图神经网络的基准测试。该数据集包含节点特征、邻接列表、标签和数据集分割，支持节点分类和链接预测等任务。

Wiki-CS is a Wikipedia-based dataset designed for benchmarking graph neural networks. The dataset includes node features, adjacency lists, labels, and dataset splits, supporting tasks such as node classification and link prediction.

创建时间：

2019-10-19

原始信息汇总

数据集概述

数据集名称

Wiki-CS

数据集用途

用于基准测试图神经网络（Graph Neural Networks）。

数据集内容

节点特征：包含在dataset/data.json文件中。
邻接列表：包含在dataset/data.json文件中。
标签：包含在dataset/data.json文件中，每个标签对应一个类别名称。
数据集分割：提供20种不同的训练分割，以避免对特定小集的训练节点过拟合。
元数据：包含在dataset/metadata.json文件中，描述节点来源和用于特征的文本内容，以及标签对应的类别名称。

数据集加载

通过PyTorch Geometric加载：使用torch_geometric.datasets.WikiCS类。
从文件加载：参考experiments/linkprediction/load_wiki.py和experiments/node_classification/load_graph_data.py。

实验

节点分类：支持模型包括svm, mlp, gcn, gat, appnp。
链接预测：包含SVM和VGAE的基准测试。

引用信息

@article{mernyei2020wiki, title={Wiki-CS: A Wikipedia-Based Benchmark for Graph Neural Networks}, author={Mernyei, P{e}ter and Cangea, C{u{a}}t{u{a}}lina}, journal={arXiv preprint arXiv:2007.02901}, year={2020} }

AI搜集汇总

数据集介绍

构建方式

Wiki-CS数据集以维基百科为基础，通过提取和整理维基百科页面中的文本内容和超链接结构，构建了一个用于图神经网络基准测试的数据集。该数据集的构建过程包括使用`wikiextractor`工具提取文章文本数据，通过`mysqldump-to-csv`处理超链接数据，并结合`Wikipedia category sanitizer`对类别标签进行清洗和标准化。最终，数据集以节点特征、邻接列表、标签和数据分割的形式呈现，提供了20种不同的训练分割，以支持半监督节点分类任务的标准化评估。

特点

Wiki-CS数据集的主要特点在于其基于维基百科的真实数据，具有丰富的文本特征和复杂的图结构。数据集提供了20种不同的训练分割，有效避免了模型对特定训练节点的过拟合问题。此外，数据集支持节点分类和链接预测任务，适用于多种图神经网络模型的基准测试。节点特征和标签的元数据详细描述了每个节点的来源及其对应的维基百科页面内容，增强了数据集的可解释性。

使用方法

使用Wiki-CS数据集时，可以通过PyTorch Geometric库中的`torch_geometric.datasets.WikiCS`类直接加载数据集。数据集文件中包含了节点特征、邻接列表、标签以及20种不同的训练分割。用户可以通过加载`dataset/data.json`文件获取数据集的向量化表示，并通过`dataset/metadata.json`文件获取节点和标签的元数据。实验部分提供了节点分类和链接预测的参考代码，用户可以根据需要调整超参数并运行相应的实验脚本。

背景与挑战

背景概述

Wiki-CS数据集是由Mernyei和Cangea于2020年创建的，旨在为图神经网络（Graph Neural Networks, GNNs）提供一个基于维基百科的基准测试平台。该数据集通过整合维基百科的页面内容和超链接结构，构建了一个包含节点特征、邻接列表和标签的图数据集。其核心研究问题是如何在半监督学习框架下，利用图神经网络进行节点分类和链接预测。Wiki-CS的推出为图神经网络的研究提供了新的实验平台，特别是在处理大规模图数据时，如何有效提取和利用节点特征成为研究的重点。

当前挑战

Wiki-CS数据集在构建过程中面临多个挑战。首先，如何从维基百科的庞大内容中提取有用的节点特征和标签，确保数据的准确性和代表性，是一个技术难题。其次，数据集提供了20种不同的训练分割，以避免模型对特定训练集的过拟合，这要求研究者在实验中进行多重验证和结果平均，增加了实验的复杂性。此外，在节点分类和链接预测任务中，如何设计高效的图神经网络模型，以应对图结构数据的复杂性和多样性，也是当前研究的主要挑战。

常用场景

经典使用场景

Wiki-CS数据集作为基于维基百科的图神经网络基准，其经典使用场景主要集中在图神经网络的节点分类和链接预测任务上。通过提供20种不同的训练分割，该数据集允许研究者在半监督学习框架下对节点分类模型进行标准化评估，从而有效避免过拟合问题。此外，Wiki-CS还支持多种图神经网络模型的实验，如GCN、GAT和APPNP等，为研究者提供了丰富的实验平台。

解决学术问题

Wiki-CS数据集解决了图神经网络领域中常见的过拟合问题，特别是在半监督节点分类任务中，通过提供多样化的训练分割，确保模型在不同数据集上的泛化能力。此外，该数据集还为链接预测任务提供了基准，帮助研究者评估不同模型在图结构数据上的表现。其意义在于推动了图神经网络的标准化评估，为学术界提供了统一的实验平台。

衍生相关工作

基于Wiki-CS数据集，研究者们开展了多项经典工作，包括改进的图卷积网络（GCN）、图注意力网络（GAT）和近似个性化路径推理网络（APPNP）等。这些工作不仅在节点分类和链接预测任务上取得了显著进展，还为图神经网络的理论研究提供了新的视角。此外，Wiki-CS还激发了其他基于维基百科的图数据集的开发，进一步推动了图神经网络在实际应用中的发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

微博与抖音评论数据集

数据集源自微博平台与抖音平台的评论信息，基于两个热点事件来对评论等信息进行爬取收集形成数据集。原数据一共3W5条，但消极评论与中立评论远远大于积极评论。因此作特殊处理后，积极数据2601条，消极数据2367条，中立数据2725条，共7693条数据。

github 收录