Noise Graph Dataset

github2023-10-23 更新2024-05-31 收录

下载链接：

https://github.com/xuqiongkai/NoiseGraphDataset

下载链接

链接失效反馈

官方服务：

资源简介：

包含用于顶点分类任务的图数据集，包括带有合成噪声边的修改版本。数据集格式包括多个从不同来源收集的数据集，每个数据集都有一个前缀，并遵循特定的文件夹结构和文件命名规则。数据集组件包括内容、引用、元数据等，以及不同程度的噪声变体。具体数据集如Cora、Citeseer和WebKB等，每个都有详细的描述和分类。

This dataset encompasses graph datasets tailored for vertex classification tasks, including modified versions with synthetically introduced noisy edges. The dataset format comprises multiple datasets collected from diverse sources, each prefixed and adhering to a specific folder structure and file naming convention. Components of the dataset include content, citations, metadata, and variants with varying levels of noise. Specific datasets such as Cora, Citeseer, and WebKB are included, each accompanied by detailed descriptions and classifications.

创建时间：

2017-08-12

原始信息汇总

数据集概述

数据集名称

Noise Graph Dataset

数据集用途

用于顶点分类任务的图数据集，包括带有合成噪声边的修改版本。

数据集格式

数据集包含多个来自不同来源的子数据集，每个子数据集都有一个prefix作为标识。数据集的文件结构和文件名遵循特定规则，包括以下组件：

prefix.content: 原始数据内容，以制表符分隔，每行描述一个文档，包含一个热编码的词向量，指示相应词在特定文档中的存在/不存在，首尾元素分别表示文档ID和类别标签。
prefix.cites: 链接数据，以制表符分隔，每行表示一个单一的边，两个元素分别表示由该链接连接的两个顶点。
prefix.meta: 该数据集中所有可能类别标签的字典。
prefix.label (可选): 从内容文件解析的标签，每行包含制表符分隔的条目ID和类别标签。
prefix.feature (可选): 序列化的特征矩阵，格式为torch.Tensor。

噪声变体

prefix.cites.add5: 链接数据，额外添加5%的随机链接。
prefix.cites.add10: 链接数据，额外添加10%的随机链接。
prefix.cites.reduce5: 链接数据，随机移除5%的原始链接。
prefix.cites.reduce10: 链接数据，随机移除10%的原始链接。

包含的数据集

Cora
- 顶点数: 2708 (科学出版物)
- 边数: 5429 (引用)
- 类别数: 7
- 类别包括: Rule Learning, Genetic Algorithms, Reinforcement Learning, Neural Networks, Probabilistic Methods, Case Based, Theory
Citeseer
- 顶点数: 3312 (科学出版物)
- 边数: 4723 (引用)
- 类别数: 6
- 类别包括: Agents, AI, DB, IR, ML, HCI
WebKB
- 顶点数: 877 (网页)
- 边数: 1608 (超链接)
- 类别数: 5
- 类别包括: faculty, students, project, course, other

致谢

使用此数据集的研究应引用相关出版物。

搜集汇总

数据集介绍

构建方式

Noise Graph Dataset 的构建基于多个来源的图数据集，每个数据集通过特定的前缀进行标识，并按照统一的文件夹结构和文件命名规则组织。数据集的核心文件包括 `prefix.content`、`prefix.cites` 和 `prefix.meta`，分别存储文档内容、引用关系和类别标签信息。此外，为了研究噪声对图数据的影响，该数据集还生成了多种噪声变体，如 `prefix.cites.add5` 和 `prefix.cites.reduce10`，分别表示在原数据基础上增加或减少一定比例的随机边。

特点

Noise Graph Dataset 的特点在于其多样性和灵活性。它不仅包含了经典的图数据集如 Cora、Citeseer 和 WebKB，还通过引入合成噪声边的方式扩展了数据集的适用范围。这些噪声变体为研究图神经网络在噪声环境下的鲁棒性提供了丰富的实验场景。每个数据集均以结构化形式存储，便于直接用于顶点分类任务，且支持多种格式的输入，如稀疏矩阵和张量形式。

使用方法

使用 Noise Graph Dataset 时，用户可根据任务需求选择原始数据集或其噪声变体。数据集的文件结构清晰，用户可通过读取 `prefix.content` 获取文档特征，通过 `prefix.cites` 获取图结构信息，并通过 `prefix.meta` 获取类别标签。对于噪声变体，用户可通过 `prefix.cites.add5` 等文件加载带有噪声的图结构。该数据集可直接用于图神经网络模型的训练和评估，尤其适合研究噪声对模型性能的影响。

背景与挑战

背景概述

Noise Graph Dataset 是一个专注于图数据分类任务的数据集，特别针对顶点分类问题。该数据集由多个子数据集组成，包括Cora、Citeseer和WebKB等经典图数据集，并在此基础上引入了合成噪声边以模拟真实世界中的噪声环境。该数据集的创建源于对图神经网络（GNN）在噪声环境下鲁棒性研究的迫切需求，旨在为研究人员提供一个标准化的测试平台。主要研究人员包括Qiongkai Xu等人，其相关研究成果发表于2017年的ACM信息与知识管理会议（CIKM）。该数据集不仅推动了图神经网络在噪声环境下的性能评估，还为图数据的鲁棒性研究提供了重要支持。

当前挑战

Noise Graph Dataset 的核心挑战在于如何有效处理图数据中的噪声问题。首先，图数据中的噪声边可能显著影响顶点分类任务的准确性，尤其是在高噪声比例的情况下，传统的图神经网络模型可能难以保持稳定的性能。其次，数据集的构建过程中，如何合理引入和量化噪声边是一个技术难点，需要在保持图结构基本特性的同时，模拟真实场景中的噪声分布。此外，不同数据集（如Cora、Citeseer和WebKB）的异质性也增加了模型泛化能力的评估难度，要求研究人员开发更具适应性的算法以应对多样化的图数据场景。

常用场景

经典使用场景

Noise Graph Dataset 主要用于图神经网络（GNN）中的顶点分类任务。该数据集通过引入合成噪声边，模拟真实世界中的噪声数据，帮助研究者评估和提升模型在噪声环境下的鲁棒性。经典的使用场景包括在Cora、Citeseer和WebKB等标准图数据集上进行顶点分类实验，验证模型在噪声干扰下的性能表现。

实际应用

Noise Graph Dataset 在实际应用中具有广泛的价值。例如，在社交网络分析中，噪声边的存在可能导致错误的社区划分或推荐结果。通过使用该数据集，研究者可以设计出能够有效过滤噪声的算法，提升社交网络分析的准确性。此外，该数据集还可用于生物信息学中的蛋白质相互作用网络分析，帮助识别噪声边对关键蛋白质功能预测的影响。

衍生相关工作

基于 Noise Graph Dataset，研究者们提出了多种改进的图神经网络模型。例如，Xu 等人（2017）提出的基于注意力机制的图递归神经网络（Attentive Graph-based Recursive Neural Network），通过引入注意力机制来增强模型对噪声数据的处理能力。此外，该数据集还激发了大量关于图神经网络鲁棒性研究的经典工作，推动了图神经网络在噪声环境下的应用与发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集