BeGIN (Benchmarking for Graphs with Instance-dependent Noise)

Name: BeGIN (Benchmarking for Graphs with Instance-dependent Noise)
Creator: POSTECH, Pohang, South Korea and Korea University, Seoul, South Korea
Published: 2025-06-14 20:14:15
License: 暂无描述

arXiv2025-06-14 更新2025-06-19 收录

下载链接：

https://github.com/kimsu55/BeGIN

下载链接

链接失效反馈

官方服务：

资源简介：

BeGIN是一个包含10个具有不同噪声类型的图数据集的新基准，用于评估各种噪声处理策略在图神经网络（GNN）架构、噪声标签检测和噪声鲁棒学习方面的表现。该数据集通过算法方法和大型语言模型（LLM）模拟来模拟实例依赖性噪声，旨在提供更接近现实世界噪声的图数据集，并促进图学习中标签噪声研究的发展。

BeGIN is a novel benchmark consisting of 10 graph datasets with distinct noise types, intended to evaluate a range of noise handling strategies across graph neural network (GNN) architectures, noisy label detection, and noise-robust learning. This dataset simulates instance-dependent noise through both algorithmic approaches and large language model (LLM) based simulations, with the goal of providing graph datasets that more closely resemble real-world noise distributions and advancing the development of label noise research in graph learning.

提供机构：

POSTECH, Pohang, South Korea and Korea University, Seoul, South Korea

创建时间：

2025-06-14

原始信息汇总

BeGIN 数据集概述

数据集简介

BeGIN 是一个提供带有实例依赖性标签噪声的图数据集的基准测试平台。该数据集包含10个图数据集，涵盖六种不同的噪声类型，并提供了多种噪声处理策略的评估基准。

标签噪声类型

噪声类型	类依赖性	实例依赖性（拓扑）	实例依赖性（特征）
Uniform	✔
Pairwise	✔
Feature	✔		✔
Topology	✔	✔
Confidence	✔	✔	✔
LLM			✔

内置数据集

类别	Cora-ML	WikiCS	Product-s	Children	History	Photo	Cornell	Texas	Washington	Wisconsin
类别数量	7	10	44	24	12	12	5	5	5	5
节点数量	2,995	11,701	54,025	76,875	41,551	48,362	191	187	229	265
边数量	8,158	216,123	74,420	1,554,578	358,574	500,939	292	310	394	510
节点同质性	0.810	0.659	0.790	0.464	0.784	0.790	0.116	0.067	0.162	0.151
LLM噪声率	0.306	0.309	0.303	0.575	0.322	0.356	0.272	0.246	0.314	0.283

功能模块

噪声标签检测器：帮助识别图数据集中的错误标签数据。
噪声鲁棒学习：提供预配置的训练流程，支持多种噪声鲁棒模型的训练和比较。

使用方法

数据集生成： python from dataset.BeGINdataset import NoisyGraphDataset, NoisyProducts, NoisyCoraML, NoisyWikiCS from dataset.noisify import noisify_dataset noisy_dataset = NoisyGraphDataset(root=./data, name=cornell) noisy_label, transition_matrix = noisify_dataset(noisy_dataset, noise_type=topology)
噪声标签检测： python python train_detector.py --data cora_ml --noise_type llm --method gcn --device cuda
噪声鲁棒模型训练： python python train_noise_robust.py --data cora_ml --noise_type llm --method clnode --device cuda

环境配置

python conda create -n begin python=3.11 conda activate begin conda install pytorch==2.1.0 numpy==1.26.4 pytorch-cuda=12.1 -c pytorch -c nvidia conda install pyg -c pyg pip install torch_sparse==0.6.18+pt21cu121 -f https://data.pyg.org/whl/torch-2.1.0+cu121.html pip install torch_cluster==1.6.3+pt21cu121 -f https://data.pyg.org/whl/torch-2.1.0+cu121.html pip install torch_scatter==2.1.2+pt21cu121 -f https://data.pyg.org/whl/torch-2.1.0+cu121.html pip install huggingface-hub ruamel.yaml nltk pandas nni pyyaml matplotlib

搜集汇总

数据集介绍

构建方式

BeGIN数据集通过算法方法和基于大型语言模型（LLM）的模拟，系统地引入了实例依赖的标签噪声。具体而言，该数据集采用了三种噪声建模策略：基于图拓扑的噪声、基于节点特征的噪声和基于模型预测置信度的噪声。此外，还利用LLM模拟真实世界中人类标注错误，特别是在文本信息对标注过程有重要影响的场景中。通过这些方法，BeGIN在10个真实世界的图数据集上生成了六种不同类型的噪声，涵盖了多种领域和特征，确保了噪声模拟的广泛性和真实性。

特点

BeGIN数据集的特点在于其多样化的噪声类型和广泛的覆盖范围。该数据集不仅包含了传统的类别依赖噪声（如均匀噪声和成对噪声），还引入了更为复杂的实例依赖噪声，这些噪声能够更好地反映真实世界中的标注错误模式。此外，BeGIN还涵盖了多种图数据集，包括引文网络、电子商务和网页等，这些数据集在节点数量、平均度数和同质性比率等方面具有多样性。通过这种设计，BeGIN能够全面评估图神经网络（GNN）在不同噪声类型和数据集上的表现，为研究噪声鲁棒性提供了丰富的实验环境。

使用方法

BeGIN数据集的使用方法主要包括噪声标签检测和噪声鲁棒学习两个方面。在噪声标签检测方面，研究者可以利用损失轨迹分析或监督检测器来识别和排除噪声标签。在噪声鲁棒学习方面，BeGIN提供了多种GNN架构和噪声处理策略的评估基准，包括噪声鲁棒训练方法和图结构增强技术。此外，研究者还可以通过BeGIN提供的噪声类型和数据集，系统地评估不同噪声处理策略的有效性和效率。该数据集的目标是为图数据中的标签噪声研究提供一个标准化的评估平台，促进鲁棒GNN训练方法的发展。

背景与挑战

背景概述

BeGIN (Benchmarking for Graphs with Instance-dependent Noise) 是由韩国浦项科技大学（POSTECH）和韩国高丽大学（Korea University）的研究团队于2025年提出的一个专注于图数据中实例依赖标签噪声的基准数据集。该数据集的创建旨在解决图神经网络（GNNs）在真实世界数据中因标签噪声导致的性能下降问题。传统研究多集中于类别依赖的标签噪声，而忽略了实例依赖噪声的复杂性，BeGIN通过引入多种噪声类型（包括基于拓扑、特征、置信度的算法噪声以及基于大语言模型（LLM）的噪声模拟）填补了这一空白。该数据集包含10个不同领域的图数据，涵盖引文网络、电子商务和网页等多种场景，为研究噪声鲁棒的图学习方法提供了重要资源。

当前挑战

BeGIN数据集面临的挑战主要包括两方面：1) 领域问题的挑战：实例依赖噪声的复杂性远超类别依赖噪声，尤其是LLM生成的噪声具有结构化误标和偏斜的噪声模式，导致GNN模型性能显著下降。此外，图数据中节点间的消息传递机制会放大噪声的传播效应，进一步加剧模型鲁棒性问题。2) 构建过程的挑战：模拟真实世界的实例依赖噪声需要综合考虑节点特征、图拓扑和上下文模糊性等多种因素，技术难度较高。LLM生成的噪声虽然更接近真实标注错误，但其模型依赖性和过自信问题可能导致噪声模式偏离真实分布。此外，异配图（heterophilic graphs）中邻域标签不一致的特性，使得基于拓扑一致性的噪声检测方法面临反向适用的特殊挑战。

常用场景

经典使用场景

BeGIN数据集在节点分类任务中展现出广泛的应用价值，尤其在处理现实世界中带有实例依赖性标签噪声的图数据时表现突出。该数据集通过模拟多种噪声类型（包括基于拓扑、特征、置信度及大语言模型生成的噪声），为研究者提供了丰富的实验场景。其经典使用场景包括评估图神经网络（GNN）在不同噪声环境下的鲁棒性，例如对比GraphSAGE、GCN等模型在LLM生成的复杂噪声模式中的性能差异。数据集覆盖的领域从学术引用网络到电子商务，确保了研究结论的普适性。

解决学术问题

BeGIN解决了图数据学习中的核心挑战——标签噪声的实例依赖性建模问题。传统方法假设噪声仅与类别相关，而该数据集通过算法和LLM模拟真实标注错误（如语义歧义导致的误标），填补了现有基准的空白。其实验揭示了拓扑噪声对异质图的显著影响、特征噪声在同质图中的传播规律，以及LLM噪声因结构性偏置带来的特殊挑战。这些发现推动了对GNN消息传递机制中误差累积的理论研究，并为噪声鲁棒性方法（如中心节点参数分离）提供了实证依据。

衍生相关工作

BeGIN催生了多个图噪声学习的重要研究方向：1）基于课程学习的CLNode方法通过评估节点难度逐步优化训练流程；2）对比学习框架CRGNN利用噪声样本构建正负对比对；3）自注意力机制RNCGLN通过动态权重分配减少噪声传播。这些工作均以BeGIN为基准验证其有效性，形成了从噪声检测（如损失轨迹分析）到鲁棒训练（如图结构增强）的完整方法体系，推动了图学习在医疗诊断、金融风控等噪声敏感领域的应用进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集