CoOAG

Name: CoOAG
Creator: 西安交通大学
Published: 2025-04-24T23:11:41+08:00

arXiv2025-04-24 更新2025-04-26 收录

动态图学习

节点分类

数据链接：

https://github.com/3205914485/FLiD 数据链接链接失效反馈

官方服务：

资源简介：

CoOAG数据集是由西安交通大学的研究人员创建的，用于动态图学习。它捕捉了学术合作网络中的研究兴趣的动态特性，提供了丰富的测试平台，用于评估PTCL方法的有效性。数据集的设计旨在解决动态图节点分类问题，特别是当只有最终时间戳标签可用时。该数据集在多个现实场景中进行了实验，证明了PTCL方法在捕捉节点时间演化的能力方面的优越性。

The CoOAG dataset was developed by researchers from Xi'an Jiaotong University for dynamic graph learning. It captures the dynamic properties of research interests within academic collaboration networks, serving as a robust testbed for evaluating the efficacy of the PTCL method. The dataset is designed to tackle dynamic graph node classification tasks, particularly in scenarios where only labels from the final timestamp are available. It has been validated across multiple real-world scenarios, demonstrating the superiority of the PTCL method in capturing the temporal evolution of nodes.

提供机构：

西安交通大学

创建时间：

2025-04-24

原始信息汇总

FLiD 数据集概述

数据集基本信息

名称: FLiD (Framework for Label-Limited Dynamic Node Classification)
用途: 动态图学习框架，适用于仅具有最终时间戳标签的场景
相关论文: PTCL: Pseudo-Label Temporal Curriculum Learning for Label-Limited Dynamic Graph
许可证: MIT License

关键特性

架构:
- 双模型EM优化与伪标签增强
- 支持多种范式（CFT, DLS, NPL, SEM, PTCL-2D, PTCL）
- 支持多种伪标签增强方法（CST, EST, Temporal Curriculum Learning）
- 支持多种骨干模型（TGAT, TGN, GraphMixer, TCL, DyGFormer）
数据集支持:

数据集节点数边数持续时间类别数

Wikipedia 9,227 157,474 1个月 2

Reddit 10,984 672,447 1个月 2

Dsub 150,000 168,154 1年 2

CoOAG 9,559 114,337 22年 5

使用方法

数据预处理: 使用preprocess脚本处理数据
训练步骤:
1. 预热阶段:
  - 配置模型名称、GPU、数据集、伪标签阈值等参数
2. 训练阶段:
  - 选择训练方法（PTCL, SEM, NPL等）
  - 设置数据集、伪标签权重、超参数等

方法比较

方法	EM步骤	伪标签策略	关键特性
CFT	无	复制最终标签	基线方法
DLS	无	全监督	动态标签
NPL	无	联合优化生成伪标签	单阶段训练
SEM	完整	两阶段生成伪标签	标准EM实现
PTCL	完整	E-step生成伪标签	双阶段EM + 时间过滤
PTCL-2D	完整	双解码器架构	防止确认偏差

评估指标

跟踪指标: AUC, Accuracy, Loss
示例输出: json { "AUC": 0.892, "Accuracy": 0.814, "Loss": 0.423 }

存储结构

FLiD/ ├── models/ # 骨干模型 ├── logs/ # 训练日志 ├── results/ # 训练结果 ├── saved_models/ # 模型检查点 ├── process_data/ # 预处理工具 ├── processed_data/ # 预处理数据集 ├── PTCL/ # EM实现 ├── NPL/ # NPL实现 ├── SEM/ # SEM实现 └── utils/ # 基础设施

引用

bibtex @article{ptcl2025, title={PTCL: Pseudo-Label Temporal Curriculum Learning for Label-Limited Dynamic Graph}, author={Shengtao Zhang, Haokai Zhang, Shiqi Lou, Zicheng Wang, Zinan Zeng, Yilin Wang, Minnan Luo}, year={2025} }

搜集汇总

数据集介绍

构建方式

CoOAG数据集构建基于学术合作网络，通过从Open Academic Graph 2.1中提取顶级AI会议出版物数据，并采用结构化提示与Qwen-Plus API对作者研究领域进行分类。研究兴趣标签通过论文研究领域（FoS）和摘要内容确定，涵盖计算机视觉、自然语言处理等五个类别。边特征通过连接论文元数据和摘要生成，节点特征则计算为作者所有论文特征的平均值。时间戳由会议提交截止日期决定，确保了时间一致性。

使用方法

该数据集适用于动态图节点分类任务，特别适合研究有限标签条件下的动态学习。使用时应先进行时间划分，以最终时间戳标签作为监督信号。建议采用PTCL框架中的变分EM算法，通过时序课程学习策略逐步整合历史伪标签。对于模型评估，需严格遵循论文设计的基于最终时间戳的划分方案，采用准确率（ACC）作为多分类任务的评估指标。

背景与挑战

背景概述

CoOAG数据集由西安交通大学的研究团队于2025年提出，旨在解决动态图学习中标签有限条件下的节点分类问题。该数据集基于学术合作网络构建，捕捉了研究者长期研究兴趣的动态演变，包含9,559个节点和114,337条边，时间跨度长达22年。作为PTCL方法的核心验证平台，CoOAG填补了现有动态图数据集在细粒度时序标签标注方面的空白，其创新性地采用Qwen-Plus API对论文研究领域进行智能分类，通过结构化提示和加权关键词匹配实现了98.3%的标注准确率。该数据集推动了动态图神经网络在学术影响力分析、研究兴趣演化追踪等场景的应用研究。

当前挑战

CoOAG数据集面临双重挑战：在领域问题层面，需解决动态图中仅含最终时间戳标签的节点分类难题，传统方法因无法捕捉标签时序演变而性能受限；在构建层面，研究领域的动态标注需克服学术概念模糊性（如CV与ROB的交叉领域），且长周期数据（22年）带来学者研究方向突变与渐进演变的区分困难。具体挑战包括：1) 标签噪声处理，早期时间戳的伪标签质量直接影响模型性能；2) 时序课程学习中的权重衰减系数优化，需平衡近期标签可靠性与历史信息利用率；3) 异构学术特征的统一编码，需融合论文摘要、FoS等多模态数据。

常用场景

经典使用场景

CoOAG数据集在动态图学习领域具有广泛的应用价值，尤其在学术合作网络的动态节点分类任务中表现突出。该数据集通过捕捉学者研究兴趣的长期演变，为研究动态图模型提供了丰富的数据支持。其经典使用场景包括学者研究兴趣的动态预测、学术合作网络的演化分析以及跨领域合作的模式识别。数据集中的时间戳信息与学术论文发表时间严格对应，使得研究者能够精确追踪学者研究方向的转变过程。

解决学术问题

CoOAG数据集有效解决了动态图学习中标签稀缺的核心挑战。在现实场景中，获取每个时间步的完整动态标签成本高昂且不切实际，而该数据集通过提供最终时间戳标签，为开发半监督学习方法创造了条件。其创新性的标签设计使研究者能够探索动态图节点分类中的时序依赖关系，解决了传统方法因忽略标签动态性而导致的性能瓶颈问题。该数据集还推动了课程学习策略在动态图领域的应用，为处理标签不确定性提供了新的研究思路。

实际应用

在实际应用层面，CoOAG数据集为学术推荐系统和科研趋势分析提供了重要支撑。基于该数据集构建的模型可应用于学术搜索引擎的个性化推荐，通过分析学者研究兴趣的演化轨迹，实现精准的论文和合作者推荐。此外，该数据集还能辅助科研管理机构识别新兴研究领域，分析学科交叉趋势，为科研决策提供数据支持。在学术不端检测方面，数据集的时间动态特性有助于识别异常的合作模式和研究方向突变。

数据集最近研究