five

CoOAG|动态图学习数据集|节点分类数据集

收藏
arXiv2025-04-24 更新2025-04-26 收录
动态图学习
节点分类
下载链接:
https://github.com/3205914485/FLiD
下载链接
链接失效反馈
资源简介:
CoOAG数据集是由西安交通大学的研究人员创建的,用于动态图学习。它捕捉了学术合作网络中的研究兴趣的动态特性,提供了丰富的测试平台,用于评估PTCL方法的有效性。数据集的设计旨在解决动态图节点分类问题,特别是当只有最终时间戳标签可用时。该数据集在多个现实场景中进行了实验,证明了PTCL方法在捕捉节点时间演化的能力方面的优越性。
提供机构:
西安交通大学
创建时间:
2025-04-24
原始信息汇总

FLiD 数据集概述

数据集基本信息

关键特性

  • 架构:

    • 双模型EM优化与伪标签增强
    • 支持多种范式(CFT, DLS, NPL, SEM, PTCL-2D, PTCL)
    • 支持多种伪标签增强方法(CST, EST, Temporal Curriculum Learning)
    • 支持多种骨干模型(TGAT, TGN, GraphMixer, TCL, DyGFormer)
  • 数据集支持:

    数据集 节点数 边数 持续时间 类别数
    Wikipedia 9,227 157,474 1个月 2
    Reddit 10,984 672,447 1个月 2
    Dsub 150,000 168,154 1年 2
    CoOAG 9,559 114,337 22年 5

使用方法

  • 数据预处理: 使用preprocess脚本处理数据
  • 训练步骤:
    1. 预热阶段:
      • 配置模型名称、GPU、数据集、伪标签阈值等参数
    2. 训练阶段:
      • 选择训练方法(PTCL, SEM, NPL等)
      • 设置数据集、伪标签权重、超参数等

方法比较

方法 EM步骤 伪标签策略 关键特性
CFT 复制最终标签 基线方法
DLS 全监督 动态标签
NPL 联合优化生成伪标签 单阶段训练
SEM 完整 两阶段生成伪标签 标准EM实现
PTCL 完整 E-step生成伪标签 双阶段EM + 时间过滤
PTCL-2D 完整 双解码器架构 防止确认偏差

评估指标

  • 跟踪指标: AUC, Accuracy, Loss
  • 示例输出: json { "AUC": 0.892, "Accuracy": 0.814, "Loss": 0.423 }

存储结构

FLiD/ ├── models/ # 骨干模型 ├── logs/ # 训练日志 ├── results/ # 训练结果 ├── saved_models/ # 模型检查点 ├── process_data/ # 预处理工具 ├── processed_data/ # 预处理数据集 ├── PTCL/ # EM实现 ├── NPL/ # NPL实现 ├── SEM/ # SEM实现 └── utils/ # 基础设施

引用

bibtex @article{ptcl2025, title={PTCL: Pseudo-Label Temporal Curriculum Learning for Label-Limited Dynamic Graph}, author={Shengtao Zhang, Haokai Zhang, Shiqi Lou, Zicheng Wang, Zinan Zeng, Yilin Wang, Minnan Luo}, year={2025} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
CoOAG数据集构建基于学术合作网络,通过从Open Academic Graph 2.1中提取顶级AI会议出版物数据,并采用结构化提示与Qwen-Plus API对作者研究领域进行分类。研究兴趣标签通过论文研究领域(FoS)和摘要内容确定,涵盖计算机视觉、自然语言处理等五个类别。边特征通过连接论文元数据和摘要生成,节点特征则计算为作者所有论文特征的平均值。时间戳由会议提交截止日期决定,确保了时间一致性。
使用方法
该数据集适用于动态图节点分类任务,特别适合研究有限标签条件下的动态学习。使用时应先进行时间划分,以最终时间戳标签作为监督信号。建议采用PTCL框架中的变分EM算法,通过时序课程学习策略逐步整合历史伪标签。对于模型评估,需严格遵循论文设计的基于最终时间戳的划分方案,采用准确率(ACC)作为多分类任务的评估指标。
背景与挑战
背景概述
CoOAG数据集由西安交通大学的研究团队于2025年提出,旨在解决动态图学习中标签有限条件下的节点分类问题。该数据集基于学术合作网络构建,捕捉了研究者长期研究兴趣的动态演变,包含9,559个节点和114,337条边,时间跨度长达22年。作为PTCL方法的核心验证平台,CoOAG填补了现有动态图数据集在细粒度时序标签标注方面的空白,其创新性地采用Qwen-Plus API对论文研究领域进行智能分类,通过结构化提示和加权关键词匹配实现了98.3%的标注准确率。该数据集推动了动态图神经网络在学术影响力分析、研究兴趣演化追踪等场景的应用研究。
当前挑战
CoOAG数据集面临双重挑战:在领域问题层面,需解决动态图中仅含最终时间戳标签的节点分类难题,传统方法因无法捕捉标签时序演变而性能受限;在构建层面,研究领域的动态标注需克服学术概念模糊性(如CV与ROB的交叉领域),且长周期数据(22年)带来学者研究方向突变与渐进演变的区分困难。具体挑战包括:1) 标签噪声处理,早期时间戳的伪标签质量直接影响模型性能;2) 时序课程学习中的权重衰减系数优化,需平衡近期标签可靠性与历史信息利用率;3) 异构学术特征的统一编码,需融合论文摘要、FoS等多模态数据。
常用场景
经典使用场景
CoOAG数据集在动态图学习领域具有广泛的应用价值,尤其在学术合作网络的动态节点分类任务中表现突出。该数据集通过捕捉学者研究兴趣的长期演变,为研究动态图模型提供了丰富的数据支持。其经典使用场景包括学者研究兴趣的动态预测、学术合作网络的演化分析以及跨领域合作的模式识别。数据集中的时间戳信息与学术论文发表时间严格对应,使得研究者能够精确追踪学者研究方向的转变过程。
解决学术问题
CoOAG数据集有效解决了动态图学习中标签稀缺的核心挑战。在现实场景中,获取每个时间步的完整动态标签成本高昂且不切实际,而该数据集通过提供最终时间戳标签,为开发半监督学习方法创造了条件。其创新性的标签设计使研究者能够探索动态图节点分类中的时序依赖关系,解决了传统方法因忽略标签动态性而导致的性能瓶颈问题。该数据集还推动了课程学习策略在动态图领域的应用,为处理标签不确定性提供了新的研究思路。
实际应用
在实际应用层面,CoOAG数据集为学术推荐系统和科研趋势分析提供了重要支撑。基于该数据集构建的模型可应用于学术搜索引擎的个性化推荐,通过分析学者研究兴趣的演化轨迹,实现精准的论文和合作者推荐。此外,该数据集还能辅助科研管理机构识别新兴研究领域,分析学科交叉趋势,为科研决策提供数据支持。在学术不端检测方面,数据集的时间动态特性有助于识别异常的合作模式和研究方向突变。
数据集最近研究
最新研究方向
近年来,CoOAG数据集在动态图学习领域引起了广泛关注,特别是在学术合作网络的动态节点分类任务中。该数据集通过捕捉学者研究兴趣的长期演变,为研究动态图模型提供了丰富的实验平台。前沿研究方向主要集中在如何利用有限的最终时间戳标签进行动态节点分类,以及如何通过伪标签技术和课程学习策略提升模型性能。PTCL方法通过时间解耦架构和时间课程学习策略,显著提升了动态节点分类的准确性,为金融欺诈检测和学术兴趣演化分析等实际应用提供了有力支持。CoOAG数据集的引入不仅填补了学术合作网络动态标签数据的空白,还推动了动态图学习领域的标准化评估框架FLiD的发展。
相关研究论文
  • 1
    PTCL: Pseudo-Label Temporal Curriculum Learning for Label-Limited Dynamic Graph西安交通大学 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

China Family Panel Studies (CFPS)

Please visit CFPS official data platform to download the newest data, WeChat official account of CFPS: ISSS_CFPS. The CFPS 2010 baseline survey conducted face-to-face interviews with the sampled households’ family members who live in the sample communities. It also interviewed those family members who were elsewhere in the same county. For those who were not present at home at the time of interview, basic information was collected from their family members at presence. All family members who had blood/marital/adoptive ties with the household were identified as permanent respondents. Prospective family members including new-borns and adopted children.

DataCite Commons 收录

HAM10000

HAM10000数据集是一个全面收集的皮肤镜图像集合,用于皮肤病变分类,广泛应用于医学影像和机器学习领域。该数据集包含多种皮肤病变,旨在推动皮肤病学研究,特别是皮肤癌的诊断。数据集由10,000张高分辨率的皮肤病变图像组成,来源多样,有助于训练稳健的机器学习模型,使其能够很好地泛化到未见过的数据。数据集的主要挑战是其显著的不平衡性。

github 收录