CoOAG|动态图学习数据集|节点分类数据集
收藏FLiD 数据集概述
数据集基本信息
- 名称: FLiD (Framework for Label-Limited Dynamic Node Classification)
- 用途: 动态图学习框架,适用于仅具有最终时间戳标签的场景
- 相关论文: PTCL: Pseudo-Label Temporal Curriculum Learning for Label-Limited Dynamic Graph
- 许可证: MIT License
关键特性
-
架构:
- 双模型EM优化与伪标签增强
- 支持多种范式(CFT, DLS, NPL, SEM, PTCL-2D, PTCL)
- 支持多种伪标签增强方法(CST, EST, Temporal Curriculum Learning)
- 支持多种骨干模型(TGAT, TGN, GraphMixer, TCL, DyGFormer)
-
数据集支持:
数据集 节点数 边数 持续时间 类别数 Wikipedia 9,227 157,474 1个月 2 Reddit 10,984 672,447 1个月 2 Dsub 150,000 168,154 1年 2 CoOAG 9,559 114,337 22年 5
使用方法
- 数据预处理: 使用
preprocess脚本处理数据 - 训练步骤:
- 预热阶段:
- 配置模型名称、GPU、数据集、伪标签阈值等参数
- 训练阶段:
- 选择训练方法(PTCL, SEM, NPL等)
- 设置数据集、伪标签权重、超参数等
- 预热阶段:
方法比较
| 方法 | EM步骤 | 伪标签策略 | 关键特性 |
|---|---|---|---|
| CFT | 无 | 复制最终标签 | 基线方法 |
| DLS | 无 | 全监督 | 动态标签 |
| NPL | 无 | 联合优化生成伪标签 | 单阶段训练 |
| SEM | 完整 | 两阶段生成伪标签 | 标准EM实现 |
| PTCL | 完整 | E-step生成伪标签 | 双阶段EM + 时间过滤 |
| PTCL-2D | 完整 | 双解码器架构 | 防止确认偏差 |
评估指标
- 跟踪指标: AUC, Accuracy, Loss
- 示例输出: json { "AUC": 0.892, "Accuracy": 0.814, "Loss": 0.423 }
存储结构
FLiD/ ├── models/ # 骨干模型 ├── logs/ # 训练日志 ├── results/ # 训练结果 ├── saved_models/ # 模型检查点 ├── process_data/ # 预处理工具 ├── processed_data/ # 预处理数据集 ├── PTCL/ # EM实现 ├── NPL/ # NPL实现 ├── SEM/ # SEM实现 └── utils/ # 基础设施
引用
bibtex @article{ptcl2025, title={PTCL: Pseudo-Label Temporal Curriculum Learning for Label-Limited Dynamic Graph}, author={Shengtao Zhang, Haokai Zhang, Shiqi Lou, Zicheng Wang, Zinan Zeng, Yilin Wang, Minnan Luo}, year={2025} }

- 1PTCL: Pseudo-Label Temporal Curriculum Learning for Label-Limited Dynamic Graph西安交通大学 · 2025年
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
WideIRSTD Dataset
WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。
github 收录
China Family Panel Studies (CFPS)
Please visit CFPS official data platform to download the newest data, WeChat official account of CFPS: ISSS_CFPS. The CFPS 2010 baseline survey conducted face-to-face interviews with the sampled households’ family members who live in the sample communities. It also interviewed those family members who were elsewhere in the same county. For those who were not present at home at the time of interview, basic information was collected from their family members at presence. All family members who had blood/marital/adoptive ties with the household were identified as permanent respondents. Prospective family members including new-borns and adopted children.
DataCite Commons 收录
HAM10000
HAM10000数据集是一个全面收集的皮肤镜图像集合,用于皮肤病变分类,广泛应用于医学影像和机器学习领域。该数据集包含多种皮肤病变,旨在推动皮肤病学研究,特别是皮肤癌的诊断。数据集由10,000张高分辨率的皮肤病变图像组成,来源多样,有助于训练稳健的机器学习模型,使其能够很好地泛化到未见过的数据。数据集的主要挑战是其显著的不平衡性。
github 收录
