SauravMaheshkar/pareto-coauthor-cs

Name: SauravMaheshkar/pareto-coauthor-cs
Creator: SauravMaheshkar
Published: 2024-02-14 17:37:49
License: 暂无描述

Hugging Face2024-02-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SauravMaheshkar/pareto-coauthor-cs

下载链接

链接失效反馈

官方服务：

资源简介：

--- size_categories: - 1K<n<10K task_categories: - graph-ml license: cc --- ## Dataset Information | # Nodes | # Edges | # Features | |:-------:|:-------:|:----------:| | 18,333 | 81,894 | 6,805 | Pre-processed as per the official codebase of https://arxiv.org/abs/2210.02016 ## Citations ``` @article{ju2023multi, title={Multi-task Self-supervised Graph Neural Networks Enable Stronger Task Generalization}, author={Ju, Mingxuan and Zhao, Tong and Wen, Qianlong and Yu, Wenhao and Shah, Neil and Ye, Yanfang and Zhang, Chuxu}, booktitle={International Conference on Learning Representations}, year={2023} } ```

规模类别： - 1000 < n < 10000 任务类别： - 图机器学习（graph-ml）许可证： - 知识共享（CC） --- ## 数据集信息 | 节点数 | 边数 | 特征数 | |:-------:|:-------:|:----------:| | 18,333 | 81,894 | 6,805 | 本数据集已按照论文https://arxiv.org/abs/2210.02016的官方代码库完成预处理。 ## 引用 @article{ju2023multi, title={多任务自监督图神经网络实现更强的任务泛化能力}, author={Ju, Mingxuan and Zhao, Tong and Wen, Qianlong and Yu, Wenhao and Shah, Neil and Ye, Yanfang and Zhang, Chuxu}, booktitle={国际学习表征会议}, year={2023} }

提供机构：

SauravMaheshkar

原始信息汇总

数据集信息

大小分类

1K<n<10K

任务分类

图机器学习 (graph-ml)

许可

CC 许可

详细信息

# 节点	# 边	# 特征
18,333	81,894	6,805

预处理

根据官方代码库进行预处理，参考文献：https://arxiv.org/abs/2210.02016

引用

@article{ju2023multi, title={Multi-task Self-supervised Graph Neural Networks Enable Stronger Task Generalization}, author={Ju, Mingxuan and Zhao, Tong and Wen, Qianlong and Yu, Wenhao and Shah, Neil and Ye, Yanfang and Zhang, Chuxu}, booktitle={International Conference on Learning Representations}, year={2023} }

搜集汇总

数据集介绍

构建方式

在计算机科学领域的合作网络分析中，SauravMaheshkar/pareto-coauthor-cs数据集通过精心设计的数据预处理流程构建而成。该数据集源自学术合作网络，包含18,333个节点和81,894条边，每个节点具有6,805维特征，其构建严格遵循了多任务自监督图神经网络研究的官方代码库规范，确保了数据的一致性与可复现性，为图机器学习任务提供了高质量的基准数据。

特点

该数据集以其规模适中且特征丰富的特点脱颖而出，节点数量介于1K到10K之间，适用于中等规模的图结构分析。边与节点的比例反映了合作网络的密集连接特性，而高维特征向量则捕捉了学者研究方向的复杂语义信息。这些特性使得数据集能够支持多种图神经网络模型的训练与评估，尤其在多任务自监督学习框架下展现出强大的泛化能力。

使用方法

研究人员可利用该数据集进行图节点分类、链接预测或社区发现等任务，通过加载预处理的图结构数据与特征矩阵，结合现代图神经网络框架实现模型训练。数据集已适配标准图学习库，用户可依据引用的研究论文方法，开展多任务自监督学习的实验验证，从而探索图表示学习在学术合作网络中的深层规律与应用潜力。

背景与挑战

背景概述

在复杂网络与图机器学习领域，协同作者网络作为学术合作模式的重要表征，为研究科学合作动态与知识传播提供了关键数据基础。SauravMaheshkar/pareto-coauthor-cs数据集构建于2023年，源自Ju等人发表于国际学习表征会议的研究工作，其核心研究问题聚焦于通过多任务自监督图神经网络增强任务泛化能力。该数据集包含18,333个节点、81,894条边及6,805维特征，精准刻画了计算机科学领域的学者合作关系，为图表示学习与网络分析提供了高质量的基准数据，推动了自监督学习在图结构数据中的应用拓展。

当前挑战

该数据集旨在应对图神经网络在跨任务泛化中的核心挑战，即如何从单一协同作者网络中学习可迁移的节点表示，以同时支持多种下游任务如节点分类、链接预测及社区发现。构建过程中的挑战主要体现在数据预处理环节：需依据原始研究代码库严格统一图结构、节点特征与边关系的标准化表示，确保与多任务自监督学习框架兼容；同时，在保持网络拓扑真实性的基础上，平衡节点特征的维度与稀疏性，以优化模型训练的稳定性与效率。

常用场景

经典使用场景

在计算机科学领域的学术合作网络中，SauravMaheshkar/pareto-coauthor-cs数据集以其18,333个节点和81,894条边，构建了一个复杂的合著关系图谱。该数据集常被用于图神经网络（GNN）的预训练与多任务学习研究，通过6,805维节点特征捕捉学者间的协作模式，为模型提供丰富的结构信息与语义表示。研究者利用其图结构特性，探索节点分类、链接预测等经典任务，以验证GNN在异质网络中的泛化能力与表征学习效果。

实际应用

在实际应用中，该数据集可服务于学术生态系统的智能分析。例如，在科研机构人才评估、跨领域合作趋势预测、以及学术影响力动态建模中，基于其合著网络的结构与特征，能够构建自动化工具以识别潜在合作团队、监测学科交叉热点。这些应用不仅优化了科研管理决策，也为学术资源分配与创新网络构建提供了数据驱动的见解，体现了图数据在真实场景中的实用价值。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，其中以《Multi-task Self-supervised Graph Neural Networks Enable Stronger Task Generalization》为代表。该论文提出了多任务自监督图神经网络框架，利用此类合著网络数据验证了预训练策略在提升任务泛化性上的有效性。后续研究在此基础上，进一步探索了图对比学习、元学习等范式，推动了图神经网络在学术合作分析领域的算法创新与理论深化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集