SauravMaheshkar/pareto-squirrel

Name: SauravMaheshkar/pareto-squirrel
Creator: SauravMaheshkar
Published: 2024-02-12 21:38:29
License: 暂无描述

Hugging Face2024-02-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SauravMaheshkar/pareto-squirrel

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个图机器学习任务的数据集，包含5,201个节点、217,073条边和2,089个特征。数据集的大小类别为1K<n<10K，任务类别为graph-ml，标签为art，许可证为cc。数据集预处理依据的是https://arxiv.org/abs/2210.02016的官方代码库。

提供机构：

SauravMaheshkar

原始信息汇总

数据集信息

基本信息

节点数: 5,201
边数: 217,073
特征数: 2,089

类别和标签

大小类别: 1K<n<10K
任务类别: graph-ml
标签: art
许可证: cc

使用方法

python from huggingface_hub import hf_hub_download

hf_hub_download(repo_id="SauravMaheshkar/pareto-squirrel", filename="processed/squirrel.bin", local_dir="./data/", repo_type="dataset")

dataset, _ = dgl.load_graphs("./data/processed/squirrel.bin")

引用

@article{ju2023multi, title={Multi-task Self-supervised Graph Neural Networks Enable Stronger Task Generalization}, author={Ju, Mingxuan and Zhao, Tong and Wen, Qianlong and Yu, Wenhao and Shah, Neil and Ye, Yanfang and Zhang, Chuxu}, booktitle={International Conference on Learning Representations}, year={2023} }

@article{DBLP:journals/corr/abs-1909-13021, author = {Benedek Rozemberczki and Carl Allen and Rik Sarkar}, title = {Multi-scale Attributed Node Embedding}, journal = {CoRR}, volume = {abs/1909.13021}, year = {2019}, url = {http://arxiv.org/abs/1909.13021}, eprinttype = {arXiv}, eprint = {1909.13021}, timestamp = {Wed, 02 Oct 2019 13:04:08 +0200}, biburl = {https://dblp.org/rec/journals/corr/abs-1909-13021.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

搜集汇总

数据集介绍

构建方式

在复杂网络分析领域，SauravMaheshkar/pareto-squirrel数据集以图结构数据为核心，其构建过程遵循严谨的学术规范。该数据集源自多尺度属性节点嵌入的研究，原始数据经过系统化采集与清洗，确保了节点与边关系的完整性。构建过程中，研究人员依据官方代码库对原始图数据进行了标准化预处理，包括节点特征提取与图结构规范化，最终生成了包含5,201个节点、217,073条边及2,089维特征的图表示，为后续图机器学习任务提供了可靠的基础。

特点

该数据集在图机器学习领域展现出鲜明的技术特征。其图结构规模适中，节点与边数量均保持在千至万级别，既避免了过度稀疏，又控制了计算复杂度。每个节点附带的2,089维特征向量，为节点属性分析提供了丰富的语义信息。数据集的图拓扑呈现出典型的复杂网络特性，边分布可能遵循幂律规律，适用于研究节点嵌入、社区发现及图神经网络泛化能力等前沿课题。这些特征共同支撑了多任务自监督图神经网络等先进模型的训练与评估。

使用方法

利用该数据集进行图机器学习研究，操作流程简洁高效。研究者可通过HuggingFace Hub的专用接口下载预处理后的二进制图文件，文件路径为'processed/squirrel.bin'。下载完成后，使用DGL（Deep Graph Library）的图加载函数即可将数据载入内存，直接转换为可供模型输入的图对象。这种设计显著降低了数据准备阶段的工程负担，使研究者能够迅速聚焦于图神经网络架构设计、节点分类或链接预测等核心实验任务，有效加速图学习领域的算法迭代与验证过程。

背景与挑战

背景概述

在复杂网络分析领域，图神经网络（Graph Neural Networks, GNNs）已成为处理非欧几里得数据结构的关键工具，尤其在多任务自监督学习框架下，模型泛化能力面临严峻考验。SauravMaheshkar/pareto-squirrel数据集作为这一研究脉络中的重要资源，其构建灵感源于2023年国际学习表征会议（ICLR）上发表的《Multi-task Self-supervised Graph Neural Networks Enable Stronger Task Generalization》一文，由Mingxuan Ju等学者共同贡献。该数据集以松鼠（squirrel）为名，实质上是一个包含5,201个节点、217,073条边及2,089维特征的属性图，旨在探索多尺度属性节点嵌入与任务泛化之间的深层关联，为图表示学习提供了实证基础，推动了自监督图神经网络在跨任务适应性方面的前沿进展。

当前挑战

SauravMaheshkar/pareto-squirrel数据集所针对的核心领域问题在于图结构数据中的节点分类与泛化学习，其挑战首先体现在高维稀疏特征的整合上：数据集中节点特征维度达2,089，而边数超过21万，这种规模与复杂性要求模型必须有效捕捉局部与全局拓扑模式，同时避免过拟合。其次，构建过程中的挑战源于原始数据的多源性与异构性，需通过精细预处理（如参考官方代码库进行标准化）确保图结构的连贯性与特征一致性，这涉及边权重的校准、节点属性的归一化以及图分割的平衡性，任何偏差都可能削弱多任务自监督学习的泛化效能。此外，数据集的规模虽在1K到10K节点之间，但其密集连接特性对计算资源与算法效率提出了较高要求，进一步加剧了实际应用中的优化难度。

常用场景

经典使用场景

在复杂网络分析领域，SauravMaheshkar/pareto-squirrel数据集以其丰富的节点属性和密集的边连接结构，为图神经网络模型的训练与评估提供了经典场景。该数据集常被用于节点分类、链接预测等核心图学习任务，其多尺度属性特征能够有效检验模型对异质网络拓扑的捕捉能力，成为衡量算法鲁棒性与泛化性能的重要基准。

实际应用

在实际应用层面，该数据集可模拟社交网络、学术合作图谱或生物蛋白质相互作用网络等现实场景。基于其构建的预测模型能够应用于社区发现、影响力传播分析或异常检测等具体任务，为平台内容推荐、网络安全监控等工业级需求提供可扩展的算法验证环境。

衍生相关工作

围绕该数据集衍生的经典工作包括多任务自监督图神经网络框架的构建，如ICLR 2023所提出的通用化学习范式。同时，其预处理流程继承自多尺度属性节点嵌入方法的研究脉络，促进了图对比学习、元学习等前沿方向在网络科学领域的交叉创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集