SauravMaheshkar/pareto-chameleon

Name: SauravMaheshkar/pareto-chameleon
Creator: SauravMaheshkar
Published: 2024-02-12 21:39:03
License: 暂无描述

Hugging Face2024-02-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SauravMaheshkar/pareto-chameleon

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含2,277个节点，36,101条边和2,325个特征，属于图机器学习领域，规模在1千到1万之间。数据集与艺术相关，并已按照相关研究论文的官方代码库进行了预处理。

提供机构：

SauravMaheshkar

原始信息汇总

数据集信息

基本信息

节点数: 2,277
边数: 36,101
特征数: 2,325

类别和标签

大小类别: 1K<n<10K
任务类别: graph-ml
标签: art
许可证: cc

使用方法

python from huggingface_hub import hf_hub_download

hf_hub_download(repo_id="SauravMaheshkar/pareto-chameleon", filename="processed/chameleon.bin", local_dir="./data/", repo_type="dataset")

dataset, _ = dgl.load_graphs("./data/processed/chameleon.bin")

引用

@article{ju2023multi, title={Multi-task Self-supervised Graph Neural Networks Enable Stronger Task Generalization}, author={Ju, Mingxuan and Zhao, Tong and Wen, Qianlong and Yu, Wenhao and Shah, Neil and Ye, Yanfang and Zhang, Chuxu}, booktitle={International Conference on Learning Representations}, year={2023} }

@article{DBLP:journals/corr/abs-1909-13021, author = {Benedek Rozemberczki and Carl Allen and Rik Sarkar}, title = {Multi-scale Attributed Node Embedding}, journal = {CoRR}, volume = {abs/1909.13021}, year = {2019}, url = {http://arxiv.org/abs/1909.13021}, eprinttype = {arXiv}, eprint = {1909.13021}, timestamp = {Wed, 02 Oct 2019 13:04:08 +0200}, biburl = {https://dblp.org/rec/journals/corr/abs-1909-13021.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

搜集汇总

数据集介绍

构建方式

在复杂网络分析领域，数据集的构建往往依赖于对现实世界网络的精确建模。Pareto-Chameleon数据集源自维基百科中关于“变色龙”主题的页面网络，通过提取页面间的超链接关系构建图结构。该数据集包含2,277个节点和36,101条边，每个节点关联2,325维特征，这些特征基于页面文本内容提取，如词袋表示或TF-IDF向量，以捕捉语义信息。构建过程遵循多任务自监督图神经网络研究的预处理标准，确保数据格式与前沿算法兼容，为图表示学习任务提供结构化基础。

特点

Pareto-Chameleon数据集在图机器学习领域展现出独特优势，其规模适中，节点与边数量平衡，便于高效计算与实验验证。特征维度丰富，涵盖高维语义信息，支持节点分类、链接预测等任务。作为艺术类图数据，它模拟了真实世界网络的小世界特性与社区结构，适用于多尺度属性节点嵌入研究。数据集经过预处理，以二进制格式存储，兼容DGL等图神经网络框架，确保了易用性与可复现性，为探索图自监督学习提供了标准化测试平台。

使用方法

使用Pareto-Chameleon数据集时，研究者可通过Hugging Face Hub便捷下载预处理文件。具体操作涉及调用`hf_hub_download`函数，指定仓库ID与文件名，将二进制图数据加载至本地目录。随后，利用DGL库的`load_graphs`方法解析图结构，获取节点、边及特征张量。该流程简化了数据准备步骤，支持直接集成到图神经网络训练管道中，适用于评估多任务自监督学习模型的泛化能力，促进图表示学习领域的实证研究。

背景与挑战

背景概述

在复杂网络分析领域，图神经网络（GNN）的兴起推动了多任务自监督学习范式的演进。SauravMaheshkar/pareto-chameleon数据集作为这一研究脉络中的重要资源，其构建灵感源自2023年国际学习表征会议（ICLR）上发表的《多任务自监督图神经网络实现更强任务泛化》一文。该数据集由研究团队基于原始Chameleon网络数据重构而成，核心目标在于探究图结构数据中节点属性与拓扑关系的协同表征机制。通过对包含2,277个节点、36,101条边及2,325维特征的网络进行标准化处理，该数据集为评估多尺度属性节点嵌入算法提供了基准测试平台，显著促进了异质信息网络表征学习领域的方法创新与理论发展。

当前挑战

该数据集致力于解决图机器学习中节点分类与链路预测任务的泛化性能瓶颈，其核心挑战在于如何设计能够同时捕获局部邻域特征与全局拓扑模式的自监督学习框架。在构建过程中，研究人员面临多重技术难题：原始网络数据的异构性导致节点属性与边关系的对齐复杂度极高；多尺度特征提取需要平衡计算效率与表征完整性之间的张力；而图结构的稀疏性与度分布偏斜现象则对采样策略的鲁棒性提出了严峻考验。这些挑战共同构成了推动图神经网络泛化能力研究的关键障碍。

常用场景

经典使用场景

在复杂网络分析领域，SauravMaheshkar/pareto-chameleon数据集以其包含2,277个节点和36,101条边的拓扑结构，成为评估图神经网络模型性能的基准工具。该数据集常用于节点分类任务，通过其丰富的2,325维特征向量，研究者能够深入探索模型在异质信息网络中的表征学习能力。其经典应用场景聚焦于验证多尺度属性节点嵌入算法的有效性，为图结构数据的深度学习研究提供了标准化的实验平台。

解决学术问题

该数据集有效解决了图机器学习中异质网络节点表征的通用化难题。通过提供具有复杂社区结构和丰富节点属性的真实世界网络数据，它使研究者能够系统评估模型在跨任务迁移学习中的稳健性。其意义在于推动了自监督图神经网络的发展，为克服传统方法在未见数据上泛化能力不足的瓶颈提供了实证基础，显著提升了多任务图学习框架的理论深度与应用边界。

衍生相关工作

围绕该数据集衍生的经典工作包括多任务自监督图神经网络框架，如ICLR 2023提出的通用化学习架构。这些研究通过利用数据集的异质拓扑特性，开发了能够同时处理节点分类与链接预测的联合优化模型。此外，多尺度属性节点嵌入方法也以此为基准，推动了图表示学习从单一尺度向层次化表征的范式转变，催生了系列关于图结构自适应聚合机制的前沿探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集