Heterogeneous Text-Attributed Graph Datasets

Name: Heterogeneous Text-Attributed Graph Datasets
Creator: 南京大学
Published: 2024-12-12 12:58:32
License: 暂无描述

arXiv2024-12-12 更新2024-12-14 收录

下载链接：

https://github.com, https://huggingface.co

下载链接

链接失效反馈

官方服务：

资源简介：

本文介绍了一系列多尺度异构文本属性图（HTAG）数据集，这些数据集涵盖了电影、社区问答、学术、文学和专利等多个领域。数据集规模从小型（24K节点，104K边）到大型（5.6M节点，29.8M边）不等，提供了丰富的文本内容和多样的关系类型。数据集的创建过程包括从多个公开数据源收集元数据，并通过预训练语言模型（PLMs）生成文本特征。这些数据集旨在支持机器学习模型在异构文本属性图上的真实和可重复评估，特别适用于图神经网络（GNNs）的研究和应用，以解决复杂网络中的节点分类和关系预测等问题。

This paper introduces a series of multi-scale heterogeneous text-attributed graph (HTAG) datasets, which cover multiple domains including movies, community question answering, academia, literature, and patents. These datasets range in scale from small (24K nodes, 104K edges) to large (5.6M nodes, 29.8M edges), providing rich textual content and diverse relationship types. The construction of these datasets involves collecting metadata from multiple public data sources and generating textual features via pre-trained language models (PLMs). These datasets are designed to support authentic and reproducible evaluations of machine learning models on heterogeneous text-attributed graphs, and are particularly suitable for the research and application of graph neural networks (GNNs) to solve tasks such as node classification and relation prediction in complex networks.

提供机构：

南京大学

创建时间：

2024-12-12

搜集汇总

数据集介绍

构建方式

该数据集通过从多个领域（如电影、社区问答、学术、文学和专利网络）中提取异构文本属性图（HTAG）构建而成。每个数据集包含多种类型的节点和边，节点不仅具有文本信息，还通过多种关系相互连接。数据集的构建过程包括从公开的在线数据库（如The Movie Database、Cross Validated、arXiv、GoodReads、DBLP和USPTO）中收集元数据，并通过Python脚本进行处理，生成包含原始文本、预训练语言模型（PLM）特征和标签的异构图。所有数据集均提供了时间分割，以支持更真实的评估。

特点

该数据集的主要特点是其异构性和多尺度性。异构性体现在节点和边的多种类型，以及节点上丰富的文本信息，这使得数据集能够更好地模拟现实世界中的复杂系统。多尺度性则体现在数据集的大小范围广泛，从小型数据集（如TMDB，包含24K节点和104K边）到大型数据集（如Patent，包含5.6M节点和29.8M边），能够支持从计算密集型算法到可扩展模型的不同需求。此外，数据集提供了原始文本和PLM特征，支持更复杂的文本语义分析。

使用方法

该数据集主要用于节点分类任务，用户可以通过提供的代码加载数据集，并使用图神经网络（GNN）模型进行训练和评估。数据集支持多种图神经网络模型，包括GCN、SAGE、GAT等，以及异构图神经网络模型如RGCN、RSAGE和RGAT。用户可以根据任务需求选择合适的模型，并利用数据集的时间分割进行时间感知的模型评估。此外，数据集的开放源代码允许用户根据需要扩展和构建更复杂的异构文本属性图数据集。

背景与挑战

背景概述

异构文本属性图数据集（Heterogeneous Text-Attributed Graph Datasets，HTAG）是由南京大学国家软件新技术重点实验室的研究团队创建的，主要研究人员包括Yunhui Liu、Qizhuo Xie等。该数据集的创建旨在填补当前文本属性图学习研究中对异构图数据集的不足，特别是针对单一节点和边类型的同构图研究。HTAG数据集涵盖了多个领域，包括电影、社区问答、学术、文学和专利网络，具有多尺度特性，时间跨度长达数年。该数据集的发布为机器学习模型在异构文本属性图上的评估提供了现实且可重复的基准，推动了图神经网络在复杂图结构中的应用。

当前挑战

HTAG数据集的构建面临多个挑战。首先，异构文本属性图的复杂性要求模型能够有效整合节点属性和图结构信息，而现有数据集大多缺乏原始文本内容，导致上下文信息的丢失。其次，数据集的多领域和多尺度特性增加了模型在不同规模和结构图上的适应性挑战。此外，时间属性的引入使得数据集在时间序列上的分割更具现实意义，但也增加了模型在动态图学习中的复杂性。最后，如何有效利用预训练语言模型（PLMs）与图神经网络（GNNs）的协同作用，以提升文本语义和图结构的联合建模能力，是当前研究面临的重要挑战。

常用场景

经典使用场景

Heterogeneous Text-Attributed Graph Datasets（异构文本属性图数据集）主要用于评估和训练图神经网络（GNN）在处理异构图结构中的表现。这些数据集涵盖了多个领域，如电影、社区问答、学术、文学和专利网络，提供了丰富的节点类型和边类型，以及与之关联的文本信息。经典的使用场景包括节点分类任务，例如预测电影的类型、学术论文的主题或专利的分类代码。通过这些任务，研究人员可以验证和优化图神经网络在处理复杂异构图结构时的性能。

实际应用

Heterogeneous Text-Attributed Graph Datasets在多个实际应用场景中具有广泛的应用潜力。例如，在电影推荐系统中，可以通过分析电影、演员和导演之间的关系以及电影的文本描述，预测用户可能感兴趣的电影类型。在学术领域，该数据集可以用于自动分类学术论文，帮助研究人员快速定位相关领域的研究成果。此外，在专利分析中，该数据集可以用于预测专利的分类，帮助企业和研究机构更好地管理和利用知识产权。这些应用场景不仅提高了数据处理的效率，还为决策提供了更精准的支持。

衍生相关工作

基于Heterogeneous Text-Attributed Graph Datasets，许多相关工作得以展开。例如，研究人员可以进一步探索如何将图神经网络与预训练语言模型（PLM）结合，以更好地捕捉文本语义和图结构信息。此外，该数据集还为其他图学习任务（如链接预测、节点聚类和自监督学习）提供了丰富的实验平台。通过这些衍生工作，研究人员可以更全面地评估图神经网络在不同任务和场景中的表现，推动图学习领域的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集