TAGLAS

Name: TAGLAS
Creator: 圣路易斯华盛顿大学
Published: 2024-06-21 03:11:35
License: 暂无描述

arXiv2024-06-21 更新2024-06-25 收录

下载链接：

https://github.com/JiaruiFeng/TAGLAS

下载链接

链接失效反馈

官方服务：

资源简介：

TAGLAS是由圣路易斯华盛顿大学和北京大学联合创建的一个文本属性图（TAG）数据集集合，包含超过23个来自不同领域的数据集，如引文图、分子图等。这些数据集支持从节点分类到图问答等多种任务。TAGLAS通过统一节点和边文本特征格式，使得图模型能够跨领域同时训练和评估。此外，TAGLAS提供了一系列工具和API，如文本到嵌入转换和图到文本转换，以支持不同训练和评估场景。该数据集的应用领域广泛，旨在解决图机器学习中的大规模和统一格式数据集的需求，推动图语言多模态模型和图基础模型的发展。

TAGLAS is a collection of Text-Attributed Graph (TAG) datasets jointly created by Washington University in St. Louis and Peking University. It contains over 23 datasets from diverse domains such as citation graphs and molecular graphs. These datasets support a wide range of tasks spanning from node classification to graph question answering. TAGLAS unifies the text feature formats of nodes and edges, enabling graph models to be trained and evaluated simultaneously across different domains. Additionally, TAGLAS provides a suite of tools and APIs including text-to-embedding conversion and graph-to-text conversion to support various training and evaluation scenarios. With broad application scenarios, TAGLAS aims to address the demand for large-scale and uniformly formatted datasets in graph machine learning, and promote the development of graph-language multimodal models and graph foundation models.

提供机构：

圣路易斯华盛顿大学

创建时间：

2024-06-21

原始信息汇总

TAGLAS 数据集概述

数据集统计信息

TAGLAS 数据集包含多个文本属性图（TAG）数据集，以下是目前包含的数据集统计信息：

数据集 (key)	平均节点数	平均边数	图数量	任务级别	任务类型	分割 (训练/验证/测试)	领域	描述	来源
Cora_node (cora_node)	2708	10556	1	节点	7-way 分类	140/500/2068	共同引用	预测论文的类别。	Graph-LLM, OFA
Cora_link (cora_link)	2708	10556	1	边	二分类	17944/1056/2112	共同引用	预测两篇论文是否被其他论文共同引用。	Graph-LLM, OFA
Pubmed_node (pubmed_node)	19717	88648	1	节点	3-way 分类	60/500/19157	共同引用	预测论文的类别。	Graph-LLM, OFA
Pubmed_link (pubmed_link)	19717	88468	1	边	二分类	150700/8866/17730	共同引用	预测两篇论文是否被其他论文共同引用。	Graph-LLM, OFA
Arxiv (arxiv)	169343	1166243	1	节点	40-way 分类	90941/29799/48603	引用	预测论文的类别。	OGB, OFA
WikiCS (wikics)	11701	216123	1	节点	10-way 分类	580/1769/5847	维基页面	预测维基页面的类别。	PyG, OFA
Product-subset (products)	54025	144638	1	节点	47-way 分类	14695/1567/36982	共同购买	预测产品的类别。	TAPE
FB15K237 (fb15k237)	14541	310116	1	边	237-way 分类	272115/17535/20466	知识图谱	预测两个实体之间的关系。	OFA
WN18RR (wn18rr)	40943	93003	1	边	11-way 分类	86835/3034/3134	知识图谱	预测两个实体之间的关系。	OFA
MovieLens-1m (ml1m)	9923	2000418	1	边	回归/5-way	850177/50011/100021	电影评分	预测用户和电影之间的评分。	PyG
Chembl_pretrain (chemblpre)	25.87	55.92	365065	图	1048-way 二分类	341952/0/0	分子	预测分子对多个测试的有效性。	GIMLET, OFA
PCBA (pcba)	25.97	56.20	437929	图	128-way 二分类	349854/43650/43588	分子	预测分子对多个测试的有效性。	GIMLET, OFA
HIV (hiv)	25.51	54.94	41127	图	二分类	32901/4113/4113	分子	预测分子对 HIV 的有效性。	GIMLET, OFA
BBBP (bbbp)	24.06	51.91	2039	图	二分类	1631/204/204	分子	预测分子对脑血屏障的有效性。	GIMLET, OFA
BACE (bace)	34.09	73.72	1513	图	二分类	1210/151/152	分子	预测分子对 BACE1 蛋白酶的有效性。	GIMLET, OFA
toxcast (toxcast)	18.76	38.50	8575	图	588-way 二分类	6859/858/858	分子	预测分子对多个测试的有效性。	GIMLET, OFA
esol (esol)	13.29	27.35	1128	图	回归	902/113/113	分子	预测分子的溶解度。	GIMLET, OFA
freesolv (freesolv)	8.72	16.76	642	图	回归	513/64/65	分子	预测分子的自由能。	GIMLET, OFA
lipo (lipo)	27.04	59.00	4200	图	回归	3360/420/420	分子	预测分子的亲脂性。	GIMLET, OFA
cyp450 (cyp450)	24.52	53.02	16896	图	5-way 二分类	13516/1690/1690	分子	预测分子对 CYP450 酶家族的有效性。	GIMLET, OFA
tox21 (tox21)	18.57	38.59	7831	图	12-way 二分类	6264/783/784	分子	预测分子对多个测试的有效性。	GIMLET, OFA
muv (muv)	24.23	52.56	93087	图	17-way 二分类	74469/9309/9309	分子	预测分子对多个测试的有效性。	GIMLET, OFA
ExplaGraphs (expla_graph)	5.17	4.25	2766	图	问答	1659/553/554	常识	常识推理。	G-retriver
SceneGraphs (scene_graph)	19.13	68.44	100000	图	问答	59978/19997/20025	场景图	场景图问答。	G-retriver
MAG240m-subset (mag240m)	5875010	26434726	1	节点	153-way 分类	900722/63337/63338/132585	引用	预测论文的类别。	OGB
Ultrachat200k (ultrachat200k)	3.72	2.72	449929	图	问答	400000/20000/29929	对话	根据之前的对话回答问题。	UltraChat200k

数据集加载

加载数据集

可以使用数据集的 key 来加载数据集。例如，加载 Arxiv 数据集： python from TAGLAS import get_dataset dataset = get_dataset("arxiv")

也可以同时加载多个数据集： python from TAGLAS import get_datasets dataset_list = get_datasets(["arxiv", "pcba"])

默认情况下，所有数据文件都保存在 ./TAGDataset 目录中。如果需要更改数据路径，可以设置 root 参数： python from TAGLAS import get_datasets dataset_list = get_datasets(["arxiv", "pcba"], root="your_path")

对于某些数据集，可能需要额外的参数来控制加载过程： python from TAGLAS import get_dataset dataset = get_dataset("fb15k237", to_undirected=False)

也可以直接从数据集类中导入： python from TAGLAS.datasets import Arxiv dataset = Arxiv()

数据键描述和基本用法

所有数据样本都存储在 TAGData 类中，该类继承自 torch_geometric 包中的 Data 类。不同信息存储在不同的键中。大多数数据集包含以下键：

x: 所有节点的文本特征。通常是一个 list 或 np.ndarray。
node_map: 节点索引到节点文本特征的映射。通常是一个 torch.LongTensor。
edge_attr: 所有边的文本特征。通常是一个 list 或 np.ndarray。
edge_map: 边索引到边文本特征的映射。通常是一个 torch.LongTensor。
label: 所有标签的文本特征。通常是一个 list 或 np.ndarray。
label_map: 标签索引到标签文本特征的映射。通常是一个 torch.LongTensor。
edge_index: 图结构。通常是一个 torch.LongTensor。

某些数据集可能还包含：

x_original: 原始数据源中所有节点的向量特征。通常是一个 torch.Tensor。
edge_attr_orignal: 原始数据源中所有边的向量特征。通常是一个 torch.Tensor。
question: 问答任务的问题文本特征。
question_map: 问题索引到问题文本特征的映射。
answer: 问答任务的答案文本特征。
answer_map: 答案索引到答案文本特征的映射。

示例： python from TAGLAS import get_dataset dataset = get_dataset("arxiv")

获取整个数据集的节点文本特征

x = dataset.x

获取数据集中的第一个图样本

data = dataset[0]

获取样本的边文本特征

edge_attr = data.edge_attr

特征映射

对于图级数据集，所有 _map 键（如 node_map 或 edge_map）将存储到全局特征的映射。全局特征可以通过以下方式访问： python from TAGLAS import get_dataset dataset = get_dataset("hiv")

获取全局节点文本特征

dataset.x

获取全局边文本特征

dataset.edge_attr

特定样本的特征可以通过以下方式获取： python from TAGLAS import get_dataset dataset = get_dataset("hiv")

全局节点文本特征

x = dataset.x data = dataset[0]

通过样本的 node_map 键获取样本 0 的节点文本特征

sample_x = [x[i] for i in data.node_map]

也可以直接访问每个样本的文本特征

sample_x = dataset[0].x

对于节点/边级数据集，由于它们只包含一个图

搜集汇总

数据集介绍

构建方式

TAGLAS 数据集的构建基于对现有图学习数据集的整合和标准化。数据集涵盖了从引文网络到分子图等多个领域的 23 个文本属性图（TAG）数据集，并针对节点分类、链接预测、图级任务和图问答等任务进行了统一。所有数据集均采用统一的节点和边文本特征格式，以便于图模型在多个领域的数据集上进行训练和评估。此外，TAGLAS 还提供了一种标准化的、高效的、简化的数据加载方式，以及文本到嵌入转换和图到文本转换等实用工具，以方便不同评估场景下的使用。

使用方法

使用 TAGLAS 数据集的方法包括数据加载、任务构建、文本到嵌入转换和评估等。首先，用户可以通过提供的数据集键加载特定的数据集。其次，用户可以选择不同的任务类型，包括节点级、链接级、图级和问答任务，并进行任务构建。此外，TAGLAS 还提供了文本到嵌入转换的 API，将原始文本特征转换为句子嵌入，以方便 GNN 模型的评估。最后，TAGLAS 提供了标准化的评估工具，用于评估模型在数据集上的性能。

背景与挑战

背景概述

近年来，图学习研究迅猛发展，图神经网络（GNNs）已成为处理图学习任务的主要方法。然而，现有的图数据集和基准测试在领域和任务上存在差异，限制了研究的通用性和可迁移性。为了解决这一问题，华盛顿大学圣路易斯分校和北京大学的研究团队提出了TAGLAS数据集，旨在构建一个文本属性图（TAG）数据集和基准测试的图谱。TAGLAS收集并整合了超过23个TAG数据集，涵盖了从引文图到分子图等多个领域，以及从节点分类到图问答等多种任务。与之前的图数据集和基准测试不同，TAGLAS中的所有数据集都具有统一的节点和边文本特征格式，允许图模型在多个来自不同领域的任务上进行训练和评估。此外，TAGLAS还提供了一种标准化、高效且简化的数据集加载方式，并提供了文本到嵌入转换、图到文本转换等实用工具，以支持不同的评估场景。该项目已在https://github.com/JiaruiFeng/TAGLAS开源，并仍在不断完善中。

当前挑战

TAGLAS数据集面临的挑战主要包括：1) 所解决的领域问题的挑战：TAGLAS旨在构建一个统一格式的图数据集，以支持图语言多模态模型和图基础模型的研究。这需要解决不同领域数据集的差异性，例如节点和边的特征表示方式不同，以及不同任务的需求不同。2) 构建过程中的挑战：TAGLAS需要收集和整合来自不同领域和任务的大量数据集，并对其进行预处理和格式化。这需要解决数据集的多样性、规模和复杂性等问题。

常用场景

经典使用场景

在文本属性图（TAG）模型训练和评估中，TAGLAS数据集提供了统一的节点和边文本特征格式，使得一个图模型能够同时在来自不同领域的多个数据集上进行训练和评估。这对于构建大规模、通用的图语言或多模态模型至关重要。

解决学术问题

TAGLAS数据集解决了现有图数据集和基准测试的多样性、不一致性以及难以迁移的问题。它通过统一的格式和任务类型，促进了图机器学习研究的规模化和通用性，并支持了大规模图语言和多模态模型的研究。

实际应用

TAGLAS数据集在实际应用中可用于训练和评估图神经网络（GNNs）和大型语言模型（LLMs），特别是在节点分类、链接预测、图分类和图问答等任务中。此外，它还可以用于构建推荐系统、知识图谱和药物发现等领域的应用。

数据集最近研究