five

TAGLAS

收藏
arXiv2024-06-21 更新2024-06-25 收录
下载链接:
https://github.com/JiaruiFeng/TAGLAS
下载链接
链接失效反馈
官方服务:
资源简介:
TAGLAS是由圣路易斯华盛顿大学和北京大学联合创建的一个文本属性图(TAG)数据集集合,包含超过23个来自不同领域的数据集,如引文图、分子图等。这些数据集支持从节点分类到图问答等多种任务。TAGLAS通过统一节点和边文本特征格式,使得图模型能够跨领域同时训练和评估。此外,TAGLAS提供了一系列工具和API,如文本到嵌入转换和图到文本转换,以支持不同训练和评估场景。该数据集的应用领域广泛,旨在解决图机器学习中的大规模和统一格式数据集的需求,推动图语言多模态模型和图基础模型的发展。

TAGLAS is a collection of Text-Attributed Graph (TAG) datasets jointly created by Washington University in St. Louis and Peking University. It contains over 23 datasets from diverse domains such as citation graphs and molecular graphs. These datasets support a wide range of tasks spanning from node classification to graph question answering. TAGLAS unifies the text feature formats of nodes and edges, enabling graph models to be trained and evaluated simultaneously across different domains. Additionally, TAGLAS provides a suite of tools and APIs including text-to-embedding conversion and graph-to-text conversion to support various training and evaluation scenarios. With broad application scenarios, TAGLAS aims to address the demand for large-scale and uniformly formatted datasets in graph machine learning, and promote the development of graph-language multimodal models and graph foundation models.
提供机构:
圣路易斯华盛顿大学
创建时间:
2024-06-21
原始信息汇总

TAGLAS 数据集概述

数据集统计信息

TAGLAS 数据集包含多个文本属性图(TAG)数据集,以下是目前包含的数据集统计信息:

数据集 (key) 平均节点数 平均边数 图数量 任务级别 任务类型 分割 (训练/验证/测试) 领域 描述 来源
Cora_node (cora_node) 2708 10556 1 节点 7-way 分类 140/500/2068 共同引用 预测论文的类别。 Graph-LLM, OFA
Cora_link (cora_link) 2708 10556 1 二分类 17944/1056/2112 共同引用 预测两篇论文是否被其他论文共同引用。 Graph-LLM, OFA
Pubmed_node (pubmed_node) 19717 88648 1 节点 3-way 分类 60/500/19157 共同引用 预测论文的类别。 Graph-LLM, OFA
Pubmed_link (pubmed_link) 19717 88468 1 二分类 150700/8866/17730 共同引用 预测两篇论文是否被其他论文共同引用。 Graph-LLM, OFA
Arxiv (arxiv) 169343 1166243 1 节点 40-way 分类 90941/29799/48603 引用 预测论文的类别。 OGB, OFA
WikiCS (wikics) 11701 216123 1 节点 10-way 分类 580/1769/5847 维基页面 预测维基页面的类别。 PyG, OFA
Product-subset (products) 54025 144638 1 节点 47-way 分类 14695/1567/36982 共同购买 预测产品的类别。 TAPE
FB15K237 (fb15k237) 14541 310116 1 237-way 分类 272115/17535/20466 知识图谱 预测两个实体之间的关系。 OFA
WN18RR (wn18rr) 40943 93003 1 11-way 分类 86835/3034/3134 知识图谱 预测两个实体之间的关系。 OFA
MovieLens-1m (ml1m) 9923 2000418 1 回归/5-way 850177/50011/100021 电影评分 预测用户和电影之间的评分。 PyG
Chembl_pretrain (chemblpre) 25.87 55.92 365065 1048-way 二分类 341952/0/0 分子 预测分子对多个测试的有效性。 GIMLET, OFA
PCBA (pcba) 25.97 56.20 437929 128-way 二分类 349854/43650/43588 分子 预测分子对多个测试的有效性。 GIMLET, OFA
HIV (hiv) 25.51 54.94 41127 二分类 32901/4113/4113 分子 预测分子对 HIV 的有效性。 GIMLET, OFA
BBBP (bbbp) 24.06 51.91 2039 二分类 1631/204/204 分子 预测分子对脑血屏障的有效性。 GIMLET, OFA
BACE (bace) 34.09 73.72 1513 二分类 1210/151/152 分子 预测分子对 BACE1 蛋白酶的有效性。 GIMLET, OFA
toxcast (toxcast) 18.76 38.50 8575 588-way 二分类 6859/858/858 分子 预测分子对多个测试的有效性。 GIMLET, OFA
esol (esol) 13.29 27.35 1128 回归 902/113/113 分子 预测分子的溶解度。 GIMLET, OFA
freesolv (freesolv) 8.72 16.76 642 回归 513/64/65 分子 预测分子的自由能。 GIMLET, OFA
lipo (lipo) 27.04 59.00 4200 回归 3360/420/420 分子 预测分子的亲脂性。 GIMLET, OFA
cyp450 (cyp450) 24.52 53.02 16896 5-way 二分类 13516/1690/1690 分子 预测分子对 CYP450 酶家族的有效性。 GIMLET, OFA
tox21 (tox21) 18.57 38.59 7831 12-way 二分类 6264/783/784 分子 预测分子对多个测试的有效性。 GIMLET, OFA
muv (muv) 24.23 52.56 93087 17-way 二分类 74469/9309/9309 分子 预测分子对多个测试的有效性。 GIMLET, OFA
ExplaGraphs (expla_graph) 5.17 4.25 2766 问答 1659/553/554 常识 常识推理。 G-retriver
SceneGraphs (scene_graph) 19.13 68.44 100000 问答 59978/19997/20025 场景图 场景图问答。 G-retriver
MAG240m-subset (mag240m) 5875010 26434726 1 节点 153-way 分类 900722/63337/63338/132585 引用 预测论文的类别。 OGB
Ultrachat200k (ultrachat200k) 3.72 2.72 449929 问答 400000/20000/29929 对话 根据之前的对话回答问题。 UltraChat200k

数据集加载

加载数据集

可以使用数据集的 key 来加载数据集。例如,加载 Arxiv 数据集: python from TAGLAS import get_dataset dataset = get_dataset("arxiv")

也可以同时加载多个数据集: python from TAGLAS import get_datasets dataset_list = get_datasets(["arxiv", "pcba"])

默认情况下,所有数据文件都保存在 ./TAGDataset 目录中。如果需要更改数据路径,可以设置 root 参数: python from TAGLAS import get_datasets dataset_list = get_datasets(["arxiv", "pcba"], root="your_path")

对于某些数据集,可能需要额外的参数来控制加载过程: python from TAGLAS import get_dataset dataset = get_dataset("fb15k237", to_undirected=False)

也可以直接从数据集类中导入: python from TAGLAS.datasets import Arxiv dataset = Arxiv()

数据键描述和基本用法

所有数据样本都存储在 TAGData 类中,该类继承自 torch_geometric 包中的 Data 类。不同信息存储在不同的键中。大多数数据集包含以下键:

  • x: 所有节点的文本特征。通常是一个 listnp.ndarray
  • node_map: 节点索引到节点文本特征的映射。通常是一个 torch.LongTensor
  • edge_attr: 所有边的文本特征。通常是一个 listnp.ndarray
  • edge_map: 边索引到边文本特征的映射。通常是一个 torch.LongTensor
  • label: 所有标签的文本特征。通常是一个 listnp.ndarray
  • label_map: 标签索引到标签文本特征的映射。通常是一个 torch.LongTensor
  • edge_index: 图结构。通常是一个 torch.LongTensor

某些数据集可能还包含:

  • x_original: 原始数据源中所有节点的向量特征。通常是一个 torch.Tensor
  • edge_attr_orignal: 原始数据源中所有边的向量特征。通常是一个 torch.Tensor
  • question: 问答任务的问题文本特征。
  • question_map: 问题索引到问题文本特征的映射。
  • answer: 问答任务的答案文本特征。
  • answer_map: 答案索引到答案文本特征的映射。

示例: python from TAGLAS import get_dataset dataset = get_dataset("arxiv")

获取整个数据集的节点文本特征

x = dataset.x

获取数据集中的第一个图样本

data = dataset[0]

获取样本的边文本特征

edge_attr = data.edge_attr

特征映射

对于图级数据集,所有 _map 键(如 node_mapedge_map)将存储到全局特征的映射。全局特征可以通过以下方式访问: python from TAGLAS import get_dataset dataset = get_dataset("hiv")

获取全局节点文本特征

dataset.x

获取全局边文本特征

dataset.edge_attr

特定样本的特征可以通过以下方式获取: python from TAGLAS import get_dataset dataset = get_dataset("hiv")

全局节点文本特征

x = dataset.x data = dataset[0]

通过样本的 node_map 键获取样本 0 的节点文本特征

sample_x = [x[i] for i in data.node_map]

也可以直接访问每个样本的文本特征

sample_x = dataset[0].x

对于节点/边级数据集,由于它们只包含一个图

搜集汇总
数据集介绍
main_image_url
构建方式
TAGLAS 数据集的构建基于对现有图学习数据集的整合和标准化。数据集涵盖了从引文网络到分子图等多个领域的 23 个文本属性图(TAG)数据集,并针对节点分类、链接预测、图级任务和图问答等任务进行了统一。所有数据集均采用统一的节点和边文本特征格式,以便于图模型在多个领域的数据集上进行训练和评估。此外,TAGLAS 还提供了一种标准化的、高效的、简化的数据加载方式,以及文本到嵌入转换和图到文本转换等实用工具,以方便不同评估场景下的使用。
使用方法
使用 TAGLAS 数据集的方法包括数据加载、任务构建、文本到嵌入转换和评估等。首先,用户可以通过提供的数据集键加载特定的数据集。其次,用户可以选择不同的任务类型,包括节点级、链接级、图级和问答任务,并进行任务构建。此外,TAGLAS 还提供了文本到嵌入转换的 API,将原始文本特征转换为句子嵌入,以方便 GNN 模型的评估。最后,TAGLAS 提供了标准化的评估工具,用于评估模型在数据集上的性能。
背景与挑战
背景概述
近年来,图学习研究迅猛发展,图神经网络(GNNs)已成为处理图学习任务的主要方法。然而,现有的图数据集和基准测试在领域和任务上存在差异,限制了研究的通用性和可迁移性。为了解决这一问题,华盛顿大学圣路易斯分校和北京大学的研究团队提出了TAGLAS数据集,旨在构建一个文本属性图(TAG)数据集和基准测试的图谱。TAGLAS收集并整合了超过23个TAG数据集,涵盖了从引文图到分子图等多个领域,以及从节点分类到图问答等多种任务。与之前的图数据集和基准测试不同,TAGLAS中的所有数据集都具有统一的节点和边文本特征格式,允许图模型在多个来自不同领域的任务上进行训练和评估。此外,TAGLAS还提供了一种标准化、高效且简化的数据集加载方式,并提供了文本到嵌入转换、图到文本转换等实用工具,以支持不同的评估场景。该项目已在https://github.com/JiaruiFeng/TAGLAS开源,并仍在不断完善中。
当前挑战
TAGLAS数据集面临的挑战主要包括:1) 所解决的领域问题的挑战:TAGLAS旨在构建一个统一格式的图数据集,以支持图语言多模态模型和图基础模型的研究。这需要解决不同领域数据集的差异性,例如节点和边的特征表示方式不同,以及不同任务的需求不同。2) 构建过程中的挑战:TAGLAS需要收集和整合来自不同领域和任务的大量数据集,并对其进行预处理和格式化。这需要解决数据集的多样性、规模和复杂性等问题。
常用场景
经典使用场景
在文本属性图(TAG)模型训练和评估中,TAGLAS数据集提供了统一的节点和边文本特征格式,使得一个图模型能够同时在来自不同领域的多个数据集上进行训练和评估。这对于构建大规模、通用的图语言或多模态模型至关重要。
解决学术问题
TAGLAS数据集解决了现有图数据集和基准测试的多样性、不一致性以及难以迁移的问题。它通过统一的格式和任务类型,促进了图机器学习研究的规模化和通用性,并支持了大规模图语言和多模态模型的研究。
实际应用
TAGLAS数据集在实际应用中可用于训练和评估图神经网络(GNNs)和大型语言模型(LLMs),特别是在节点分类、链接预测、图分类和图问答等任务中。此外,它还可以用于构建推荐系统、知识图谱和药物发现等领域的应用。
数据集最近研究
最新研究方向
TAGLAS数据集的提出标志着图学习领域在构建大规模图语言和多模态模型方面的重要进展。该数据集收集并整合了超过23个文本属性图(TAG)数据集,涵盖了从引用图到分子图的广泛领域,以及从节点分类到图问答的各种任务。TAGLAS的独特之处在于其统一了节点和边的文本特征格式,使得图模型能够同时在不同领域的多个数据集上进行训练和评估。这种统一格式对于开发大规模基础模型至关重要,因为这些模型需要能够在多种任务和领域之间迁移。TAGLAS还提供了标准化的数据加载方式和实用的工具,如文本到嵌入转换和图到文本转换,这些工具能够促进不同的训练和评估场景。此外,TAGLAS还提供了易于使用的评估工具,有助于研究人员更高效地评估模型性能。TAGLAS的开源项目为图学习和自然语言处理领域的研究者提供了一个强大的工具,有望推动图语言多模态模型和图基础模型的研究。
相关研究论文
  • 1
    TAGLAS: An atlas of text-attributed graph datasets in the era of large graph and language models圣路易斯华盛顿大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作