TAGLAS

github2024-06-12 更新2024-06-13 收录

下载链接：

https://github.com/JiaruiFeng/TAGLAS

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库收集了来自不同来源的多个文本属性图（TAG）数据集，并提供了一种统一的前处理和加载方法。我们还提供了一个标准化的任务生成管道，用于评估GNN/LLM在这些数据集上的性能。

This repository aggregates multiple text-attributed graph (TAG) datasets from various sources and offers a unified preprocessing and loading methodology. Additionally, we provide a standardized task generation pipeline designed to evaluate the performance of GNNs/LLMs on these datasets.

创建时间：

2024-06-11

原始信息汇总

数据集概述

数据集统计信息

数据集 (key)	平均节点数	平均边数	图数量	任务级别	任务类型	数据分割 (train/val/test)	领域	描述	来源
Cora_node (cora_node)	2708	10556	1	Node	7-way classification	140/500/2068	Co-Citation	预测论文类别	Graph-LLM, OFA
Cora_link (cora_link)	2708	10556	1	Link	Binary classification	17944/1056/2112	Co-Citation	预测两篇论文是否被其他论文共同引用	Graph-LLM, OFA
Pubmed_node (pubmed_node)	19717	88648	1	Node	3-way classification	60/500/19157	Co-Citation	预测论文类别	Graph-LLM, OFA
Pubmed_link (pubmed_link)	19717	88468	1	Link	Binary classification	150700/8866/17730	Co-Citation	预测两篇论文是否被其他论文共同引用	Graph-LLM, OFA
Arxiv (arxiv)	169343	1166243	1	Node	40-way classification	90941/29799/48603	Citation	预测论文类别	OGB, OFA
WikiCS (wikics)	11701	216123	1	Node	10-way classification	580/1769/5847	Wiki page	预测Wiki页面的类别	PyG, OFA
Product-subset (products)	54025	144638	1	Node	47-way classification	14695/1567/36982	Co-purchase	预测产品类别	TAPE
FB15K237 (fb15k237)	14541	310116	1	Link	237-way classification	272115/17535/20466	Knowledge graph	预测两个实体之间的关系	OFA
WN18RR (wn18rr)	40943	93003	1	Link	11-way classification	86835/3034/3134	Knowledge graph	预测两个实体之间的关系	OFA
MovieLens-1m (ml1m)	9923	2000418	1	Link	regression/5-way	850177/50011/100021	Movie rating	预测用户和电影之间的评分	PyG
Chembl_pretrain (chemblpre)	25.87	55.92	365065	Graph	1048-way binary classification	341952/0/0	molecular	预测分子对多种分析的有效性	GIMLET, OFA
PCBA (pcba)	25.97	56.20	437929	Graph	128-way binary classification	349854/43650/43588	molecular	预测分子对多种分析的有效性	GIMLET, OFA
HIV (hiv)	25.51	54.94	41127	Graph	Binary classification	32901/4113/4113	molecular	预测分子对HIV的有效性	GIMLET, OFA
BBBP (bbbp)	24.06	51.91	2039	Graph	Binary classification	1631/204/204	molecular	预测分子对脑血屏障的有效性	GIMLET, OFA
BACE (bace)	34.09	73.72	1513	Graph	Binary classification	1210/151/152	molecular	预测分子对BACE1蛋白酶的有效性	GIMLET, OFA
toxcast (toxcast)	18.76	38.50	8575	Graph	588-way binary classification	6859/858/858	molecular	预测分子对多种分析的有效性	GIMLET, OFA
esol (esol)	13.29	27.35	1128	Graph	Regression	902/113/113	molecular	预测分子的溶解度	GIMLET, OFA
freesolv (freesolv)	8.72	16.76	642	Graph	Regression	513/64/65	molecular	预测分子的自由水合能	GIMLET, OFA
lipo (lipo)	27.04	59.00	4200	Graph	Regression	3360/420/420	molecular	预测分子的亲脂性	GIMLET, OFA
cyp450 (cyp450)	24.52	53.02	16896	Graph	5-way binary classification	13516/1690/1690	molecular	预测分子对CYP450酶家族的有效性	GIMLET, OFA
tox21 (tox21)	18.57	38.59	7831	Graph	12-way binary classification	6264/783/784	molecular	预测分子对多种分析的有效性	GIMLET, OFA
muv (muv)	24.23	52.56	93087	Graph	17-way binary classification	74469/9309/9309	molecular	预测分子对多种分析的有效性	GIMLET, OFA
ExplaGraphs (expla_graph)	5.17	4.25	2766	Graph	Question Answering	1659/553/554	Commonsense	常识推理	G-retriver
SceneGraphs (scene_graph)	19.13	68.44	100000	Graph	Question Answering	59978/19997/20025	scene graph	场景图问题回答	G-retriver
MAG240m-subset (mag240m)	5875010	26434726	1	Node	153-way classification	900722/63337/63338/132585	Citation	预测论文类别	OGB
Ultrachat200k (ultrachat200k)	3.72	2.72	449929	Graph	Question Answering	400000/20000/29929	Conversation	根据之前的对话回答问题	UltraChat200k

数据集加载

加载数据集

基本加载方式: 使用数据集的关键字（key）进行加载。例如，加载Arxiv数据集： python from TAGLAS import get_dataset dataset = get_dataset("arxiv")
加载多个数据集: 同时加载多个数据集： python from TAGLAS import get_datasets dataset_list = get_datasets(["arxiv", "pcba"])
自定义数据路径: 可以设置root参数来改变数据文件的存储路径： python from TAGLAS import get_datasets dataset_list = get_datasets(["arxiv", "pcba"], root="your_path")
带参数加载: 对于某些数据集，可以添加额外参数进行加载： python from TAGLAS import get_dataset dataset = get_dataset("fb15k237", to_undirected=False)
直接导入数据集类: 直接从数据集类导入也是支持的： python from TAGLAS.datasets import Arxiv dataset = Arxiv()

数据键描述和基本使用

数据样本存储: 所有数据样本存储在TAGData类中，该类继承自torch_geometric包中的Data类。
常用键:
- x: 所有节点的文本特征。
- node_map: 节点索引到节点文本特征的映射。
- edge_attr: 所有边的文本特征。
- edge_map: 边索引到边文本特征的映射。
- label: 所有标签的文本特征。
- label_map: 标签索引到标签文本特征的映射。
- edge_index: 图结构。
示例: python from TAGLAS import get_dataset dataset = get_dataset("arxiv") x = dataset.x # 获取整个数据集的节点文本特征 data = dataset[0] # 获取数据集中的第一个图样本 edge_attr = data.edge_attr # 获取样本的边文本特征

任务加载

加载任务

加载特定任务: 通过调用get_task函数加载特定任务： python from TAGLAS import get_task task = get_task("cora_node", "default")
加载多个任务: 同时加载多个任务： python from TAGLAS import get_tasks tasks = get_tasks(["cora_node", "arxiv", "wn18rr", "scene_graph"], "QA")
保存和加载任务: 可以保存和加载生成的任务以加快加载速度和重复实验： python from TAGLAS import get_task arxiv_task = get_task("arxiv", "subgraph_text", split="test", save_data=True, load_saved=True)
直接构造任务: 直接从数据集构造任务也是支持的： python from TAGLAS.datasets import Arxiv from TAGLAS.tasks import SubgraphTextNPTask dataset = Arxiv() task = SubgraphTextNPTask(dataset)

文本特征转换为句子嵌入

转换功能: 对于default_text, subgraph_text, 和 QA任务类型，提供将文本特征转换为句子嵌入的功能： python from TAGLAS import get_task from TAGLAS.tasks.text_encoder import SentenceEncoder encoder_name = "ST" encoder = SentenceEncoder(encoder_name) arxiv_task = get_task("arxiv", "subgraph_text", split="test") arxiv_task.convert_text_to_embedding(encoder_name, encoder)
支持的模型: 支持多种常用的LLMs进行句子嵌入，如ST, BERT, e5, llama2_7b, llama2_13b等。

批处理

批处理功能: 提供统一的批处理函数： python from TAGLAS import get_task arxiv_task = get_task("arxiv", "subgraph_text", split="test") batch = arxiv_task.collate([arxiv_task[i] for i in range(16)])

搜集汇总

数据集介绍

构建方式

TAGLAS数据集通过整合来自多个来源的文本属性图（TAG）数据，构建了一个统一的数据预处理和加载框架。该数据集不仅涵盖了从学术引用网络到分子结构等多种领域，还提供了标准化的任务生成管道，以评估图神经网络（GNN）和大型语言模型（LLM）在这些数据集上的性能。数据集的构建过程中，每个数据源都被精细地处理，以确保数据的一致性和可用性，从而为研究者提供了一个高质量的实验平台。

特点

TAGLAS数据集的显著特点在于其多样性和综合性。它包含了从节点分类到链接预测等多种任务类型，涵盖了学术引用、知识图谱、分子结构等多个领域。此外，数据集还支持多种任务生成方式，如默认任务、文本任务、子图任务和问答任务，使得研究者可以根据具体需求灵活选择。数据集的结构设计也考虑到了大规模数据的高效处理，确保了在不同模型和算法上的广泛适用性。

使用方法

使用TAGLAS数据集时，用户可以通过简单的API调用来加载所需的数据集和任务。例如，通过`get_dataset`函数可以加载特定的数据集，而`get_task`函数则可以生成相应的任务。数据集的加载支持自定义路径设置，以适应不同的存储需求。此外，数据集还提供了将文本特征转换为句子嵌入的功能，支持多种预训练语言模型，如Sentence Transformer、BERT等，从而增强了数据集在自然语言处理任务中的应用潜力。

背景与挑战

背景概述

TAGLAS数据集是由多个来源的文本属性图（TAG）数据集整合而成，旨在为图神经网络（GNN）和大型语言模型（LLM）提供统一的预处理和加载方法。该数据集由主要研究人员或机构于2024年6月首次发布，其核心研究问题在于评估GNN和LLM在处理这些复杂图数据上的性能。TAGLAS不仅整合了多种领域的数据集，还提供了一个标准化的任务生成管道，对图神经网络和大型语言模型的研究具有重要影响。

当前挑战

TAGLAS数据集面临的挑战主要包括数据集的多样性和复杂性。首先，不同来源的数据集在结构和任务类型上存在显著差异，这要求在预处理和加载过程中进行统一的标准化处理。其次，构建过程中需要处理大量的文本和图数据，这对计算资源和算法效率提出了高要求。此外，如何有效地将文本特征转化为模型可用的嵌入表示，以及如何在不同任务类型之间进行有效的转换，也是TAGLAS需要解决的重要问题。

常用场景

经典使用场景

TAGLAS数据集在文本属性图（TAG）领域中具有广泛的应用，尤其在图神经网络（GNN）和大型语言模型（LLM）的性能评估中表现突出。其经典使用场景包括节点分类、链接预测和图分类等任务。例如，Cora_node数据集用于7-way分类任务，旨在预测论文的类别；而Cora_link数据集则用于二分类任务，预测两篇论文是否被其他论文共同引用。这些任务不仅展示了TAGLAS在不同图结构上的适应性，还为研究者提供了一个标准化的评估框架。

衍生相关工作

TAGLAS数据集的发布和标准化处理方法催生了多个相关领域的经典工作。例如，基于TAGLAS的节点分类任务，研究者开发了多种图神经网络模型，如GraphSAGE和GAT，这些模型在多个基准数据集上展示了优越的性能。在链接预测任务中，TAGLAS为研究者提供了丰富的数据支持，促进了如TransE和RotatE等知识图谱嵌入模型的研究。此外，TAGLAS的标准化任务生成管道还启发了多个跨领域的研究，如将图神经网络与自然语言处理模型结合，用于处理复杂的文本属性图任务。这些衍生工作不仅扩展了TAGLAS的应用范围，还推动了图神经网络和大型语言模型在多个科学领域的融合与发展。

数据集最近研究