five

TAGLAS

收藏
github2024-06-12 更新2024-06-13 收录
下载链接:
https://github.com/JiaruiFeng/TAGLAS
下载链接
链接失效反馈
官方服务:
资源简介:
本仓库收集了来自不同来源的多个文本属性图(TAG)数据集,并提供了一种统一的前处理和加载方法。我们还提供了一个标准化的任务生成管道,用于评估GNN/LLM在这些数据集上的性能。

This repository aggregates multiple text-attributed graph (TAG) datasets from various sources and offers a unified preprocessing and loading methodology. Additionally, we provide a standardized task generation pipeline designed to evaluate the performance of GNNs/LLMs on these datasets.
创建时间:
2024-06-11
原始信息汇总

数据集概述

数据集统计信息

数据集 (key) 平均节点数 平均边数 图数量 任务级别 任务类型 数据分割 (train/val/test) 领域 描述 来源
Cora_node (cora_node) 2708 10556 1 Node 7-way classification 140/500/2068 Co-Citation 预测论文类别 Graph-LLM, OFA
Cora_link (cora_link) 2708 10556 1 Link Binary classification 17944/1056/2112 Co-Citation 预测两篇论文是否被其他论文共同引用 Graph-LLM, OFA
Pubmed_node (pubmed_node) 19717 88648 1 Node 3-way classification 60/500/19157 Co-Citation 预测论文类别 Graph-LLM, OFA
Pubmed_link (pubmed_link) 19717 88468 1 Link Binary classification 150700/8866/17730 Co-Citation 预测两篇论文是否被其他论文共同引用 Graph-LLM, OFA
Arxiv (arxiv) 169343 1166243 1 Node 40-way classification 90941/29799/48603 Citation 预测论文类别 OGB, OFA
WikiCS (wikics) 11701 216123 1 Node 10-way classification 580/1769/5847 Wiki page 预测Wiki页面的类别 PyG, OFA
Product-subset (products) 54025 144638 1 Node 47-way classification 14695/1567/36982 Co-purchase 预测产品类别 TAPE
FB15K237 (fb15k237) 14541 310116 1 Link 237-way classification 272115/17535/20466 Knowledge graph 预测两个实体之间的关系 OFA
WN18RR (wn18rr) 40943 93003 1 Link 11-way classification 86835/3034/3134 Knowledge graph 预测两个实体之间的关系 OFA
MovieLens-1m (ml1m) 9923 2000418 1 Link regression/5-way 850177/50011/100021 Movie rating 预测用户和电影之间的评分 PyG
Chembl_pretrain (chemblpre) 25.87 55.92 365065 Graph 1048-way binary classification 341952/0/0 molecular 预测分子对多种分析的有效性 GIMLET, OFA
PCBA (pcba) 25.97 56.20 437929 Graph 128-way binary classification 349854/43650/43588 molecular 预测分子对多种分析的有效性 GIMLET, OFA
HIV (hiv) 25.51 54.94 41127 Graph Binary classification 32901/4113/4113 molecular 预测分子对HIV的有效性 GIMLET, OFA
BBBP (bbbp) 24.06 51.91 2039 Graph Binary classification 1631/204/204 molecular 预测分子对脑血屏障的有效性 GIMLET, OFA
BACE (bace) 34.09 73.72 1513 Graph Binary classification 1210/151/152 molecular 预测分子对BACE1蛋白酶的有效性 GIMLET, OFA
toxcast (toxcast) 18.76 38.50 8575 Graph 588-way binary classification 6859/858/858 molecular 预测分子对多种分析的有效性 GIMLET, OFA
esol (esol) 13.29 27.35 1128 Graph Regression 902/113/113 molecular 预测分子的溶解度 GIMLET, OFA
freesolv (freesolv) 8.72 16.76 642 Graph Regression 513/64/65 molecular 预测分子的自由水合能 GIMLET, OFA
lipo (lipo) 27.04 59.00 4200 Graph Regression 3360/420/420 molecular 预测分子的亲脂性 GIMLET, OFA
cyp450 (cyp450) 24.52 53.02 16896 Graph 5-way binary classification 13516/1690/1690 molecular 预测分子对CYP450酶家族的有效性 GIMLET, OFA
tox21 (tox21) 18.57 38.59 7831 Graph 12-way binary classification 6264/783/784 molecular 预测分子对多种分析的有效性 GIMLET, OFA
muv (muv) 24.23 52.56 93087 Graph 17-way binary classification 74469/9309/9309 molecular 预测分子对多种分析的有效性 GIMLET, OFA
ExplaGraphs (expla_graph) 5.17 4.25 2766 Graph Question Answering 1659/553/554 Commonsense 常识推理 G-retriver
SceneGraphs (scene_graph) 19.13 68.44 100000 Graph Question Answering 59978/19997/20025 scene graph 场景图问题回答 G-retriver
MAG240m-subset (mag240m) 5875010 26434726 1 Node 153-way classification 900722/63337/63338/132585 Citation 预测论文类别 OGB
Ultrachat200k (ultrachat200k) 3.72 2.72 449929 Graph Question Answering 400000/20000/29929 Conversation 根据之前的对话回答问题 UltraChat200k

数据集加载

加载数据集

  • 基本加载方式: 使用数据集的关键字(key)进行加载。例如,加载Arxiv数据集: python from TAGLAS import get_dataset dataset = get_dataset("arxiv")

  • 加载多个数据集: 同时加载多个数据集: python from TAGLAS import get_datasets dataset_list = get_datasets(["arxiv", "pcba"])

  • 自定义数据路径: 可以设置root参数来改变数据文件的存储路径: python from TAGLAS import get_datasets dataset_list = get_datasets(["arxiv", "pcba"], root="your_path")

  • 带参数加载: 对于某些数据集,可以添加额外参数进行加载: python from TAGLAS import get_dataset dataset = get_dataset("fb15k237", to_undirected=False)

  • 直接导入数据集类: 直接从数据集类导入也是支持的: python from TAGLAS.datasets import Arxiv dataset = Arxiv()

数据键描述和基本使用

  • 数据样本存储: 所有数据样本存储在TAGData类中,该类继承自torch_geometric包中的Data类。

  • 常用键:

    • x: 所有节点的文本特征。
    • node_map: 节点索引到节点文本特征的映射。
    • edge_attr: 所有边的文本特征。
    • edge_map: 边索引到边文本特征的映射。
    • label: 所有标签的文本特征。
    • label_map: 标签索引到标签文本特征的映射。
    • edge_index: 图结构。
  • 示例: python from TAGLAS import get_dataset dataset = get_dataset("arxiv") x = dataset.x # 获取整个数据集的节点文本特征 data = dataset[0] # 获取数据集中的第一个图样本 edge_attr = data.edge_attr # 获取样本的边文本特征

任务加载

加载任务

  • 加载特定任务: 通过调用get_task函数加载特定任务: python from TAGLAS import get_task task = get_task("cora_node", "default")

  • 加载多个任务: 同时加载多个任务: python from TAGLAS import get_tasks tasks = get_tasks(["cora_node", "arxiv", "wn18rr", "scene_graph"], "QA")

  • 保存和加载任务: 可以保存和加载生成的任务以加快加载速度和重复实验: python from TAGLAS import get_task arxiv_task = get_task("arxiv", "subgraph_text", split="test", save_data=True, load_saved=True)

  • 直接构造任务: 直接从数据集构造任务也是支持的: python from TAGLAS.datasets import Arxiv from TAGLAS.tasks import SubgraphTextNPTask dataset = Arxiv() task = SubgraphTextNPTask(dataset)

文本特征转换为句子嵌入

  • 转换功能: 对于default_text, subgraph_text, 和 QA任务类型,提供将文本特征转换为句子嵌入的功能: python from TAGLAS import get_task from TAGLAS.tasks.text_encoder import SentenceEncoder encoder_name = "ST" encoder = SentenceEncoder(encoder_name) arxiv_task = get_task("arxiv", "subgraph_text", split="test") arxiv_task.convert_text_to_embedding(encoder_name, encoder)

  • 支持的模型: 支持多种常用的LLMs进行句子嵌入,如ST, BERT, e5, llama2_7b, llama2_13b等。

批处理

  • 批处理功能: 提供统一的批处理函数: python from TAGLAS import get_task arxiv_task = get_task("arxiv", "subgraph_text", split="test") batch = arxiv_task.collate([arxiv_task[i] for i in range(16)])
搜集汇总
数据集介绍
main_image_url
构建方式
TAGLAS数据集通过整合来自多个来源的文本属性图(TAG)数据,构建了一个统一的数据预处理和加载框架。该数据集不仅涵盖了从学术引用网络到分子结构等多种领域,还提供了标准化的任务生成管道,以评估图神经网络(GNN)和大型语言模型(LLM)在这些数据集上的性能。数据集的构建过程中,每个数据源都被精细地处理,以确保数据的一致性和可用性,从而为研究者提供了一个高质量的实验平台。
特点
TAGLAS数据集的显著特点在于其多样性和综合性。它包含了从节点分类到链接预测等多种任务类型,涵盖了学术引用、知识图谱、分子结构等多个领域。此外,数据集还支持多种任务生成方式,如默认任务、文本任务、子图任务和问答任务,使得研究者可以根据具体需求灵活选择。数据集的结构设计也考虑到了大规模数据的高效处理,确保了在不同模型和算法上的广泛适用性。
使用方法
使用TAGLAS数据集时,用户可以通过简单的API调用来加载所需的数据集和任务。例如,通过`get_dataset`函数可以加载特定的数据集,而`get_task`函数则可以生成相应的任务。数据集的加载支持自定义路径设置,以适应不同的存储需求。此外,数据集还提供了将文本特征转换为句子嵌入的功能,支持多种预训练语言模型,如Sentence Transformer、BERT等,从而增强了数据集在自然语言处理任务中的应用潜力。
背景与挑战
背景概述
TAGLAS数据集是由多个来源的文本属性图(TAG)数据集整合而成,旨在为图神经网络(GNN)和大型语言模型(LLM)提供统一的预处理和加载方法。该数据集由主要研究人员或机构于2024年6月首次发布,其核心研究问题在于评估GNN和LLM在处理这些复杂图数据上的性能。TAGLAS不仅整合了多种领域的数据集,还提供了一个标准化的任务生成管道,对图神经网络和大型语言模型的研究具有重要影响。
当前挑战
TAGLAS数据集面临的挑战主要包括数据集的多样性和复杂性。首先,不同来源的数据集在结构和任务类型上存在显著差异,这要求在预处理和加载过程中进行统一的标准化处理。其次,构建过程中需要处理大量的文本和图数据,这对计算资源和算法效率提出了高要求。此外,如何有效地将文本特征转化为模型可用的嵌入表示,以及如何在不同任务类型之间进行有效的转换,也是TAGLAS需要解决的重要问题。
常用场景
经典使用场景
TAGLAS数据集在文本属性图(TAG)领域中具有广泛的应用,尤其在图神经网络(GNN)和大型语言模型(LLM)的性能评估中表现突出。其经典使用场景包括节点分类、链接预测和图分类等任务。例如,Cora_node数据集用于7-way分类任务,旨在预测论文的类别;而Cora_link数据集则用于二分类任务,预测两篇论文是否被其他论文共同引用。这些任务不仅展示了TAGLAS在不同图结构上的适应性,还为研究者提供了一个标准化的评估框架。
衍生相关工作
TAGLAS数据集的发布和标准化处理方法催生了多个相关领域的经典工作。例如,基于TAGLAS的节点分类任务,研究者开发了多种图神经网络模型,如GraphSAGE和GAT,这些模型在多个基准数据集上展示了优越的性能。在链接预测任务中,TAGLAS为研究者提供了丰富的数据支持,促进了如TransE和RotatE等知识图谱嵌入模型的研究。此外,TAGLAS的标准化任务生成管道还启发了多个跨领域的研究,如将图神经网络与自然语言处理模型结合,用于处理复杂的文本属性图任务。这些衍生工作不仅扩展了TAGLAS的应用范围,还推动了图神经网络和大型语言模型在多个科学领域的融合与发展。
数据集最近研究
最新研究方向
在文本属性图(TAG)领域,TAGLAS数据集的最新研究方向主要集中在利用图神经网络(GNN)和大型语言模型(LLM)对文本属性图进行高效处理和分析。研究者们致力于开发统一的预处理和加载方法,以标准化任务生成流程,从而评估GNN和LLM在这些数据集上的性能。此外,研究还涉及将文本特征转换为句子嵌入,以提升模型在节点分类、链接预测和图级别任务中的表现。随着TAGLAS数据集的不断扩展和完善,未来研究将进一步探索其在多领域应用中的潜力,特别是在分子结构预测、知识图谱构建和场景图理解等前沿领域。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作