five

TAGLAS|图数据数据集|机器学习评估数据集

收藏
github2024-06-12 更新2024-06-13 收录
图数据
机器学习评估
下载链接:
https://github.com/JiaruiFeng/TAGLAS
下载链接
链接失效反馈
资源简介:
本仓库收集了来自不同来源的多个文本属性图(TAG)数据集,并提供了一种统一的前处理和加载方法。我们还提供了一个标准化的任务生成管道,用于评估GNN/LLM在这些数据集上的性能。

This repository aggregates multiple text-attributed graph (TAG) datasets from various sources and offers a unified preprocessing and loading methodology. Additionally, we provide a standardized task generation pipeline designed to evaluate the performance of GNNs/LLMs on these datasets.
创建时间:
2024-06-11
原始信息汇总

数据集概述

数据集统计信息

数据集 (key) 平均节点数 平均边数 图数量 任务级别 任务类型 数据分割 (train/val/test) 领域 描述 来源
Cora_node (cora_node) 2708 10556 1 Node 7-way classification 140/500/2068 Co-Citation 预测论文类别 Graph-LLM, OFA
Cora_link (cora_link) 2708 10556 1 Link Binary classification 17944/1056/2112 Co-Citation 预测两篇论文是否被其他论文共同引用 Graph-LLM, OFA
Pubmed_node (pubmed_node) 19717 88648 1 Node 3-way classification 60/500/19157 Co-Citation 预测论文类别 Graph-LLM, OFA
Pubmed_link (pubmed_link) 19717 88468 1 Link Binary classification 150700/8866/17730 Co-Citation 预测两篇论文是否被其他论文共同引用 Graph-LLM, OFA
Arxiv (arxiv) 169343 1166243 1 Node 40-way classification 90941/29799/48603 Citation 预测论文类别 OGB, OFA
WikiCS (wikics) 11701 216123 1 Node 10-way classification 580/1769/5847 Wiki page 预测Wiki页面的类别 PyG, OFA
Product-subset (products) 54025 144638 1 Node 47-way classification 14695/1567/36982 Co-purchase 预测产品类别 TAPE
FB15K237 (fb15k237) 14541 310116 1 Link 237-way classification 272115/17535/20466 Knowledge graph 预测两个实体之间的关系 OFA
WN18RR (wn18rr) 40943 93003 1 Link 11-way classification 86835/3034/3134 Knowledge graph 预测两个实体之间的关系 OFA
MovieLens-1m (ml1m) 9923 2000418 1 Link regression/5-way 850177/50011/100021 Movie rating 预测用户和电影之间的评分 PyG
Chembl_pretrain (chemblpre) 25.87 55.92 365065 Graph 1048-way binary classification 341952/0/0 molecular 预测分子对多种分析的有效性 GIMLET, OFA
PCBA (pcba) 25.97 56.20 437929 Graph 128-way binary classification 349854/43650/43588 molecular 预测分子对多种分析的有效性 GIMLET, OFA
HIV (hiv) 25.51 54.94 41127 Graph Binary classification 32901/4113/4113 molecular 预测分子对HIV的有效性 GIMLET, OFA
BBBP (bbbp) 24.06 51.91 2039 Graph Binary classification 1631/204/204 molecular 预测分子对脑血屏障的有效性 GIMLET, OFA
BACE (bace) 34.09 73.72 1513 Graph Binary classification 1210/151/152 molecular 预测分子对BACE1蛋白酶的有效性 GIMLET, OFA
toxcast (toxcast) 18.76 38.50 8575 Graph 588-way binary classification 6859/858/858 molecular 预测分子对多种分析的有效性 GIMLET, OFA
esol (esol) 13.29 27.35 1128 Graph Regression 902/113/113 molecular 预测分子的溶解度 GIMLET, OFA
freesolv (freesolv) 8.72 16.76 642 Graph Regression 513/64/65 molecular 预测分子的自由水合能 GIMLET, OFA
lipo (lipo) 27.04 59.00 4200 Graph Regression 3360/420/420 molecular 预测分子的亲脂性 GIMLET, OFA
cyp450 (cyp450) 24.52 53.02 16896 Graph 5-way binary classification 13516/1690/1690 molecular 预测分子对CYP450酶家族的有效性 GIMLET, OFA
tox21 (tox21) 18.57 38.59 7831 Graph 12-way binary classification 6264/783/784 molecular 预测分子对多种分析的有效性 GIMLET, OFA
muv (muv) 24.23 52.56 93087 Graph 17-way binary classification 74469/9309/9309 molecular 预测分子对多种分析的有效性 GIMLET, OFA
ExplaGraphs (expla_graph) 5.17 4.25 2766 Graph Question Answering 1659/553/554 Commonsense 常识推理 G-retriver
SceneGraphs (scene_graph) 19.13 68.44 100000 Graph Question Answering 59978/19997/20025 scene graph 场景图问题回答 G-retriver
MAG240m-subset (mag240m) 5875010 26434726 1 Node 153-way classification 900722/63337/63338/132585 Citation 预测论文类别 OGB
Ultrachat200k (ultrachat200k) 3.72 2.72 449929 Graph Question Answering 400000/20000/29929 Conversation 根据之前的对话回答问题 UltraChat200k

数据集加载

加载数据集

  • 基本加载方式: 使用数据集的关键字(key)进行加载。例如,加载Arxiv数据集: python from TAGLAS import get_dataset dataset = get_dataset("arxiv")

  • 加载多个数据集: 同时加载多个数据集: python from TAGLAS import get_datasets dataset_list = get_datasets(["arxiv", "pcba"])

  • 自定义数据路径: 可以设置root参数来改变数据文件的存储路径: python from TAGLAS import get_datasets dataset_list = get_datasets(["arxiv", "pcba"], root="your_path")

  • 带参数加载: 对于某些数据集,可以添加额外参数进行加载: python from TAGLAS import get_dataset dataset = get_dataset("fb15k237", to_undirected=False)

  • 直接导入数据集类: 直接从数据集类导入也是支持的: python from TAGLAS.datasets import Arxiv dataset = Arxiv()

数据键描述和基本使用

  • 数据样本存储: 所有数据样本存储在TAGData类中,该类继承自torch_geometric包中的Data类。

  • 常用键:

    • x: 所有节点的文本特征。
    • node_map: 节点索引到节点文本特征的映射。
    • edge_attr: 所有边的文本特征。
    • edge_map: 边索引到边文本特征的映射。
    • label: 所有标签的文本特征。
    • label_map: 标签索引到标签文本特征的映射。
    • edge_index: 图结构。
  • 示例: python from TAGLAS import get_dataset dataset = get_dataset("arxiv") x = dataset.x # 获取整个数据集的节点文本特征 data = dataset[0] # 获取数据集中的第一个图样本 edge_attr = data.edge_attr # 获取样本的边文本特征

任务加载

加载任务

  • 加载特定任务: 通过调用get_task函数加载特定任务: python from TAGLAS import get_task task = get_task("cora_node", "default")

  • 加载多个任务: 同时加载多个任务: python from TAGLAS import get_tasks tasks = get_tasks(["cora_node", "arxiv", "wn18rr", "scene_graph"], "QA")

  • 保存和加载任务: 可以保存和加载生成的任务以加快加载速度和重复实验: python from TAGLAS import get_task arxiv_task = get_task("arxiv", "subgraph_text", split="test", save_data=True, load_saved=True)

  • 直接构造任务: 直接从数据集构造任务也是支持的: python from TAGLAS.datasets import Arxiv from TAGLAS.tasks import SubgraphTextNPTask dataset = Arxiv() task = SubgraphTextNPTask(dataset)

文本特征转换为句子嵌入

  • 转换功能: 对于default_text, subgraph_text, 和 QA任务类型,提供将文本特征转换为句子嵌入的功能: python from TAGLAS import get_task from TAGLAS.tasks.text_encoder import SentenceEncoder encoder_name = "ST" encoder = SentenceEncoder(encoder_name) arxiv_task = get_task("arxiv", "subgraph_text", split="test") arxiv_task.convert_text_to_embedding(encoder_name, encoder)

  • 支持的模型: 支持多种常用的LLMs进行句子嵌入,如ST, BERT, e5, llama2_7b, llama2_13b等。

批处理

  • 批处理功能: 提供统一的批处理函数: python from TAGLAS import get_task arxiv_task = get_task("arxiv", "subgraph_text", split="test") batch = arxiv_task.collate([arxiv_task[i] for i in range(16)])
AI搜集汇总
数据集介绍
main_image_url
构建方式
TAGLAS数据集通过整合来自多个来源的文本属性图(TAG)数据,构建了一个统一的数据预处理和加载框架。该数据集不仅涵盖了从学术引用网络到分子结构等多种领域,还提供了标准化的任务生成管道,以评估图神经网络(GNN)和大型语言模型(LLM)在这些数据集上的性能。数据集的构建过程中,每个数据源都被精细地处理,以确保数据的一致性和可用性,从而为研究者提供了一个高质量的实验平台。
特点
TAGLAS数据集的显著特点在于其多样性和综合性。它包含了从节点分类到链接预测等多种任务类型,涵盖了学术引用、知识图谱、分子结构等多个领域。此外,数据集还支持多种任务生成方式,如默认任务、文本任务、子图任务和问答任务,使得研究者可以根据具体需求灵活选择。数据集的结构设计也考虑到了大规模数据的高效处理,确保了在不同模型和算法上的广泛适用性。
使用方法
使用TAGLAS数据集时,用户可以通过简单的API调用来加载所需的数据集和任务。例如,通过`get_dataset`函数可以加载特定的数据集,而`get_task`函数则可以生成相应的任务。数据集的加载支持自定义路径设置,以适应不同的存储需求。此外,数据集还提供了将文本特征转换为句子嵌入的功能,支持多种预训练语言模型,如Sentence Transformer、BERT等,从而增强了数据集在自然语言处理任务中的应用潜力。
背景与挑战
背景概述
TAGLAS数据集是由多个来源的文本属性图(TAG)数据集整合而成,旨在为图神经网络(GNN)和大型语言模型(LLM)提供统一的预处理和加载方法。该数据集由主要研究人员或机构于2024年6月首次发布,其核心研究问题在于评估GNN和LLM在处理这些复杂图数据上的性能。TAGLAS不仅整合了多种领域的数据集,还提供了一个标准化的任务生成管道,对图神经网络和大型语言模型的研究具有重要影响。
当前挑战
TAGLAS数据集面临的挑战主要包括数据集的多样性和复杂性。首先,不同来源的数据集在结构和任务类型上存在显著差异,这要求在预处理和加载过程中进行统一的标准化处理。其次,构建过程中需要处理大量的文本和图数据,这对计算资源和算法效率提出了高要求。此外,如何有效地将文本特征转化为模型可用的嵌入表示,以及如何在不同任务类型之间进行有效的转换,也是TAGLAS需要解决的重要问题。
常用场景
经典使用场景
TAGLAS数据集在文本属性图(TAG)领域中具有广泛的应用,尤其在图神经网络(GNN)和大型语言模型(LLM)的性能评估中表现突出。其经典使用场景包括节点分类、链接预测和图分类等任务。例如,Cora_node数据集用于7-way分类任务,旨在预测论文的类别;而Cora_link数据集则用于二分类任务,预测两篇论文是否被其他论文共同引用。这些任务不仅展示了TAGLAS在不同图结构上的适应性,还为研究者提供了一个标准化的评估框架。
衍生相关工作
TAGLAS数据集的发布和标准化处理方法催生了多个相关领域的经典工作。例如,基于TAGLAS的节点分类任务,研究者开发了多种图神经网络模型,如GraphSAGE和GAT,这些模型在多个基准数据集上展示了优越的性能。在链接预测任务中,TAGLAS为研究者提供了丰富的数据支持,促进了如TransE和RotatE等知识图谱嵌入模型的研究。此外,TAGLAS的标准化任务生成管道还启发了多个跨领域的研究,如将图神经网络与自然语言处理模型结合,用于处理复杂的文本属性图任务。这些衍生工作不仅扩展了TAGLAS的应用范围,还推动了图神经网络和大型语言模型在多个科学领域的融合与发展。
数据集最近研究
最新研究方向
在文本属性图(TAG)领域,TAGLAS数据集的最新研究方向主要集中在利用图神经网络(GNN)和大型语言模型(LLM)对文本属性图进行高效处理和分析。研究者们致力于开发统一的预处理和加载方法,以标准化任务生成流程,从而评估GNN和LLM在这些数据集上的性能。此外,研究还涉及将文本特征转换为句子嵌入,以提升模型在节点分类、链接预测和图级别任务中的表现。随着TAGLAS数据集的不断扩展和完善,未来研究将进一步探索其在多领域应用中的潜力,特别是在分子结构预测、知识图谱构建和场景图理解等前沿领域。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

CHIRPS v2.0

CHIRPS v2.0是一个全球降水数据集,提供高分辨率的降水估计,结合了卫星观测和气象站数据。数据集覆盖全球,时间范围从1981年至今,空间分辨率为0.05度。

www.chc.ucsb.edu 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

Student Score Dataset

这是一个关于不同族裔学生成绩的数据集,涵盖了多个学科的成绩分析。

github 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录