Cora,Pubmed,OGBN-Arxiv,OGBN-Products

github2025-02-24 更新2025-03-04 收录

下载链接：

https://github.com/myflashbarry/LLM-benchmarking

下载链接

链接失效反馈

官方服务：

资源简介：

Cora是一个引文数据集，用于节点和链接任务；Pubmed是一个引文数据集，用于节点和链接任务；OGBN-Arxiv是一个引文数据集，用于节点和链接任务；OGBN-Products是一个电子商务数据集，用于节点和链接任务。

Cora is a citation dataset for node and link tasks; Pubmed is a citation dataset for node and link tasks; OGBN-Arxiv is a citation dataset for node and link tasks; OGBN-Products is an e-commerce dataset for node and link tasks.

创建时间：

2025-02-13

原始信息汇总

数据集概述

1. 数据集基本信息

名称: Exploring Graph Tasks with LLMs: A Comprehensive Benchmark and Investigation
许可证: MIT
编程语言: Python (>=3.9)
依赖项:
- 主要依赖: numpy, pytorch==2.0.1, pytorch-cuda=12.2, torch_geometric, pandas, torchmetrics, Deprecated
- 其他依赖: openai, Huggingface, ogb (详见requirements.txt)

2. 数据集详情

包含的数据集

数据集	领域	任务	图数量	节点数	边数	类别数	评估指标	默认特征
Cora	引用网络	节点分类, 链接预测	1	2,708	5,429	7	准确率	词袋模型
Pubmed	引用网络	节点分类, 链接预测	1	19,717	44,338	3	准确率	TF-IDF
OGBN-Arxiv	引用网络	节点分类, 链接预测	1	169,343	1,166,243	40	准确率	Skip-gram
OGBN-Products	电子商务	节点分类, 链接预测	1	2,449,029	61,859,140	47	准确率	词袋模型

数据集下载与预处理

Cora和PubMed: 需从指定GitHub仓库下载并放置于/dataset/cora/和/dataset/pubmed/目录
OGBN-Arxiv和OGBN-Product:
- 数据集自动下载
- 需手动下载原始文本文件:
  - OGBN-Arxiv: 从指定链接下载并放置于/dataset/ogbn_arxiv/titleabs.tsv
  - OGBN-Product: 从Google Drive下载并放置于/dataset/ogbn-products/Amazon-3M.raw

3. 基准模型

模型分类

GNNs: GCN, GraphSAGE, GAT, Mixhop (来自OGB Leaderboards)
图自监督学习模型: GraphCL, GraphMAE
图Transformer: Graphormer
基础图提示模型: Prodigy, OFA, All in one, GPF-plus, GraphPrompt, ZeroG
LM增强图学习模型: GIANT, TAPE
带图投影器的LLM: LLaGA

4. 快速开始

图编码

将原始图数据集与文本属性结合编码为LLM可理解的提示格式
生成命令: shell cd generate
节点分类提示生成
python run_generate_node.py
链接预测提示生成
python run_generate_link.py

LLM指令微调

使用生成的提示对LLM进行微调
示例命令: shell bash lora_sft/train_llama_3B_Instruct_arxiv_node.sh

LLM推理

提供针对不同LLM的推理代码
示例命令: shell
节点分类
python Llama_Instruct_node.py --dataset_name cora --model_size 3B --scenario full fine-tune --mode neighbors --hop "1 hop" --huggingface_token your_huggingface_token
链接预测
python Llama_Instruct_link.py --dataset_name arxiv --model_size 3B --scenario "2 formats" --case "1 hop" --huggingface_token your_huggingface_token

搜集汇总

数据集介绍

构建方式

该数据集的构建主要涉及将原始图数据与对应的文本属性相结合，通过预定义的比例划分训练、验证和测试集，并利用特定的函数对数据进行加载和预处理，最终保存为.pt和.pkl格式的文件，以供后续的模型训练和推理使用。

特点

数据集特点在于涵盖了多个领域的引用图数据，包括学术论文和电子商务产品，具有不同规模和复杂性的图结构，以及丰富的节点和边特征。此外，所有数据集均提供了默认的特征表示，如Bag-of-Words、TF-IDF和Skip-gram等。

使用方法

使用该数据集时，首先需确保系统环境配置正确，包括安装Anaconda、PyTorch等依赖库。数据集可通过提供的脚本自动下载或从指定链接手动下载。数据预处理后，可通过生成提示（prompts）的方式训练LLM模型进行节点分类和链接预测任务，训练后的模型和结果将保存在相应的文件夹中。

背景与挑战

背景概述

Cora、Pubmed、OGBN-Arxiv和OGBN-Products数据集均属于图领域数据集，它们涵盖了引文和电子商务等不同领域。这些数据集的创建旨在为图任务，如节点分类和链接预测，提供统一和综合的基准。Cora和Pubmed数据集较早被创建，分别包含2708个节点和19717个节点，主要用于学术领域的引文分析。OGBN-Arxiv和OGBN-Products则分别包含169343个节点和2449029个节点，是更大规模的图数据集，其中OGBN-Arxiv专注于学术文献，OGBN-Products则专注于产品关系网络。这些数据集由多个研究团队共同维护，对图学习领域的研究和发展产生了深远影响。

当前挑战

这些数据集在构建和应用过程中面临的挑战包括：1) 数据集规模和复杂性的增加，对算法的可扩展性和效率提出了更高要求；2) 多样化的任务类型（节点分类、链接预测等）需要不同的数据处理和模型适应策略；3) 需要有效地整合图结构和文本属性，以增强模型对复杂关系的理解能力；4) 在保持数据隐私和遵守法律法规的前提下，构建可重用和可访问的数据集。

常用场景

经典使用场景

Cora、Pubmed、OGBN-Arxiv和OGBN-Products数据集在图任务研究领域被广泛运用，其经典使用场景主要涉及节点分类和链接预测任务，通过对学术文献或电子商务数据的深入分析，为研究人员提供了一种探索图任务与大型语言模型（LLM）结合的综合基准和调查手段。

实际应用

在实际应用场景中，这些数据集的应用范围广泛，如在学术文献分析、社交网络挖掘、推荐系统、知识图谱构建等领域，它们为相关任务提供了关键的数据支持，使得模型能够从中学习到丰富的图结构和语义信息。

衍生相关工作

基于这些数据集，衍生出了大量经典工作，包括图神经网络模型的改进、预训练策略的研究、图表示学习的新方法等，这些工作不断推动着图学习领域的技术进步和理论深化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集