Cora,Pubmed,OGBN-Arxiv,OGBN-Products
收藏github2025-02-24 更新2025-03-04 收录
下载链接:
https://github.com/myflashbarry/LLM-benchmarking
下载链接
链接失效反馈官方服务:
资源简介:
Cora是一个引文数据集,用于节点和链接任务;Pubmed是一个引文数据集,用于节点和链接任务;OGBN-Arxiv是一个引文数据集,用于节点和链接任务;OGBN-Products是一个电子商务数据集,用于节点和链接任务。
Cora is a citation dataset for node and link tasks; Pubmed is a citation dataset for node and link tasks; OGBN-Arxiv is a citation dataset for node and link tasks; OGBN-Products is an e-commerce dataset for node and link tasks.
创建时间:
2025-02-13
原始信息汇总
数据集概述
1. 数据集基本信息
- 名称: Exploring Graph Tasks with LLMs: A Comprehensive Benchmark and Investigation
- 许可证: MIT
- 编程语言: Python (>=3.9)
- 依赖项:
- 主要依赖: numpy, pytorch==2.0.1, pytorch-cuda=12.2, torch_geometric, pandas, torchmetrics, Deprecated
- 其他依赖: openai, Huggingface, ogb (详见requirements.txt)
2. 数据集详情
包含的数据集
| 数据集 | 领域 | 任务 | 图数量 | 节点数 | 边数 | 类别数 | 评估指标 | 默认特征 |
|---|---|---|---|---|---|---|---|---|
| Cora | 引用网络 | 节点分类, 链接预测 | 1 | 2,708 | 5,429 | 7 | 准确率 | 词袋模型 |
| Pubmed | 引用网络 | 节点分类, 链接预测 | 1 | 19,717 | 44,338 | 3 | 准确率 | TF-IDF |
| OGBN-Arxiv | 引用网络 | 节点分类, 链接预测 | 1 | 169,343 | 1,166,243 | 40 | 准确率 | Skip-gram |
| OGBN-Products | 电子商务 | 节点分类, 链接预测 | 1 | 2,449,029 | 61,859,140 | 47 | 准确率 | 词袋模型 |
数据集下载与预处理
- Cora和PubMed: 需从指定GitHub仓库下载并放置于
/dataset/cora/和/dataset/pubmed/目录 - OGBN-Arxiv和OGBN-Product:
- 数据集自动下载
- 需手动下载原始文本文件:
- OGBN-Arxiv: 从指定链接下载并放置于
/dataset/ogbn_arxiv/titleabs.tsv - OGBN-Product: 从Google Drive下载并放置于
/dataset/ogbn-products/Amazon-3M.raw
- OGBN-Arxiv: 从指定链接下载并放置于
3. 基准模型
模型分类
- GNNs: GCN, GraphSAGE, GAT, Mixhop (来自OGB Leaderboards)
- 图自监督学习模型: GraphCL, GraphMAE
- 图Transformer: Graphormer
- 基础图提示模型: Prodigy, OFA, All in one, GPF-plus, GraphPrompt, ZeroG
- LM增强图学习模型: GIANT, TAPE
- 带图投影器的LLM: LLaGA
4. 快速开始
图编码
- 将原始图数据集与文本属性结合编码为LLM可理解的提示格式
- 生成命令:
shell
cd generate
节点分类提示生成
python run_generate_node.py链接预测提示生成
python run_generate_link.py
LLM指令微调
- 使用生成的提示对LLM进行微调
- 示例命令: shell bash lora_sft/train_llama_3B_Instruct_arxiv_node.sh
LLM推理
- 提供针对不同LLM的推理代码
- 示例命令:
shell
节点分类
python Llama_Instruct_node.py --dataset_name cora --model_size 3B --scenario full fine-tune --mode neighbors --hop "1 hop" --huggingface_token your_huggingface_token链接预测
python Llama_Instruct_link.py --dataset_name arxiv --model_size 3B --scenario "2 formats" --case "1 hop" --huggingface_token your_huggingface_token
搜集汇总
数据集介绍

构建方式
该数据集的构建主要涉及将原始图数据与对应的文本属性相结合,通过预定义的比例划分训练、验证和测试集,并利用特定的函数对数据进行加载和预处理,最终保存为.pt和.pkl格式的文件,以供后续的模型训练和推理使用。
特点
数据集特点在于涵盖了多个领域的引用图数据,包括学术论文和电子商务产品,具有不同规模和复杂性的图结构,以及丰富的节点和边特征。此外,所有数据集均提供了默认的特征表示,如Bag-of-Words、TF-IDF和Skip-gram等。
使用方法
使用该数据集时,首先需确保系统环境配置正确,包括安装Anaconda、PyTorch等依赖库。数据集可通过提供的脚本自动下载或从指定链接手动下载。数据预处理后,可通过生成提示(prompts)的方式训练LLM模型进行节点分类和链接预测任务,训练后的模型和结果将保存在相应的文件夹中。
背景与挑战
背景概述
Cora、Pubmed、OGBN-Arxiv和OGBN-Products数据集均属于图领域数据集,它们涵盖了引文和电子商务等不同领域。这些数据集的创建旨在为图任务,如节点分类和链接预测,提供统一和综合的基准。Cora和Pubmed数据集较早被创建,分别包含2708个节点和19717个节点,主要用于学术领域的引文分析。OGBN-Arxiv和OGBN-Products则分别包含169343个节点和2449029个节点,是更大规模的图数据集,其中OGBN-Arxiv专注于学术文献,OGBN-Products则专注于产品关系网络。这些数据集由多个研究团队共同维护,对图学习领域的研究和发展产生了深远影响。
当前挑战
这些数据集在构建和应用过程中面临的挑战包括:1) 数据集规模和复杂性的增加,对算法的可扩展性和效率提出了更高要求;2) 多样化的任务类型(节点分类、链接预测等)需要不同的数据处理和模型适应策略;3) 需要有效地整合图结构和文本属性,以增强模型对复杂关系的理解能力;4) 在保持数据隐私和遵守法律法规的前提下,构建可重用和可访问的数据集。
常用场景
经典使用场景
Cora、Pubmed、OGBN-Arxiv和OGBN-Products数据集在图任务研究领域被广泛运用,其经典使用场景主要涉及节点分类和链接预测任务,通过对学术文献或电子商务数据的深入分析,为研究人员提供了一种探索图任务与大型语言模型(LLM)结合的综合基准和调查手段。
实际应用
在实际应用场景中,这些数据集的应用范围广泛,如在学术文献分析、社交网络挖掘、推荐系统、知识图谱构建等领域,它们为相关任务提供了关键的数据支持,使得模型能够从中学习到丰富的图结构和语义信息。
衍生相关工作
基于这些数据集,衍生出了大量经典工作,包括图神经网络模型的改进、预训练策略的研究、图表示学习的新方法等,这些工作不断推动着图学习领域的技术进步和理论深化。
以上内容由遇见数据集搜集并总结生成



