[dataset_name]

github2025-02-18 更新2025-02-26 收录

下载链接：

https://github.com/Graph-COM/LLM_BP

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含多个图属性文本数据集，包括cora、citeseer、pubmed等，具体数据集名称在数据准备部分给出。

This repository contains multiple text-attributed graph datasets, including Cora, Citeseer, PubMed, among others. The specific dataset names are provided in the data preparation section.

创建时间：

2025-02-17

原始信息汇总

LLM_BP 数据集概述

数据集基本信息

关联论文: Model Generalization on Text Attribute Graphs: Principles with Large Language Models
作者: Haoyu Wang, Shikun Liu, Rongzhe Wei, Pan Li
存储库结构:
- dataset/: 包含数据集文件
- model/: 存储LLM-BP和LLM-BP (appr.)的模型实现
- results/: 包含GPT-4o生成的测试集预测结果和GPT-4o-mini生成的同质性比率预测结果
- 多个Python脚本文件用于不同的推理和生成任务

数据集准备

数据集结构:
- /dataset/[dataset_name]/
  - processed_data.pt: 存储处理后的数据集，包括图结构和节点标签
  - [encoder]_x.pt: 不同编码器提取的特征矩阵
  - categories.csv: 原始标签名称
  - raw_texts.pt: 每个节点的原始文本
数据集命名规范:
- cora, citeseer, pubmed, bookhis, bookchild, sportsfit, wikics, cornell, texas, wisconsin, washington
编码器命名规范:
- sbert, roberta, llmicl_primary, llmicl_class_aware, llmgpt_text-embedding-3-large

数据集下载

预计算嵌入和数据集: 可从huggingface repository下载

数据处理步骤

生成数据集嵌入:
- 使用generate_llm.py脚本
- 参数: [DATASET], [VERSION] (primary或class_aware)
生成GPT-4o预测:
- 使用run_gpt.py脚本
- 参数: [MODEL], [DATASET], [MODE] (inference或evaluate)
预测同质性比率:
- 使用pred_r.py脚本
- 参数: [DATASET], [MODEL], [MODE] (inference或evaluate)
零样本推理:
- 使用zero_shot.py脚本
- 参数: [DATASET], [ENCODER], 4o
少样本推理:
- 使用few_shot.py脚本
- 参数: [DATASET], [ENCODER]

引用

bibtex @article{wang2025model, title={Model Generalization on Text Attribute Graphs: Principles with Large Language Models}, author={Wang, Haoyu and Liu, Shikun and Wei, Rongzhe and Li, Pan}, journal={arXiv preprint arXiv:2502.11836}, year={2025} }

搜集汇总

数据集介绍

构建方式

该数据集的构建基于文本属性图上的模型泛化原理，采用大型语言模型进行实现。数据集包含了多个子数据集，每个子数据集由节点文本、图结构和节点标签组成。数据集的构建方式是通过不同的编码器提取特征矩阵，并将这些特征矩阵与图结构相结合，以供后续的模型训练和预测使用。

特点

该数据集的特点在于它结合了文本属性图与大型语言模型，具有丰富的节点文本信息和图结构信息。它涵盖了多种不同领域的文本数据，如科学论文、书籍和历史记录等。此外，数据集支持多种编码器，能够生成不同类型的特征矩阵，以适应不同的模型训练需求。

使用方法

使用该数据集时，首先需要设置运行环境，安装必要的依赖库。然后，根据不同的任务需求，可以使用数据集生成嵌入向量，进行零样本推断、少样本推断或者通过GPT-4o模型生成预测结果。数据集还提供了预计算的嵌入向量和预测结果，可以直接下载使用，以节省计算资源。

背景与挑战

背景概述

LLM_BP数据集是论文《Model Generalization on Text Attribute Graphs: Principles with Large Language Models》的官方实现，由Haoyu Wang、Shikun Liu、Rongzhe Wei和Pan Li等研究人员共同开发。该数据集旨在探索大型语言模型在文本属性图上的模型泛化原理，其研究成果对于理解语言模型在图结构数据上的表现和泛化能力具有重要的学术价值。自发布以来，LLM_BP数据集在文本属性图处理和大型语言模型研究领域产生了广泛影响，为相关领域的研究提供了重要的实验基础。

当前挑战

LLM_BP数据集在构建过程中面临的挑战主要包括：如何有效地将文本属性图与大型语言模型结合，以及如何准确预测和评估模型在图结构数据上的泛化能力。此外，数据集构建过程中还涉及到了数据处理、特征提取和模型预测等多个技术环节，这些环节中的每一个都可能成为研究的挑战，例如确保数据的质量和一致性，以及提高模型预测的准确性和效率。

常用场景

经典使用场景

该数据集为文本属性图领域提供了丰富的实验基础，经典使用场景在于探究大型语言模型在文本属性图上的泛化能力。通过生成节点嵌入表示，进而利用GPT-4o等模型对图结构进行预测或推断，从而评估模型在不同数据集上的性能表现。

解决学术问题

该数据集解决了文本属性图中的节点分类问题，特别是在异质节点分布的情况下，如何提高模型泛化能力。其研究对于理解大型语言模型在图结构数据上的适用性和有效性具有重要的学术价值，为相关领域的模型设计与优化提供了实验依据。

衍生相关工作

基于该数据集，研究者已衍生出多项相关工作，包括对齐文本与图表示的学习方法、基于图神经网络的多模态学习策略等。这些工作进一步拓展了文本属性图的处理框架，并为语言模型与图模型的融合研究提供了新的视角。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集