LLM4Graph

Name: LLM4Graph
Creator: 北京邮电大学, 清华大学, 中国石油大学（克拉玛依）
Published: 2024-09-29 19:38:45
License: 暂无描述

arXiv2024-09-29 更新2024-10-02 收录

下载链接：

https://github.com/BUPT-GAMMA/ProGraph

下载链接

链接失效反馈

官方服务：

资源简介：

LLM4Graph数据集是由北京邮电大学和清华大学联合创建的，旨在提升大型语言模型（LLMs）在图分析中的表现。该数据集包含29,260个问答对，内容包括从六个广泛使用的图库中爬取的文档和自动生成的代码。数据集的创建过程结合了文档信息和代码生成技术，通过指令微调来增强模型的性能。LLM4Graph数据集主要应用于增强LLMs在图分析任务中的能力，特别是在处理大规模图数据和复杂图任务方面。

The LLM4Graph dataset was jointly created by Beijing University of Posts and Telecommunications and Tsinghua University, aiming to improve the performance of Large Language Models (LLMs) in graph analysis. This dataset contains 29,260 question-answer pairs, covering documents crawled from six widely used graph libraries and automatically generated code. The construction of the LLM4Graph dataset integrates document information and code generation technologies, and enhances model performance through instruction fine-tuning. The LLM4Graph dataset is primarily applied to strengthen the capabilities of LLMs in graph analysis tasks, especially when dealing with large-scale graph data and complex graph-related tasks.

提供机构：

北京邮电大学, 清华大学, 中国石油大学（克拉玛依）

创建时间：

2024-09-29

搜集汇总

数据集介绍

构建方式

LLM4Graph数据集的构建结合了从六个广泛使用的图库中爬取的文档数据和基于这些库自动生成的代码数据。具体而言，文档数据集包含了API信息，这些信息从各库的官方文档中爬取而来。代码数据集则包含了29,260个由GPT-4 turbo通过back-instruct方法自动生成的QA对。为了增强模型的推理能力，代码数据集的答案中还引入了相关API的文档信息作为前缀。

特点

LLM4Graph数据集的一个显著特点是其多样性和实用性。它不仅包含了基础的图论问题，还涵盖了图统计学习和图嵌入等复杂任务。此外，该数据集允许访问外部API，这在实际应用中极为重要。数据集的规模和复杂性也得到了扩展，能够处理多达10^6个节点的图，远超现有基准。

使用方法

LLM4Graph数据集主要用于通过文档检索和指令微调来增强大型语言模型（LLMs）在图分析任务中的表现。对于闭源LLMs，可以通过检索相关文档信息来增强其性能；对于开源LLMs，则可以通过在代码数据集上的指令微调来提升其解决图相关问题的能力。通过这种方式，LLM4Graph旨在缩小当前LLMs与专业图分析能力之间的差距。

背景与挑战

背景概述

随着各领域对图分析需求的普遍增长，从社交网络到生物研究及推荐系统，大型语言模型（LLMs）处理图数据的能力成为迈向更高级通用智能的重要一步。然而，现有LLM在图分析上的基准测试要求模型直接基于图拓扑描述进行推理，这限制了模型只能处理包含数十个节点的小型图。相比之下，人类专家通常基于流行库编写程序来解决问题，能够处理不同规模的图。为此，Xin Li等研究人员于2024年提出了LLM4Graph数据集，旨在通过包含爬取文档和基于六个广泛使用的图库自动生成的代码，增强LLMs在图分析中的表现。

当前挑战

LLM4Graph数据集面临的挑战包括：首先，现有基准测试要求LLMs直接从提示中读取图的邻接列表，这导致图的规模较小，无法处理包含数百万节点的真实图；其次，这些基准测试期望模型基于LLMs进行逐步推理，但当前LLMs的推理深度有限，难以处理大规模图；最后，问题描述抽象单调，缺乏真实应用场景的上下文。此外，构建过程中需确保数据集的多样性和高质量，以及自动化评估过程与人类判断的一致性。

常用场景

经典使用场景

LLM4Graph数据集的经典使用场景在于评估和提升大型语言模型（LLMs）在图分析任务中的表现。通过提供基于六种广泛使用的图库的爬取文档和自动生成的代码，该数据集允许研究人员对闭源和开源的LLMs进行微调，以增强其在处理图数据时的准确性和效率。这种微调过程不仅限于小规模的图，还能处理包含数百万节点的真实世界图数据，从而模拟专业人士在实际应用中的编程解决方式。

实际应用

在实际应用中，LLM4Graph数据集能够显著提升大型语言模型在处理复杂图数据任务中的表现，如社交网络分析、生物信息学研究及推荐系统优化。通过模拟专业人士的编程解决方式，该数据集使得LLMs能够更高效地处理大规模图数据，从而在实际应用中提供更精确的分析结果和决策支持。

衍生相关工作

LLM4Graph数据集的引入催生了一系列相关研究工作，特别是在图分析和大型语言模型的结合领域。例如，研究者们开始探索如何进一步优化图嵌入技术与LLMs的结合，以提升节点分类和链接预测的准确性。此外，基于LLM4Graph的改进模型也被应用于动态图分析，展示了其在处理时间敏感数据方面的潜力。这些衍生工作不仅扩展了LLM4Graph的应用范围，也推动了图分析技术在多个领域的创新发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集