five

GraphArena

收藏
arXiv2024-06-29 更新2024-07-04 收录
下载链接:
https://github.com/squareRoot3/GraphArena
下载链接
链接失效反馈
官方服务:
资源简介:
GraphArena数据集由香港科技大学(广州)创建,包含从知识图谱、社交网络和分子结构等多种真实场景中收集的百万级图数据。该数据集涵盖了10,000个图数据条目,通过随机游走重启策略从原始图数据中采样子图,以保持图的拓扑特征。GraphArena主要用于评估和提升大型语言模型在解决复杂图计算问题上的能力,特别是在处理大规模和复杂图结构时的推理能力。

The GraphArena dataset was developed by The Hong Kong University of Science and Technology (Guangzhou). It contains million-scale graph data collected from various real-world scenarios such as knowledge graphs, social networks, and molecular structures. The dataset encompasses 10,000 graph entries, which are obtained by sampling subgraphs from the original graph data using the random walk with restart (RWR) strategy to preserve the topological features of the graphs. GraphArena is primarily intended to evaluate and improve the capabilities of large language models (LLMs) in addressing complex graph computing problems, especially their reasoning performance when dealing with large-scale and intricate graph structures.
提供机构:
香港科技大学(广州)
创建时间:
2024-06-29
原始信息汇总

GraphArena Benchmark 数据集概述

数据集准备

数据集 dataset.zip 可以通过以下链接下载并解压:

对于希望从零开始准备数据集的用户,可以下载 source.zip,解压后执行脚本 run_dataset.sh

数据集内容

数据集包含以下内容:

  • final_results.zip:包含最终评估结果的压缩文件。
  • final_results/GraphArena_all.json:包含所有问题及其对应的LLM响应的完整数据集。

数据集的组织结构如下: json { "Task_name": [ { "id": 0, // IDs 范围从 0-499 表示小图(简单),500-999 表示大图(困难) "problem_text": "...", "LLM responses": "..." }, ... ] }

数据集使用

重现评估结果

要重现论文中的评估结果,请按照以下步骤操作:

  1. 解压 final_results.zip
  2. 依次运行以下脚本:
    • reproduce_table1.ipynb
    • reproduce_figure2.py
    • reproduce_figure3.py
    • reproduce_figure4.py

示例

更多可读性强的示例请参考 examples.md

许可证

数据集采用 CC BY-SA 4.0 许可证。代码仓库采用 BSD-2 条款许可证。

搜集汇总
数据集介绍
main_image_url
构建方式
GraphArena 数据集的构建采用了从真实世界场景中收集的大规模图数据,涵盖了知识图谱、社交网络和分子结构等领域。数据集通过随机游走重启策略对原始图进行采样,形成具有代表性的局部密集子图,以保持原始图的拓扑特征和属性。此外,数据集还包含了一组精心设计的计算任务,包括4个多项式时间任务和6个NP完全挑战任务,旨在测试大型语言模型在图计算问题上的推理能力。
特点
GraphArena 数据集的特点在于其真实性和挑战性。首先,它使用了来自真实世界的大规模图数据,而不是合成的图数据,这使得数据集更具现实世界的多样性。其次,数据集中的任务涵盖了从简单计算到复杂多步分析的不同难度级别,测试了大型语言模型的广泛推理技能。最后,数据集采用了一套严格的评估框架,将模型的输出分为正确、次优、幻觉和无响应四种类型,从而提高了评估的严谨性。
使用方法
使用 GraphArena 数据集的方法包括:1. 数据准备:将原始图数据转换为文本格式,并根据任务需求生成相应的文本问题。2. 模型训练:使用数据集中的问题对大型语言模型进行训练,以提高模型在图计算问题上的推理能力。3. 评估测试:使用数据集中的问题对训练好的模型进行评估,以检验模型的推理能力和性能。4. 分析结果:对模型的输出进行分析,以了解模型在不同任务上的表现和存在的问题,从而为模型改进提供依据。
背景与挑战
背景概述
在大型语言模型(LLM)的竞赛中,为了更准确地评估其进展,需要新颖、有挑战性和多样化的基准。GraphArena是一个评估LLM在图计算问题上的基准工具,使用来自不同场景(如知识图谱、社交网络和分子结构)的百万级真实世界图。GraphArena提供了一套10个计算任务,包括4个多项式时间(如最短距离)和6个NP完全挑战(如旅行商问题)。它具有严格的评估框架,将LLM输出分类为正确、次优(可行但非最优)或幻觉(格式正确但不可行)。对10个领先LLM的评估表明,即使是表现最好的模型也难以应对更大、更复杂的图问题,并且存在幻觉问题。尽管采用了诸如思维链提示等策略,但这些问题的解决仍然遥不可及。GraphArena为现有的LLM基准提供了一个有价值的补充,并在https://github.com/squareRoot3/GraphArena开源。
当前挑战
GraphArena相关的挑战包括:1)LLM在解决图计算问题(如旅行商问题)方面的挑战;2)构建过程中遇到的挑战,如使用真实世界图而非合成图,以及设计多样化的任务集。GraphArena揭示了现有LLM基准的三个主要不足:1)依赖合成图,可能无法准确反映现实世界的多样性;2)主要关注小规模图的简单任务,忽略了更复杂和具有挑战性的图问题;3)仅要求LLM提供简单的答案,如是、否或数值,而不是详细的路径或推理过程。GraphArena通过引入现实世界的图、精心设计的任务和严格的评估框架来解决这些问题。
常用场景
经典使用场景
GraphArena是一个专门用于评估大型语言模型(LLMs)在图计算问题上的推理能力的基准测试工具。它使用来自现实世界的大规模图,如知识图谱、社交网络和分子结构,来评估LLMs在解决各种图计算任务上的能力。GraphArena提供了10个计算任务,包括4个多项式时间任务和6个NP完全挑战。该工具还引入了一个严格的评估框架,将LLMs的输出分为正确、次优(可行但不是最优)或幻觉(格式正确但不可行)。通过对10个领先LLMs的评估,GraphArena揭示了即使是表现最好的模型在面对更大、更复杂的图问题时也会遇到困难,并且会出现幻觉问题。GraphArena为现有的LLMs基准测试提供了宝贵的补充,并在https://github.com/squareRoot3/GraphArena上开源。
实际应用
GraphArena在实际应用中的场景包括评估LLMs在解决现实世界图计算问题(如社交网络分析、知识图谱推理和分子结构分析)上的能力。通过对LLMs在GraphArena上的表现进行评估,研究人员可以更好地了解LLMs的推理能力和局限性,从而为开发更强大的LLMs提供指导。此外,GraphArena还可以用于开发新的LLMs训练方法和评估技术,以解决现实世界的图计算问题。
衍生相关工作
GraphArena衍生了多个相关的工作,如NLGraph、GraphQA、VisionGraph和GITA等。这些工作都评估了LLMs在解决图计算问题上的能力,但GraphArena提供了更全面的评估框架和更真实的图数据集。此外,GraphArena还揭示了LLMs在解决NP完全任务上的局限性,从而促进了新的LLMs训练方法和评估技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作