GraCoRe
收藏arXiv2024-07-03 更新2024-07-05 收录
下载链接:
https://github.com/ZIKEYUAN/GraCoRe
下载链接
链接失效反馈官方服务:
资源简介:
GraCoRe数据集由哈尔滨工业大学(深圳)和鹏城实验室共同创建,旨在评估大型语言模型在图理解和复杂推理方面的能力。该数据集包含5140个图,涵盖纯图和异构图,通过19个任务测试模型的10种不同能力。数据集的创建过程精细,通过调整图的大小和网络稀疏度来控制复杂性。GraCoRe主要应用于社交网络分析、药物发现等领域,旨在解决图结构数据理解和推理的问题。
The GraCoRe dataset was co-developed by Harbin Institute of Technology (Shenzhen) and Peng Cheng Laboratory, aiming to evaluate the capabilities of large language models (LLMs) in graph understanding and complex reasoning. It comprises 5,140 graphs, including both homogeneous and heterogeneous graphs, and assesses 10 distinct capabilities of models across 19 tasks. The dataset was constructed with meticulous procedures, where complexity is controlled by adjusting graph sizes and network sparsity. GraCoRe is primarily utilized in domains such as social network analysis and drug discovery, and is designed to tackle challenges related to graph-structured data understanding and reasoning.
提供机构:
哈尔滨工业大学(深圳),鹏城实验室
创建时间:
2024-07-03
原始信息汇总
GraCoRe
摘要
GraCoRe 是一个用于系统评估大型语言模型(LLMs)在图理解与复杂推理能力的基准测试。该基准测试通过一个三层分层分类法,对纯图和异构图进行分类和测试,细分为10个不同的能力领域,并通过19个任务进行测试。GraCoRe 包含11个数据集,共5,140个不同复杂度的图。在评估中,使用了三个闭源和七个开源的LLMs,并从能力和任务的角度进行了全面分析。主要发现包括:语义增强提高了推理性能,节点顺序影响任务成功,处理较长文本的能力并不一定能提高图理解或推理能力。
搜集汇总
数据集介绍

构建方式
GraCoRe 数据集采用三层的层次分类法来分类和测试模型在纯图和异构图上的能力,将能力细分为10个不同的领域,通过19个任务进行测试。数据集包括11个数据集,包含5,140个不同复杂度的图。
特点
GraCoRe 数据集的特点在于其系统性,能够全面评估大型语言模型(LLMs)在图理解和推理方面的能力。数据集包含纯图和异构图,任务涵盖了图属性理解、图记忆、图识别、图遍历、图问答与查询、子图提取、图结构推理和图语义推理等多个方面。
使用方法
使用 GraCoRe 数据集的方法包括评估LLMs在图理解和推理任务上的性能。用户可以针对不同的任务和模型类型进行测试,并通过标准化得分来比较模型的表现。此外,数据集还提供了具体的提示和图数据描述,帮助用户更好地理解和使用数据集。
背景与挑战
背景概述
GraCoRe数据集是哈工大深圳和鹏城实验室的研究人员于2024年提出的一个用于评估大型语言模型(LLM)在图理解与复杂推理方面的能力的数据集。该数据集旨在解决当前评估LLM图理解与推理能力的挑战,这些能力对于人工智能在社交网络分析、药物发现、推荐系统和时空预测等领域的应用至关重要。GraCoRe使用三级层次分类法,将模型的能力分为纯图和异构图,并细分为10个不同的领域,通过19个任务进行测试。该数据集包含11个数据集,共有5140个不同复杂度的图。研究人员评估了三个闭源和七个开源LLM,从能力和任务两个角度进行了深入分析。GraCoRe的提出为LLM在图理解与推理方面的能力评估提供了新的视角和工具,对相关领域产生了重要影响。
当前挑战
GraCoRe数据集面临的挑战主要包括:1) 复杂图结构数据的处理:当前LLM在处理具有大量节点和边的复杂图结构数据时,其推理和理解的性能会显著下降。这主要是因为模型在处理长文本输入时存在困难,而图结构数据通常通过长文本进行描述。长文本不仅增加了计算负担,还引入了噪声和冗余信息,进一步削弱了模型捕捉关键细节的能力。2) 图结构数据的语义理解:图结构数据的文本描述通常涉及复杂的实体关系和抽象概念,要求模型不仅要理解显式信息,还要推断隐含的联系和关系。当前研究往往依赖于直接从图结构到答案的映射,忽略了提高模型深度推理能力的潜力。3) 评估标准的缺失:由于缺乏对LLM在图理解和推理能力方面的系统定义和评估标准,因此需要设计一个能够基于模型能力的全面测试这些能力的基准。
常用场景
经典使用场景
GraCoRe 数据集主要被用于评估大型语言模型 (LLMs) 的图形理解和推理能力。通过对纯图和异构图进行测试,该数据集能够系统地评估模型在处理不同复杂度图形数据时的表现。GraCoRe 的应用场景包括但不限于社交网络分析、药物发现、推荐系统和时空预测等,这些领域都依赖于对图形数据的深入理解和推理。
衍生相关工作
GraCoRe 数据集的提出促进了相关研究的发展,例如 GraphLLM 和 GraphInstruct 等。这些研究进一步探索了 LLMs 在图形任务中的应用,并提出了新的方法和模型来提高模型的性能。此外,GraCoRe 的评估方法和数据集设计也为其他领域的研究提供了参考和借鉴,例如自然语言处理、计算机视觉和知识图谱等。
数据集最近研究
最新研究方向
GraCoRe数据集的提出标志着对大型语言模型(LLMs)在图理解与复杂推理能力评估方面的一次重要进展。该数据集采用了三层分级的分类体系,将LLMs的能力分为纯图理解和异构图理解两大类,并在每个类别下细分了10个不同的能力领域,通过19个任务进行评估。GraCoRe的构建不仅提供了11个包含5,140个图的多样化数据集,还测试了10个主流的LLMs,包括3个闭源和7个开源模型。研究结果表明,语义信息增强对推理性能的提升有显著影响,节点排序对任务成功有重要作用,而处理更长文本的能力并不一定能够提高图理解或推理能力。GraCoRe的提出填补了当前LLMs在图理解与推理能力评估方面的空白,为推动LLMs在图结构数据处理领域的进一步发展提供了重要的基准和工具。
相关研究论文
- 1GraCoRe: Benchmarking Graph Comprehension and Complex Reasoning in Large Language Models哈尔滨工业大学(深圳),鹏城实验室 · 2024年
以上内容由遇见数据集搜集并总结生成



