GRAPHOMNI
收藏arXiv2025-04-17 更新2025-04-22 收录
下载链接:
http://arxiv.org/abs/2504.12764v1
下载链接
链接失效反馈官方服务:
资源简介:
GRAPHOMNI是由香港中文大学(深圳)数据科学学院等机构开发的一种全面且可扩展的基准框架,用于评估大型语言模型在图论任务上的推理能力。该数据集包含多种图类型、序列化格式和提示方案,旨在解决自然语言处理中结构化推理的问题,涵盖7种不同类型的合成图数据,包括随机图、无标度图和二部图等,数据集大小为241,726条查询。
GRAPHOMNI is a comprehensive and scalable benchmark framework developed by the School of Data Science, The Chinese University of Hong Kong, Shenzhen and other institutions, which is designed to evaluate the reasoning abilities of large language models on graph theory tasks. This dataset covers various graph types, serialization formats and prompting schemes, aiming to address the issue of structured reasoning in natural language processing. It includes seven distinct types of synthetic graph data such as random graphs, scale-free graphs and bipartite graphs, with a total of 241,726 queries.
提供机构:
香港中文大学(深圳)数据科学学院
创建时间:
2025-04-17
搜集汇总
数据集介绍

构建方式
GRAPHOMNI基准框架通过系统整合多样化的图类型、序列化格式与提示策略进行构建。该数据集采用七种随机图生成器(包括Erdős–Rényi、Barabási–Albert及二分图等)生成241,726个查询样本,覆盖广度优先搜索、连通性验证、三角形计数等六类核心图推理任务。每个任务按节点规模划分为简单(5-10节点)、中等(10-20节点)与困难(20-30节点)三个难度层级,并通过七种文本序列化方法(如邻接表、图建模语言等)和九种提示方案(包括算法描述、思维链、少样本示例等)将图结构转化为语言模型可处理的文本输入。
特点
该数据集的核心特征体现在多维度系统性评估框架设计:其涵盖7种图拓扑结构、7种序列化表示方法与9种提示策略的交叉组合,远超现有基准的覆盖范围。通过控制实验揭示出关键发现——序列化格式与提示策略的组合效应显著影响模型性能,且开源与闭源模型对此表现出迥异的敏感性。例如,闭源模型能高效解析结构化格式(如GraphML),而开源模型更依赖简洁表示(如邻接集)。数据集还提供了基于强化学习的自适应策略优化模块,可动态匹配最优文本表示与提示组合。
使用方法
使用该数据集时需遵循三阶段流程:首先选择目标图任务与难度层级,其次配置序列化格式与提示策略的组合(支持网格搜索或基于强化学习的自适应选择),最后通过标准化接口将文本化图数据输入语言模型。评估采用二值准确率指标,针对不同任务类型设计特异性验证机制——分类任务通过关键词匹配判断,数值任务需精确提取数字比对,路径类任务则调用专用验证函数检测解的有效性。基准框架支持模块化扩展,研究者可灵活集成新的图生成器、序列化方法或提示方案。
背景与挑战
背景概述
GRAPHOMNI由香港中文大学(深圳)、滑铁卢大学等机构的研究团队于2025年提出,是首个系统评估大语言模型在图论任务推理能力的综合性基准框架。该框架针对自然语言描述的图结构推理问题,通过整合七种图类型(包括Erdős-Rényi、Barabási-Albert等)、九种提示方案和七种序列化格式,构建了包含24万余查询的大规模数据集。其创新性在于采用模块化设计支持动态扩展,显著推动了语言模型与图结构推理的交叉领域研究,为理解模型在结构化数据上的认知边界提供了重要实验平台。
当前挑战
该数据集核心解决图结构自然语言化推理的评估挑战,包括模型对图序列化格式的敏感性差异、提示策略与图类型的复杂交互效应,以及开放与闭源模型的性能鸿沟。构建过程中面临多维度组合爆炸问题,需设计统一评估协议协调超24万查询的生成与验证,同时需克服不同图表示方法(如邻接表与图标记语言)对语言模型理解的一致性约束,并确保随机基线的科学性与任务难度分级的合理性。
常用场景
经典使用场景
GRAPHOMNI作为图论推理领域的综合基准框架,其经典使用场景主要集中于评估大型语言模型在结构化图数据上的推理能力。该框架通过整合多种图类型、序列化格式和提示方案,为研究者提供了一个系统化的测试平台,用于衡量模型在连通性验证、环检测、直径计算等六项核心图任务中的表现。在学术研究中,GRAPHOMNI常被用于对比不同模型架构的优劣,分析输入表示形式对推理准确性的影响,以及探索多模态提示策略在图推理任务中的有效性。
衍生相关工作
GRAPHOMNI的发布催生了多个重要研究方向的发展。基于其多维评估框架,研究者提出了强化学习驱动的自适应提示选择机制,可动态优化序列化格式与提示策略的组合。该工作还启发了对图结构线性化方法的深入研究,如Graph Linearization等后续工作进一步探索了不同文本表示对模型推理的影响。在模型架构方面,衍生出了专门针对图文本联合建模的新方法,如GraphTMI对多模态输入的探索,以及ProGraph通过程序化方式增强图推理能力的创新尝试。这些工作共同推动了LLMs在图结构化数据理解方面的前沿进展。
数据集最近研究
最新研究方向
GRAPHOMNI作为图论任务评估基准,聚焦于大语言模型在图结构推理能力的前沿探索。当前研究重点围绕多维度交互效应分析,包括图类型生成算法(如Erdős–Rényi和Barabási–Albert模型)、序列化格式(邻接表/矩阵、GMoL等)与提示策略(CoT、k-shot等)的协同优化。热点方向涉及强化学习驱动的自适应序列化选择框架,通过动态匹配最优提示-格式组合显著提升模型准确率。该框架揭示了闭源模型在结构化表示(如GMaL)与开源模型在简洁格式(邻接集)上的性能分化,为跨模型泛化提供新范式。其模块化设计支持图生成器与序列化方法的灵活扩展,对社交网络分析、生物交互推理等领域的结构化知识处理具有重要推动意义。
相关研究论文
- 1GraphOmni: A Comprehensive and Extendable Benchmark Framework for Large Language Models on Graph-theoretic Tasks香港中文大学(深圳)数据科学学院 · 2025年
以上内容由遇见数据集搜集并总结生成



