graphwalks
收藏Hugging Face2025-04-15 更新2025-04-17 收录
下载链接:
https://huggingface.co/datasets/openai/graphwalks
下载链接
链接失效反馈官方服务:
资源简介:
GraphWalks是一个用于多跳推理的长上下文基准数据集。该数据集提供了一种图表示形式,模型需要根据给定的图(以边列表形式)和操作描述执行相应的图操作,如广度优先搜索(BFS)或寻找某节点的父节点,并返回操作结果的节点id列表。
提供机构:
OpenAI
创建时间:
2025-04-12
搜集汇总
数据集介绍

构建方式
GraphWalks数据集专注于多跳推理和长上下文理解任务,其构建过程基于有向图的边列表表示。数据集通过精心设计的操作指令(如广度优先搜索或查找父节点)来生成评估样本,每个样本包含一个3-shot示例引导的提示词、待执行的图操作以及标准答案。数据采集阶段严格确保所有节点至少具有一度连接,并通过正则表达式和集合运算实现自动化答案提取与评分。
特点
该数据集的核心特征体现在其专业化图操作评估框架上,包含两种典型图算法任务(BFS和父节点查询)的细粒度划分。每个样本附带字符级长度统计和问题类型标注,便于模型长上下文处理能力的量化分析。评估体系采用基于集合交并比的F1分数机制,有效捕捉模型输出与标准答案在节点集合覆盖度上的精确匹配程度。
使用方法
使用该数据集时,需将包含图边列表和操作指令的prompt输入待测模型,要求模型严格遵循输出格式规范返回节点集合。评估阶段通过解析响应末行的'Final Answer:'字段,采用精确率-召回率加权计算F1值。研究人员可结合prompt_chars字段分析模型在不同上下文长度下的性能表现,或通过problem_type分类比较算法类任务的差异。
背景与挑战
背景概述
GraphWalks数据集由研究人员于近期构建,旨在为多跳推理和长上下文理解任务提供基准测试平台。该数据集以有向图的边列表形式呈现,要求模型执行特定图操作,如广度优先搜索(BFS)或父节点查询。其核心研究问题聚焦于评估模型在复杂图结构中的多步推理能力和长距离依赖关系处理性能。作为图推理领域的新型评估工具,该数据集为测试大语言模型在图结构数据上的泛化能力提供了标准化度量方法,对推动图神经网络与语言模型的交叉研究具有重要意义。
当前挑战
该数据集面临双重挑战:在领域问题层面,图结构数据的多跳推理要求模型具备长距离依赖捕捉能力,而现有模型在处理深度遍历和复杂拓扑关系时仍存在精度损失;在构建层面,确保图操作的多样性与难度平衡、设计无偏见的评估指标、以及处理大规模图数据的计算效率都是关键难题。此外,如何准确提取模型输出中的结构化答案并设计合理的评分机制,也成为影响评估可靠性的技术瓶颈。
常用场景
经典使用场景
GraphWalks数据集作为多跳推理长上下文基准,主要应用于评估模型在图结构数据上的推理能力。通过提供图的边列表和操作描述,模型需要执行广度优先搜索(BFS)或查找父节点等任务。这种设计使得数据集成为测试模型在复杂图结构中进行多跳推理的理想工具,尤其在需要长上下文理解的场景中表现出色。
衍生相关工作
GraphWalks数据集衍生了一系列经典研究工作,包括基于图神经网络的推理模型优化、长上下文处理技术的改进以及多跳推理算法的创新。例如,OpenAI的GPT-4.1模型在该数据集上的表现被广泛引用,推动了相关领域的技术进步。这些工作进一步扩展了数据集的应用范围和研究价值。
数据集最近研究
最新研究方向
在复杂图结构推理领域,GraphWalks数据集为多跳推理和长上下文建模提供了重要基准。该数据集通过模拟广度优先搜索和节点关系查询等图操作任务,推动了大语言模型在图结构理解方面的能力边界。当前研究聚焦于如何提升模型对复杂拓扑关系的泛化能力,特别是在处理高密度连接和长路径依赖时的表现。随着图神经网络与Transformer架构的深度融合,该数据集被广泛应用于评估模型在符号推理与分布式表示之间的平衡能力。近期OpenAI发布的GPT-4.1技术报告显示,此类结构化推理任务已成为衡量模型逻辑完备性的关键指标,相关研究对知识图谱补全、社交网络分析等应用场景具有重要参考价值。
以上内容由遇见数据集搜集并总结生成



