GraphWiz-Revised

Hugging Face2025-06-01 更新2025-06-02 收录

下载链接：

https://huggingface.co/datasets/PKU-ML/GraphWiz-Revised

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了不同类型的图结构，每个类型包括400个图示例。这些图结构包括三角形图(triangle)、二分图(bipartite)、连通图(connectivity)、环图(cycle)、流图(flow)、哈密顿图(hamilton)、最短路径图(shortest)、子结构图(substructure)和拓扑图(topology)。每个图示例可能包含索引(index)、输入提示(input_prompt)、答案(answer)等字段。

创建时间：

2025-06-01

原始信息汇总

GraphWiz-Revised 数据集概述

数据集基本信息

数据集名称: GraphWiz-Revised
下载大小: 1608693 bytes
数据集大小: 4721367 bytes

数据集结构

特征

index: 字符串类型
input_prompt: 字符串类型
answer: 字符串类型
node_range: 字符串类型
edge_range: 字符串类型

数据分块

分块名称	字节大小	样本数量
triangle	283398	400
bipartite	767727	400
connectivity	358733	400
cycle	436579	400
flow	365931	400
hamilton	701611	400
shortest	593874	400
substructure	455336	400
topology	758178	400

配置信息

配置名称: default
数据文件路径:
- triangle: data/triangle-*
- bipartite: data/bipartite-*
- connectivity: data/connectivity-*
- cycle: data/cycle-*
- flow: data/flow-*
- hamilton: data/hamilton-*
- shortest: data/shortest-*
- substructure: data/substructure-*
- topology: data/topology-*

搜集汇总

数据集介绍

构建方式

在计算图论领域，GraphWiz-Revised数据集的构建体现了系统化工程思维。该数据集通过九种经典图论问题类型（包括三角形检测、二分图判定、连通性分析等）构建知识体系，每个子集严格包含400个样本以确保数据均衡性。数据生成过程采用结构化模板，每个样本均包含索引编号、输入提示、标准答案及节点与边的关系范围描述，这种模块化构建方式为图神经网络提供了标准化的评估基准。

使用方法

该数据集的使用遵循模块化评估范式。研究者可通过指定子集名称（如triangle、bipartite等）加载特定图论任务数据，每个样本的输入提示字段可作为模型输入，答案字段则作为验证基准。节点与边的关系范围信息可用于构建图数据结构，支持图神经网络的特征提取与关系推理。数据集的标准化的格式允许研究者进行跨任务对比分析，为图推理模型的泛化能力评估提供系统化框架。

背景与挑战

背景概述

图结构数据作为计算机科学和人工智能领域的重要研究对象，其复杂性对模型推理能力提出了严峻考验。GraphWiz-Revised数据集应运而生，旨在系统评估大型语言模型在图论问题上的逻辑推理性能。该数据集由研究团队精心构建，覆盖三角形检测、二分图判定、连通性分析、环路识别、网络流计算、哈密顿路径查找、最短路径求解、子结构匹配及拓扑排序九大核心图论任务，每个子集包含400个实例，通过标准化的输入输出格式为模型评估提供坚实基础。这一资源显著推动了图推理与自然语言处理的交叉研究，为探索语言模型的结构化数据处理能力开辟了新路径。

当前挑战

图论问题求解长期面临组合爆炸和语义鸿沟的双重挑战，传统模型难以兼顾形式化约束与自然语言交互的灵活性。GraphWiz-Revised在构建过程中需攻克多类图算法的问题表征统一性难题，既要保证数学严谨性又要适配语言模型的文本处理范式。具体而言，数据生成需精确控制节点与边的范围参数，确保问题复杂度梯度合理；同时需设计兼具自然语言可读性与机器可解析性的提示模板，平衡人类认知习惯与模型训练需求。这些技术难点使得数据集的构建成为一项需要跨学科知识融合的系统工程。

常用场景

经典使用场景

在计算图论领域，GraphWiz-Revised数据集通过涵盖三角形检测、二分图判定、连通性分析等九类经典图问题，为评估大型语言模型在图结构推理任务中的表现提供了标准化基准。该数据集常用于测试模型对节点范围、边范围等图论概念的解析能力，尤其在模拟图算法执行过程的自然语言交互场景中展现出重要价值。

解决学术问题

该数据集有效解决了自然语言处理与形式化图论知识融合的学术挑战，通过结构化提示与答案对的形式，为研究社区提供了检验符号推理与语义理解协同作用的实验平台。其多分类架构显著推进了复杂逻辑推理任务的量化评估，对突破语言模型在离散数学领域的认知边界具有里程碑意义。

实际应用

在实际应用层面，GraphWiz-Revised支撑着智能教育系统中图论概念的动态教学，能够生成适配不同知识水平的交互式习题。在软件工程领域，该数据集可训练模型自动解析代码中的图结构依赖，为程序静态分析工具提供语义增强，同时助力自动化文档生成系统实现算法描述的精准转换。

数据集最近研究