LogicGraph

Name: LogicGraph
Creator: 西安交通大学·计算机科学与技术学院; 斯坦福大学·电气工程系; 天津工业大学·计算机科学与技术学院; 教育部智能网络与网络安全重点实验室; 陕西省大数据知识工程重点实验室
Published: 2026-02-25 00:04:26
License: 暂无描述

arXiv2026-02-25 更新2026-02-26 收录

下载链接：

https://github.com/kkkkarry/LogicGraph

下载链接

链接失效反馈

官方服务：

资源简介：

LogicGraph是由西安交通大学等机构提出的首个多路径逻辑推理基准数据集，采用神经符号框架通过逆向逻辑生成和语义实例化构建。该数据集包含900个经过求解器验证的推理问题，平均推理深度达6.01，每个实例关联2-19个最小证明路径，具有高深度多路径推理和固有逻辑干扰特性。数据通过三阶段自动化流程生成：符号逻辑有向无环图构建、语义实例化和基于求解器的过滤，确保了逻辑严谨性和语言多样性。该数据集主要用于评估大型语言模型在收敛和发散思维模式下的多路径探索能力，旨在解决当前基准测试对发散逻辑推理评估不足的问题。

提供机构：

西安交通大学·计算机科学与技术学院; 斯坦福大学·电气工程系; 天津工业大学·计算机科学与技术学院; 教育部智能网络与网络安全重点实验室; 陕西省大数据知识工程重点实验室

创建时间：

2026-02-25

原始信息汇总

LogicGraph 数据集概述

数据集简介

LogicGraph 是首个旨在系统评估多路径逻辑推理的基准测试。该数据集通过神经符号框架构建，利用后向逻辑生成和语义实例化技术。

核心特性

多路径与高深度：数据集中每个查询允许存在 2 到 19 条有效证明路径。基准测试的平均推理深度为 6.01 步。
详尽的真实情况：每个实例都关联着一组详尽的最小证明集合。
固有的逻辑干扰：数据集引入了结构性干扰，其中一个前提对某条有效路径至关重要，却可能对另一条路径构成干扰。
神经符号评估：提出了一种无参考的神经符号评估器，可将生成的自然语言步骤转换为形式逻辑，并使用符号求解器（Prover9）进行验证。

数据集构成

LogicGraph 数据集完全开源，包含 900 个实例。根据有效推导路径的数量，这些实例被划分为三个难度等级：Small、Medium 和 Large。

代码与资源状态

数据集已完全公开。神经符号生成流程、Prover9 评估脚本以及模型推理代码正在最终确定中，并将很快发布。

搜集汇总

数据集介绍

构建方式

在逻辑推理评估领域，传统基准多聚焦于单一正确路径的收敛性思维，而现实世界中的推理问题往往允许多种有效推导路径。LogicGraph数据集通过神经符号框架构建，采用反向逻辑生成与语义实例化的方法。该流程首先从目标结论出发，利用基本论证形式自底向上合成前提，构建符号化的有向无环图作为可验证的推理骨架。随后，通过大型语言模型将抽象符号实例化为特定领域的谓词，并转化为连贯的自然语言叙述，同时利用符号求解器进行逐步蕴含、全局可推导性及上下文一致性的三重验证，确保每个实例都附带一组详尽的最小证明集合。

特点

LogicGraph数据集展现出区别于现有基准的三大结构特性。其核心在于支持高深度多路径推理，每个查询平均深度达6.01步，且拥有2至19条有效证明路径，要求模型不仅进行长链演绎，还需探索不同的证明轨迹。数据集引入了推理节点复用机制，允许中间结论在不同分支间共享，复用比介于1.0至1.9之间，促使模型识别并重用共享子证明，而非独立求解每条路径。此外，数据集内在地包含了逻辑干扰，源自有向无环图本身的结构性干扰使得某些前提对一条路径至关重要，却对另一条路径构成干扰，模型必须从逻辑有效但相互竞争的证据中有选择地激活支持目标轨迹的前提。

使用方法

使用LogicGraph进行评估时，需遵循其设计的神经符号评估框架。该框架采用三阶段流程：首先对模型输出的自然语言推理路径进行预处理与自动形式化，将其转换为符号表示；随后利用符号求解器进行局部有效性与全局有效性的双重验证，确保每一步推导均逻辑有效且最终结论可从所用前提子集中导出。评估指标超越传统的收敛性思维度量，同时涵盖发散性思维维度，包括解决方案多样性、策略灵活性以及发现稀有路径的原创性。这一参考无关的评估方法能够可靠地诊断模型在探索多种替代方案而非固守单一路线方面的能力，为模型的多路径逻辑推理性能提供严谨且可操作的洞察。

背景与挑战

背景概述

逻辑推理作为通用智能的核心能力，其评估范式长期聚焦于收敛性思维，即模型能否为给定问题生成单一正确证明。然而，现实世界的推理问题往往允许多种有效推导路径，要求模型具备探索多样化逻辑轨迹的发散性思维能力。为弥补这一研究空白，西安交通大学、斯坦福大学与天津工业大学的研究团队于2026年共同推出了LogicGraph基准数据集。该数据集首次系统性地针对多路径逻辑推理任务构建评估框架，通过神经符号生成与验证技术，创建了包含高深度推理结构与逻辑干扰的复杂问题实例。LogicGraph的提出，推动了大型语言模型推理评估从单一答案正确性向推理路径完备性与探索能力的范式转变，为模型认知灵活性的量化分析奠定了重要基础。

当前挑战

LogicGraph致力于解决多路径逻辑推理这一核心领域问题的评估挑战，其核心在于要求模型不仅能够得出正确结论，更需枚举出支持该结论的所有最小证明集。这超越了传统数据集的二元分类或单一答案生成任务，对模型的逻辑探索完备性与路径多样性提出了极高要求。在数据集构建过程中，研究团队面临三大核心挑战：一是如何规模化地生成具备穷尽性真实推导路径的基准数据，避免人工标注的误差与局限性；二是如何设计可靠的评估框架以应对开放式生成的验证难题，传统字符串匹配或LLM即法官方法难以保证逻辑严谨性；三是如何从认知科学角度评估模型的探索能力与收敛能力，超越简单的聚合精度指标，深入分析模型在复杂逻辑结构下的行为模式。

常用场景

经典使用场景

在人工智能的逻辑推理评估领域，LogicGraph数据集被广泛应用于测试大语言模型的多路径逻辑推理能力。该数据集通过神经符号生成框架构建，每个实例包含多个有效推导路径，要求模型不仅得出正确结论，还需枚举所有可能的逻辑证明路径。经典使用场景涉及模型在给定前提和结论下，系统性地探索并生成所有最小支持集，以评估其发散性思维和逻辑覆盖广度。例如，在访问控制场景中，模型需识别通过PIN验证、生物特征或安全护送等不同路径来支持同一结论，从而全面检验其推理的多样性和完备性。

衍生相关工作

LogicGraph数据集催生了一系列围绕多路径逻辑推理评估的衍生研究。基于其神经符号生成与验证框架，后续工作扩展了更复杂的逻辑形式（如高阶逻辑或概率逻辑）下的多路径推理基准。同时，该数据集启发了对模型早期路径承诺偏差的深入分析，推动了如动态思维树探索和符号求解器增强推理等方法的创新。相关经典工作包括利用LogicGraph的验证流程改进LLM-as-a-Judge评估的可靠性，以及开发基于路径覆盖度的新型优化目标，以提升模型在开放式推理任务中的探索能力与逻辑严谨性。

数据集最近研究