LogicGraph

github2026-03-01 更新2026-03-03 收录

下载链接：

https://github.com/kkkkarry/LogicGraph

下载链接

链接失效反馈

官方服务：

资源简介：

LogicGraph是第一个旨在系统评估多路径逻辑推理的基准测试数据集。它通过神经符号框架构建，利用后向逻辑生成和语义实例化。数据集包含900个实例，分为三个难度等级（小、中、大），每个查询允许2到19个有效证明路径，平均推理深度为6.01步。每个实例都关联了一组详尽的最小证明集。

LogicGraph is the first benchmark dataset designed for the systematic evaluation of multi-path logical reasoning. It is constructed using a neurosymbolic framework that leverages backward logical generation and semantic instantiation. The dataset contains 900 instances divided into three difficulty levels: small, medium, and large. Each query admits 2 to 19 valid proof paths, with an average reasoning depth of 6.01 steps. Each instance is associated with an exhaustive set of minimal proof sets.

创建时间：

2026-02-23

原始信息汇总

LogicGraph 数据集概述

数据集简介

LogicGraph 是首个旨在系统评估多路径逻辑推理的基准测试。该数据集通过神经符号框架构建，该框架利用了后向逻辑生成和语义实例化技术。

核心特征

多路径与高深度：数据集中的每个查询允许 2 到 19 条有效证明路径。基准测试的平均推理深度为 6.01 步。
详尽的真实情况：每个实例都关联着一组详尽的最小证明集合。
固有的逻辑干扰：数据集引入了结构性干扰，其中一个前提对某条有效路径至关重要，但对另一条路径可能构成干扰。
神经符号评估：提出了一个无参考的神经符号评估器，该评估器将生成的自然语言步骤转换为形式逻辑，并使用符号求解器（Prover9）进行验证。

数据集规模与结构

数据集完全开源，包含 900 个实例。这些实例根据有效推导路径的数量分为三个难度等级：小型、中型和大型。

代码与资源状态

数据集已完全公开。神经符号生成流程、Prover9 评估脚本以及模型推理代码正在最终确定中，并将很快发布。

搜集汇总

数据集介绍

构建方式

在逻辑推理研究领域，传统评估往往聚焦于单一正确路径的收敛性推理，而现实问题常允许多种有效推导路径。为填补这一空白，LogicGraph采用神经符号框架构建，通过后向逻辑生成与语义实例化技术，系统生成每个查询对应的多种有效证明路径。该框架结合了符号逻辑的严谨性与神经网络的灵活性，确保了数据在逻辑结构上的多样性与深度，最终形成包含900个实例的基准数据集，并依据有效路径数量划分为不同难度层级。

特点

LogicGraph的核心特点在于其多路径与高深度的推理结构，每个查询支持2至19条有效证明路径，平均推理深度达到6.01步，模拟了真实场景中逻辑探索的复杂性。数据集提供了详尽的最小证明集合作为基准真值，并引入了内在逻辑干扰，即同一前提在不同路径中可能起关键作用或成为干扰项，从而考验模型在多重逻辑可能性中的辨别能力。此外，其神经符号评估机制无需外部参考，通过将自然语言步骤转化为形式逻辑并利用符号求解器进行验证，实现了高效且客观的推理性能度量。

使用方法

使用LogicGraph时，研究者可将其作为评估大型语言模型多路径逻辑推理能力的基准工具。数据集以开放源码形式提供，包含三个难度层级的实例，用户可直接加载数据进行模型测试或分析。配套的神经符号生成管道与Prover9评估脚本即将发布，届时支持将模型生成的自然语言推理步骤自动转换为形式逻辑表达式，并通过符号求解器进行验证，从而量化模型在探索多样逻辑路径时的准确性与鲁棒性，推动推理系统向更灵活、更全面的方向发展。

背景与挑战

背景概述

在人工智能领域，逻辑推理能力是评估大型语言模型智能水平的核心维度之一。传统评测多聚焦于收敛性逻辑推理，即模型需生成唯一正确的证明路径，然而现实世界中的复杂问题往往允许多种有效推导方式，要求模型具备探索多样化逻辑路径的灵活性。为填补这一研究空白，LogicGraph基准应运而生，由研究团队于近期创建，旨在系统评估模型的多路径逻辑推理性能。该数据集通过神经符号框架构建，结合逆向逻辑生成与语义实例化技术，其核心研究问题在于推动模型超越单一答案的局限，提升在开放逻辑空间中的推理鲁棒性，对推进可解释人工智能与复杂推理系统的发展具有重要影响力。

当前挑战

LogicGraph致力于解决多路径逻辑推理这一前沿领域问题，其核心挑战在于如何设计能够准确反映现实推理复杂性的评估任务。传统基准往往假设问题存在唯一解，而实际场景中逻辑路径的多样性要求模型不仅识别有效证明，还需辨析不同路径间的结构干扰与依赖关系。在数据集构建过程中，挑战主要体现在生成兼具深度与广度的逻辑实例，需确保每个查询包含二至十九条有效证明路径，同时引入内在逻辑干扰项，即同一前提在不同路径中可能扮演关键或干扰角色。此外，构建详尽的真值证明集并开发无需参考的神经符号评估器，将自然语言步骤转化为形式逻辑并进行符号验证，亦是实现可靠评测的技术难点。

常用场景

经典使用场景

在逻辑推理研究领域，LogicGraph数据集为评估大型语言模型的多路径推理能力提供了基准。该数据集通过神经符号框架构建，每个查询包含2至19条有效证明路径，平均推理深度达6.01步，模拟了现实世界中复杂问题的多元推导场景。研究人员利用LogicGraph测试模型在存在逻辑干扰项时的路径探索与选择能力，而非仅追求单一正确证明，从而推动推理系统向更灵活、鲁棒的方向发展。

衍生相关工作

围绕LogicGraph，已衍生出多项经典研究工作，主要集中在神经符号评估框架的开发与优化。例如，基于Prover9符号求解器的无参考评估器，将自然语言步骤转化为形式逻辑进行验证，为自动化推理评估设立了新标准。此外，该数据集激励了针对多路径探索的模型架构创新，如增强推理链生成与路径排序算法，进一步推动了逻辑推理与机器学习交叉领域的理论进展与应用拓展。

数据集最近研究