pita

Hugging Face2026-02-17 更新2026-02-18 收录

下载链接：

https://huggingface.co/datasets/williamtong105/pita

下载链接

链接失效反馈

官方服务：

资源简介：

PITA 数据集是一个包含命题逻辑语句及其对应证明的数据集，旨在支持逻辑推理和证明生成的研究。数据集包含四个不同的分割（full、imply、or、php），每个分割具有不同数量的样本和字节大小。数据集的特征包括布尔类型的 'is_true'、整数类型的 'length' 以及字符串类型的 'prompt' 和 'completion'。该数据集在论文《Boule or Baguette? A Study on Task Topology, Length Generalization, and the Benefit of Reasoning Traces》中首次提出，适用于逻辑推理、自然语言处理和机器学习任务。

The PITA dataset is a collection of propositional logic statements and their corresponding proofs, designed to support research on logical reasoning and proof generation. The dataset includes four distinct splits: full, imply, or, and php, each with varying numbers of samples and byte sizes. The features of this dataset contain the boolean field 'is_true', integer field 'length', as well as string fields 'prompt' and 'completion'. This dataset was first introduced in the paper *Boule or Baguette? A Study on Task Topology, Length Generalization, and the Benefit of Reasoning Traces*, and is applicable to logical reasoning, natural language processing, and machine learning tasks.

创建时间：

2026-02-13

搜集汇总

数据集介绍

构建方式

在命题逻辑领域，数据集的构建往往依赖于形式化系统的严谨性。PITA数据集通过自动化生成机制，系统性地创建了大量命题逻辑陈述及其对应的证明过程。该过程基于预设的逻辑规则与推理框架，确保了每个样本在逻辑上的一致性。生成策略涵盖了多种逻辑操作符与结构，从而构建出具有不同复杂度的命题陈述。这种自动化生成方式不仅提升了数据集的规模，也保证了逻辑表达的多样性，为模型训练提供了丰富的逻辑推理素材。

特点

PITA数据集的核心特征在于其专注于命题逻辑陈述与证明的对应关系，这为研究逻辑推理的机器学习模型提供了关键资源。数据集包含多个子集，如“imply”和“or”，分别侧重于蕴含与析取等特定逻辑操作，使得数据在逻辑结构上具有明确的分类。每个样本均标注了陈述的真实性、长度及完整的证明过程，增强了数据的可解释性与实用性。这种结构化设计支持模型从基础逻辑规则到复杂推理链条的学习，促进了长度泛化与任务拓扑的研究。

使用方法

使用PITA数据集时，研究者可将其应用于训练或评估逻辑推理模型，特别是在命题逻辑的自动证明生成任务中。数据集的不同子集允许针对特定逻辑操作进行针对性实验，例如通过“imply”子集探索蕴含关系的推理能力。加载数据后，用户可访问陈述、证明及元数据字段，以构建输入-输出对进行模型训练。该数据集兼容常见的机器学习框架，支持从基础逻辑学习到高级推理任务的迁移，为推进形式推理的AI研究提供了标准化基准。

背景与挑战

背景概述

PITA数据集作为命题逻辑领域的重要资源，由研究团队于2024年通过论文《Boule or Baguette? A Study on Task Topology, Length Generalization, and the Benefit of Reasoning Traces》正式发布，其核心研究问题聚焦于探索任务拓扑结构、长度泛化能力以及推理轨迹在逻辑证明中的价值。该数据集通过系统化收集命题逻辑陈述及其对应证明，旨在推动形式推理与人工智能的交叉研究，为模型在复杂逻辑任务中的性能评估提供了标准化基准，显著促进了自动定理证明和神经符号计算等领域的进展。

当前挑战

在领域问题层面，PITA数据集致力于应对命题逻辑中陈述与证明的自动生成与验证挑战，这要求模型不仅需理解逻辑结构的精确性，还需具备长序列推理和泛化能力。构建过程中的挑战则体现在大规模高质量逻辑数据集的创建上，包括确保陈述与证明之间的一致性、处理多样化的逻辑运算符组合，以及平衡数据集的复杂性与覆盖范围，这些因素共同增加了数据标注与校验的难度。

常用场景

经典使用场景

在形式逻辑与自动推理领域，PITA数据集以其丰富的命题逻辑语句及对应证明序列，为研究语言模型在结构化推理任务中的表现提供了经典场景。该数据集通过包含多种逻辑操作符（如蕴含、或运算）的细分配置，使研究者能够系统评估模型在生成严谨证明链、处理逻辑长度泛化以及理解任务拓扑结构方面的能力，成为探索符号推理与神经计算融合的关键基准。

衍生相关工作

围绕PITA数据集，衍生出了一系列探索神经符号推理的经典研究工作。例如，原论文《Boule or Baguette?》深入分析了任务拓扑对泛化的影响；后续研究则借鉴其数据构造范式，开发了更高效的逻辑证明生成模型，或将其扩展至一阶逻辑等更复杂的领域。这些工作共同推动了推理轨迹学习、模型可解释性以及结构化数据合成等方向的前沿进展。

数据集最近研究