qbao775/PARARULE-Plus

Name: qbao775/PARARULE-Plus
Creator: qbao775
Published: 2023-06-05 03:56:52
License: 暂无描述

Hugging Face2023-06-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/qbao775/PARARULE-Plus

下载链接

链接失效反馈

官方服务：

资源简介：

PARARULE-Plus是一个深度多步推理的自然语言数据集，可以看作是PARARULE数据集（Peter Clark等人，2020）的改进版。PARARULE和PARARULE-Plus都遵循封闭世界假设和否定即失败的原则。该数据集的动机是生成更深的PARARULE训练样本，以探索Transformer是否具有推理能力。PARARULE Plus结合了动物和人两种实体及其关系和属性。从深度2到深度5，每一层深度大约有100,000个样本，总计近400,000个样本。

PARARULE-Plus is a deep multi-step reasoning natural language dataset, serving as an improved variant of the PARARULE dataset (Peter Clark et al., 2020). Both PARARULE and PARARULE-Plus adhere to the closed-world assumption and the principle of negation as failure. The motivation of this dataset is to generate deeper PARARULE training samples to explore whether Transformers possess reasoning capabilities. PARARULE Plus incorporates two types of entities, animals and humans, along with their relations and attributes. From depth 2 to depth 5, each depth level contains approximately 100,000 samples, with a total of nearly 400,000 samples.

提供机构：

qbao775

原始信息汇总

数据集概述

数据集名称

PARARULE-Plus

数据集版本

包含Depth=2, Depth=3, Depth=4和Depth=5的版本

数据集描述

PARARULE-Plus是一个深度多步推理数据集，用于自然语言处理。它是PARARULE数据集的改进版本，旨在生成更深层次的训练样本，探索Transformer的推理能力。
数据集包含动物和人两类实体，以及相应的关联和属性。
从Depth 2到Depth 5，每个深度层约有100,000个样本，总计近400,000个样本。

数据集特点

遵循封闭世界假设和否定作为失败原则。
结合了两种类型的实体：动物和人物，以及相应的关联和属性。

数据集规模

规模类别：100K<n<1M

数据集语言

英语（en）

数据集任务类别

文本分类
问答

数据集标签

推理
多步演绎推理
逻辑推理

数据集许可证

MIT许可证

数据集来源

由LogiTorch.ai、ReasoningNLP、Prompt4ReasoningPapers和OpenAI/Evals收集和合并。

数据集预处理

在Huggingface版本中，使用1代表true，0代表false，以帮助用户训练模型。

数据集加载方法

python from datasets import load_dataset dataset = load_dataset("qbao775/PARARULE-Plus")

数据集引用

@inproceedings{bao2022multi, title={Multi-Step Deductive Reasoning Over Natural Language: An Empirical Study on Out-of-Distribution Generalisation}, author={Qiming Bao and Alex Yuxuan Peng and Tim Hartill and Neset Tan and Zhenyun Deng and Michael Witbrock and Jiamou Liu}, year={2022}, publisher={The 2nd International Joint Conference on Learning and Reasoning and 16th International Workshop on Neural-Symbolic Learning and Reasoning (IJCLR-NeSy 2022)} }

搜集汇总

数据集介绍

构建方式

在自然语言推理领域，PARARULE-Plus数据集通过系统化扩展PARARULE框架构建而成，专注于深度多步演绎推理。该数据集采用封闭世界假设与失败即否定的逻辑基础，通过组合动物与人物两类实体及其关系属性，生成了从深度2至深度5的层次化样本。每个深度层级包含约十万条数据，总计近四十万条样本，旨在探索Transformer模型在复杂推理任务中的能力边界。

特点

PARARULE-Plus数据集的核心特征在于其层次化的深度推理结构，覆盖了从二阶到五阶的多步演绎场景。数据集融合了自然语言表达与形式化逻辑规则，通过真值标注（1代表真，0代表假）增强了机器学习的可处理性。其规模庞大且结构清晰，为研究模型在分布外泛化问题上的表现提供了丰富且具有挑战性的评估基准。

使用方法

使用该数据集时，研究者可通过HuggingFace的datasets库直接加载，便捷地获取预处理后的结构化数据。数据已转换为二进制真值表示，适合用于训练文本分类或问答模型。用户可参考项目提供的示例脚本，对BERT等预训练模型进行微调，以验证模型在深度演绎推理任务上的性能，推动自然语言理解与逻辑推理的交叉研究。

背景与挑战

背景概述

在人工智能领域，自然语言推理与多步演绎推理一直是核心研究议题，旨在探索模型如何从文本中提取逻辑关系并进行复杂推断。PARARULE-Plus数据集由Qiming Bao等研究人员于2022年创建，作为PARARULE数据集的扩展版本，专注于深度多步推理任务。该数据集由Strong-AI-Lab等机构联合开发，核心研究问题在于评估Transformer模型在封闭世界假设下的演绎推理能力，特别是处理深度从2到5层的逻辑链条。通过结合动物与人物两类实体及其属性关系，PARARULE-Plus生成了近40万条样本，为自然语言处理中的符号推理研究提供了重要资源，推动了神经符号融合方向的发展。

当前挑战

PARARULE-Plus数据集旨在解决自然语言多步演绎推理的挑战，其核心问题在于模型如何从文本中捕捉隐含逻辑规则并进行链式推断，这要求模型具备符号推理与泛化能力。在构建过程中，研究人员面临生成深度样本的复杂性，需确保逻辑链条的连贯性与一致性，同时避免数据偏差。此外，数据集遵循封闭世界假设与否定即失败原则，增加了规则表示与验证的难度，对数据标注与质量把控提出了更高要求。

常用场景

经典使用场景

在自然语言推理领域，PARARULE-Plus数据集作为深度多步演绎推理的基准工具，其经典使用场景集中于评估和训练Transformer模型在复杂逻辑链条中的推理能力。该数据集通过模拟封闭世界假设和否定即失败原则，构建了从深度2至5的层次化规则样本，涵盖动物与人物实体及其关系属性，为研究者提供了系统探究模型在递进式逻辑演绎中表现的机会。

衍生相关工作

围绕PARARULE-Plus数据集，已衍生出多项经典研究工作，例如基于Transformer的微调实验和神经符号推理方法的探索。这些工作深入分析了模型在多层次规则泛化中的行为，并促进了如LogiTorch.ai和ReasoningNLP等工具库的发展，为后续研究提供了可复现的基准与跨领域推理模型的优化路径。

数据集最近研究