cestwc/FLD_1

Name: cestwc/FLD_1
Creator: cestwc
Published: 2023-11-04 11:56:49
License: 暂无描述

Hugging Face2023-11-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/cestwc/FLD_1

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* dataset_info: features: - name: hypothesis dtype: string - name: context dtype: string - name: hypothesis_formula dtype: string - name: context_formula dtype: string - name: proofs sequence: string - name: proof_label dtype: string - name: proofs_formula sequence: string - name: world_assump_label dtype: string - name: original_tree_depth dtype: int64 - name: depth dtype: int64 - name: num_formula_distractors dtype: int64 - name: num_translation_distractors dtype: int64 - name: num_all_distractors dtype: int64 - name: negative_hypothesis dtype: string - name: negative_hypothesis_formula dtype: string - name: negative_original_tree_depth dtype: int64 - name: negative_proofs sequence: string - name: negative_proof_label dtype: string - name: negative_world_assump_label dtype: string - name: prompt_serial dtype: string - name: proof_serial dtype: string - name: version dtype: string - name: premise dtype: string - name: assumptions sequence: string - name: paraphrased_premises sequence: string splits: - name: train num_bytes: 111376663 num_examples: 30000 - name: validation num_bytes: 18529236 num_examples: 5000 - name: test num_bytes: 18529220 num_examples: 5000 download_size: 56252409 dataset_size: 148435119 --- # Dataset Card for "FLD_1" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

cestwc

原始信息汇总

数据集概述

数据集配置

默认配置：
- 训练集（train）：路径为 data/train-*
- 验证集（validation）：路径为 data/validation-*
- 测试集（test）：路径为 data/test-*

数据集特征

特征列表：
- hypothesis：假设，数据类型为字符串
- context：上下文，数据类型为字符串
- hypothesis_formula：假设公式，数据类型为字符串
- context_formula：上下文公式，数据类型为字符串
- proofs：证明序列，数据类型为字符串序列
- proof_label：证明标签，数据类型为字符串
- proofs_formula：证明公式序列，数据类型为字符串序列
- world_assump_label：世界假设标签，数据类型为字符串
- original_tree_depth：原始树深度，数据类型为整数64位
- depth：深度，数据类型为整数64位
- num_formula_distractors：公式干扰项数量，数据类型为整数64位
- num_translation_distractors：翻译干扰项数量，数据类型为整数64位
- num_all_distractors：所有干扰项数量，数据类型为整数64位
- negative_hypothesis：负假设，数据类型为字符串
- negative_hypothesis_formula：负假设公式，数据类型为字符串
- negative_original_tree_depth：负原始树深度，数据类型为整数64位
- negative_proofs：负证明序列，数据类型为字符串序列
- negative_proof_label：负证明标签，数据类型为字符串
- negative_world_assump_label：负世界假设标签，数据类型为字符串
- prompt_serial：提示序列，数据类型为字符串
- proof_serial：证明序列，数据类型为字符串
- version：版本，数据类型为字符串
- premise：前提，数据类型为字符串
- assumptions：假设序列，数据类型为字符串序列
- paraphrased_premises：改写前提序列，数据类型为字符串序列

数据集分割

训练集：
- 字节数：111376663
- 样本数：30000
验证集：
- 字节数：18529236
- 样本数：5000
测试集：
- 字节数：18529220
- 样本数：5000

数据集大小

下载大小：56252409 字节
数据集大小：148435119 字节

搜集汇总

数据集介绍

构建方式

在自然语言推理与形式逻辑交叉研究的前沿领域，FLD_1数据集应运而生，旨在为逻辑推理与语言理解的多模态融合提供高质量的基准资源。该数据集采用系统化的自动化生成与人工校验相结合的构建范式，首先从形式逻辑系统中抽取结构化的推理树，再通过自然语言转换引擎将逻辑公式映射为语义丰富的文本假设与上下文。每个样本均包含原始逻辑公式及其自然语言表述、证明序列、标签信息以及干扰项数量等元数据，确保了数据在逻辑深度和语言多样性上的平衡。训练集包含30,000条样本，验证集与测试集各5,000条，覆盖了从简单到复杂的多层次推理场景。

特点

FLD_1数据集的核心特色在于其多维度的结构化设计，每个样本不仅提供假设与上下文，还关联了形式化逻辑公式、证明步骤及标签，使得模型能够同时学习语言表征与逻辑推演。特别引入了负样本假设及其对应证明，增强了模型对反事实推理的鲁棒性。数据集中包含原始树深度、干扰项数量等细粒度统计，便于研究者分析推理复杂度的影响。此外，改写前提与序列化提示的设计，支持了多样化的任务适配，如逻辑一致性判别与多步推理生成。这些特性使得FLD_1成为评估语言模型逻辑能力与形式化推理潜力的理想平台。

使用方法

使用FLD_1数据集时，可通过HuggingFace Datasets库直接加载，其默认配置包含train、validation和test三个分割，各分割下数据文件以通配符形式组织。研究者可基于数据集的丰富字段构建多种任务，例如利用hypothesis与context进行自然语言推理，或结合proofs与proof_label开展可解释性推理路径预测。为适配不同模型架构，建议将prompt_serial与proof_serial字段作为序列化输入，而premise与assumptions字段可用于前提选择任务。数据加载后，需根据具体需求对字段进行筛选与格式转换，例如将字符串序列转换为张量，以高效集成至PyTorch或TensorFlow训练流程中。

背景与挑战

背景概述

在自然语言推理与形式逻辑交叉研究领域，如何将非形式化的自然语言论证转化为可计算、可验证的逻辑形式，始终是制约机器深层语义理解的核心瓶颈。FLD_1数据集由研究团队于近期构建，旨在为逻辑谬误检测与形式化推理提供标准化基准。该数据集聚焦于假设与上下文之间的逻辑关系，不仅包含了自然语言表述的假设与上下文，还提供了相应的一阶逻辑公式表示、证明路径及干扰项设计，覆盖了从简单树深度到多类型干扰项等丰富维度。通过引入30,000条训练样本及各5,000条验证与测试样本，FLD_1为评估模型在逻辑一致性判断、谬误识别及形式化推理能力上提供了系统性的评测平台，对推动可解释人工智能与鲁棒自然语言理解具有重要影响。

当前挑战

FLD_1数据集所面临的挑战首先体现在领域问题的复杂性上：自然语言中的逻辑谬误往往隐含于语义歧义、隐含前提及非单调推理中，现有模型难以在缺乏显式逻辑形式的情况下精准区分有效推理与谬误推理，尤其是面对多干扰项与负例样本时，模型容易受表面语义相似性误导。在数据集构建过程中，挑战则集中于高质量逻辑公式的自动生成与人工校验的平衡，以及确保证明路径的完整性与多样性。此外，如何设计合理的负样本（如否定假设与错误证明标签）以模拟真实世界中的逻辑陷阱，同时避免引入人为偏差，亦是构建过程中需要精细调控的难题。

常用场景

经典使用场景

FLD_1数据集在自然语言推理与形式逻辑推理的交叉领域中扮演着基石角色，其经典使用场景在于评估和训练模型从非结构化文本中提取逻辑结构的能力。该数据集通过提供自然语言假设与上下文，同时配备对应的形式化逻辑公式及完整证明序列，使得研究者能够构建端到端的神经符号推理系统，从而弥合语言表达与符号计算之间的鸿沟。

解决学术问题

该数据集精准解决了学术研究中长期存在的逻辑形式化与自然语言理解脱节的问题。通过引入包含正反假设、干扰项及多层级证明标签的结构化数据，FLD_1为探究语言模型是否真正具备逻辑推理能力提供了严格的测试基准，其意义在于推动了从统计模式匹配向可解释、可验证的逻辑推理范式的转变，深刻影响了认知科学与人工智能交叉领域的研究方向。

衍生相关工作

基于FLD_1数据集，学术界已衍生出多项经典工作，包括面向逻辑完备性验证的神经符号推理模型、融合对比学习的逻辑错误检测框架，以及利用反事实假设增强模型鲁棒性的训练范式。这些工作共同推动了逻辑推理数据集从静态评测向动态生成式任务的演进，为后续构建更贴近人类思维方式的推理系统奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集