jeggers/logiqa2_formatted

Name: jeggers/logiqa2_formatted
Creator: jeggers
Published: 2024-05-21 12:51:12
License: 暂无描述

Hugging Face2024-05-21 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/jeggers/logiqa2_formatted

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* - split: validation path: data/validation-* dataset_info: features: - name: id dtype: int32 - name: answer dtype: int32 - name: text dtype: string - name: type dtype: string - name: question dtype: string - name: options sequence: string - name: Categorical Reasoning dtype: bool - name: Disjunctive Reasoning dtype: bool - name: Conjunctive Reasoning dtype: bool - name: Necessry Condtional Reasoning dtype: bool - name: Sufficient Conditional Reasoning dtype: bool - name: answer_char dtype: string - name: formatted_options sequence: string splits: - name: train num_bytes: 18938315 num_examples: 12567 - name: test num_bytes: 2353695 num_examples: 1572 - name: validation num_bytes: 2391774 num_examples: 1569 download_size: 12571683 dataset_size: 23683784 --- # Dataset Card for "logiqa2_formatted" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

配置项： - 配置名称：default 数据文件： - 数据划分：训练集（train），文件路径：data/train-* - 数据划分：测试集（test），文件路径：data/test-* - 数据划分：验证集（validation），文件路径：data/validation-* 数据集信息：数据集特征： - 字段名：id，数据类型：32位整数（int32） - 字段名：answer，数据类型：32位整数（int32） - 字段名：text，数据类型：字符串（string） - 字段名：type，数据类型：字符串（string） - 字段名：question，数据类型：字符串（string） - 字段名：options，数据类型：字符串序列（sequence: string） - 字段名：分类推理（Categorical Reasoning），数据类型：布尔型（bool） - 字段名：析取推理（Disjunctive Reasoning），数据类型：布尔型（bool） - 字段名：合取推理（Conjunctive Reasoning），数据类型：布尔型（bool） - 字段名：必要条件推理（Necessary Conditional Reasoning），数据类型：布尔型（bool） - 字段名：充分条件推理（Sufficient Conditional Reasoning），数据类型：布尔型（bool） - 字段名：answer_char，数据类型：字符串（string） - 字段名：formatted_options，数据类型：字符串序列（sequence: string）数据划分详情： - 数据划分：训练集（train），占用字节数：18938315，样本数量：12567 - 数据划分：测试集（test），占用字节数：2353695，样本数量：1572 - 数据划分：验证集（validation），占用字节数：2391774，样本数量：1569 下载总大小：12571683字节数据集总大小：23683784字节 --- # 数据集卡片（Dataset Card）："logiqa2_formatted" 更多信息请参阅：https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards

提供机构：

jeggers

原始信息汇总

数据集概述

数据集配置

配置名称: default
数据文件:
- 训练集: data/train-*
- 测试集: data/test-*
- 验证集: data/validation-*

数据集信息

特征:
- id: int32
- answer: int32
- text: string
- type: string
- question: string
- options: sequence: string
- Categorical Reasoning: bool
- Disjunctive Reasoning: bool
- Conjunctive Reasoning: bool
- Necessry Conditional Reasoning: bool
- Sufficient Conditional Reasoning: bool
- answer_char: string
- formatted_options: sequence: string

数据集分割

训练集:
- 大小: 18938315 字节
- 示例数: 12567
测试集:
- 大小: 2353695 字节
- 示例数: 1572
验证集:
- 大小: 2391774 字节
- 示例数: 1569

数据集大小

下载大小: 12571683 字节
数据集总大小: 23683784 字节

搜集汇总

数据集介绍

构建方式

在逻辑推理领域，数据集的构建需兼顾多样性与结构性。logiqa2_formatted数据集通过系统化的数据采集与标注流程，将原始逻辑问题转化为结构化格式。该数据集包含训练集、验证集和测试集，分别涵盖12567、1569和1572个样本，每个样本均包含问题、选项、答案及细粒度推理类型标注，如分类推理、析取推理等，确保了数据在逻辑维度上的全面覆盖。

使用方法

使用logiqa2_formatted数据集时，研究者可将其应用于逻辑推理模型的训练与评估。数据集已划分为训练、验证和测试部分，用户可直接加载相应文件进行模型训练，利用标注的推理类型进行多任务学习或分析。通过解析问题、选项及答案字段，结合逻辑类型标签，可构建分类或生成任务，推动人工智能在逻辑推理领域的发展。

背景与挑战

背景概述

逻辑推理作为人工智能领域的核心能力之一，其评估数据集的发展对推动自然语言理解技术的进步至关重要。LogiQA2_formatted数据集由jeggers等人构建，专注于形式化逻辑推理任务，旨在系统评估模型在多种逻辑推理类型上的表现。该数据集涵盖了分类推理、析取推理、合取推理以及必要与充分条件推理等多个维度，通过结构化的问题与选项设计，为研究者提供了一个标准化的测试平台。其创建反映了当前人工智能研究从浅层语义匹配向深层逻辑分析转型的趋势，对提升机器在复杂推理场景中的泛化能力具有显著影响力。

当前挑战

在逻辑推理领域，核心挑战在于模型如何准确解析自然语言中的隐含逻辑结构，并执行多步骤推理，这要求超越表面语义匹配，深入理解命题间的逻辑关系。LogiQA2_formatted数据集构建过程中，面临标注一致性与逻辑类型划分的难题，例如确保不同推理类别之间的界限清晰，避免歧义干扰评估效果。同时，数据收集需平衡多样性与复杂性，以覆盖真实世界中的推理场景，这对标注者的逻辑学专业知识提出了较高要求，也增加了数据集构建的严谨性成本。

常用场景

经典使用场景

在逻辑推理与自然语言处理交叉领域，LogiQA2_formatted数据集为评估和训练模型在形式逻辑问题上的表现提供了标准化资源。该数据集通过结构化的问题-答案对，涵盖分类推理、析取推理、合取推理及条件推理等多种逻辑类型，常用于构建和微调大型语言模型，以提升其在复杂逻辑任务中的准确性和泛化能力。研究者利用其清晰的标注体系，系统性地检验模型对逻辑规则的理解与运用，推动人工智能向更严谨的推理能力迈进。

解决学术问题

该数据集有效应对了自然语言处理中逻辑推理任务缺乏高质量、多样化基准的挑战。通过提供涵盖多种逻辑推理类型的实例，它支持学术界深入探究模型在抽象思维和符号处理方面的局限性。其意义在于为逻辑敏感的AI系统开发奠定了数据基础，促进了推理模型的可解释性研究，并推动了认知科学与计算语言学在形式化表达上的融合，对提升机器智能的严谨性具有深远影响。

实际应用

在实际应用中，LogiQA2_formatted数据集可服务于智能教育系统，用于设计自适应逻辑训练课程，帮助学生或专业人士提升批判性思维能力。同时，它也能集成到法律分析、合规检查等专业工具中，辅助进行条文逻辑一致性验证。在对话系统和客服机器人领域，该数据集有助于增强系统在复杂查询中的推理准确性，提升人机交互的可靠性与效率，为现实世界的决策支持提供逻辑保障。

数据集最近研究