LogiQA

arXiv2025-09-30 收录

下载链接：

https://github.com/lgw863/logiqa-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从国家公务员考生的逻辑思维与问题解决能力测试中收集的逻辑推理阅读理解数据集，被称为LogiQA。它特别因为能够评估逻辑推理的难度而受到关注。该数据集的任务是逻辑推理阅读理解。

This dataset, named LogiQA, is a logical reasoning reading comprehension dataset collected from the logical thinking and problem-solving ability tests for national civil service exam candidates. It has attracted particular attention for its ability to evaluate the difficulty of logical reasoning. The task of this dataset is logical reasoning reading comprehension.

搜集汇总

数据集介绍

构建方式

LogiQA数据集的构建源自中国国家公务员考试中用于评估逻辑推理能力的公开试题。研究团队从官方渠道收集了13,918个段落-问题-选项三元组，随后经过一系列严格的清洗流程：剔除不符合四选项格式的实例、过滤包含图表或数学公式的题目、去除涉及下划线或句子排序等难以在机器阅读中复现的问题，并删除重复的段落-问题对，最终得到8,678个高质量实例。原始试题为中文，团队聘请五位专业英语译者进行人工翻译，并另由三位校对者进行审核，确保翻译准确无误。此外，数据集按演绎推理的五种类型（范畴推理、充分条件推理、必要条件推理、选言推理和联言推理）进行了人工标注，覆盖了逻辑推理的多样维度。

使用方法

LogiQA适用于多选机器阅读理解任务，每个实例包含一个段落、一个问题及四个候选答案，模型需从中选出唯一正确的一项。使用方法上，可将段落与问题拼接作为输入，将每个候选答案分别与之组合，利用预训练语言模型（如BERT或RoBERTa）的[CLS]表征进行评分。数据集已随机划分为训练集（80%）、开发集（10%）和测试集（10%），便于公平评估。研究者可通过微调模型或设计专用推理架构来提升逻辑推理能力。数据集同时提供中英文版本，英文版由专家翻译并校对，中文版可直接用于跨语言研究。数据及代码在GitHub上公开获取，支持复现与扩展。

背景与挑战

背景概述

LogiQA数据集由复旦大学、西湖大学及西湖高等研究院的刘剑、崔乐阳等研究者于2020年构建，旨在填补机器阅读理解领域在逻辑推理能力评估上的空白。该数据集源自中国国家公务员考试中由专家设计的逻辑理解试题，经筛选与翻译后包含8,678个问答实例，涵盖范畴推理、条件推理（充分与必要）、选言推理及联言推理等多种演绎推理类型。与依赖文本匹配或常识知识的现有数据集（如SQuAD、RACE）不同，LogiQA聚焦于纯逻辑推断，要求模型在理解自然语言的基础上进行形式化推理。该数据集的出现为深度学习时代重新审视逻辑人工智能提供了基准，揭示了当前先进模型（如RoBERTa）在逻辑推理任务上准确率仅达35.31%，远低于人类86.00%的性能，凸显了其在自然语言处理领域的重要挑战与影响力。

当前挑战

LogiQA面临的核心挑战在于逻辑推理能力的缺失。首先，当前模型难以处理涉及多种演绎推理类型的复杂问题，如条件推理中的充分与必要关系辨析（准确率仅17.11%至19.29%），以及联言与选言推理中的约束枚举（准确率约22%），而人类表现可达86%以上。其次，构建过程中需克服数据清洗难题，包括剔除含图表、数学公式或非标准格式的原始试题，并确保翻译质量通过多次校对。此外，模型依赖浅层词汇匹配（如词重叠）而忽略深层逻辑结构，例如对否定运算符的忽视导致错误推断。最终，LogiQA与其他数据集（如RACE、COSMOS）的迁移学习效果不佳，表明其挑战高度独特，无法通过现有知识直接解决，亟需研发新型神经符号推理方法以弥合机器与人类之间的鸿沟。

常用场景

经典使用场景

LogiQA 数据集专为评估机器阅读中的逻辑推理能力而设计，其核心应用场景是作为多选阅读理解任务的基准测试。该数据集中的每个样本均包含一段文本、一个逻辑推理问题及四个候选答案，要求模型在理解文本语义的基础上，运用演绎推理（如范畴推理、条件推理、选言推理和联言推理）选择正确答案。与依赖词汇匹配或常识知识的传统阅读理解数据集不同，LogiQA 强调对前提与结论之间逻辑关系的精确把握，从而成为检验深度学习模型在形式逻辑推理领域能力的标尺。

解决学术问题

LogiQA 填补了自然语言处理中逻辑推理评估的空白，解决了现有数据集（如 SQuAD 和 RACE）难以衡量模型抽象推理能力的学术困境。研究表明，即使是 RoBERTa 等预训练模型，在 LogiQA 上仅达到 35.31% 的准确率，远低于人类 86% 的表现，这凸显了当前神经模型在逻辑推理上的系统性短板。该数据集推动了学术界重新审视逻辑人工智能在深度学习时代的潜力，并催生了关于模型是否具备形式推理能力的深入探讨，为设计更具认知合理性的推理模型提供了关键挑战。

实际应用

在实际应用中，LogiQA 可用于开发需要严谨逻辑判断的智能系统，例如法律文书分析、自动化考试评分、智能客服中的矛盾检测，以及辅助决策支持系统。由于该数据集模拟了公务员考试中的逻辑推理题，其样本贴近真实世界的逻辑分析场景，因此训练的模型能够提升在合同审查、政策合规性验证和复杂问题求解中的表现。此外，LogiQA 还可用于教育科技领域，作为自适应学习平台中训练学生逻辑思维的工具，通过人机对比揭示学习者的推理薄弱环节。

数据集最近研究