LogiHard-2K

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/LogiHard/LogiHard-2K

下载链接

链接失效反馈

官方服务：

资源简介：

LogiHard-2k是一个源自高难度人类考试的本土逻辑推理基准数据集，包含2000个严格分层的多项选择题，旨在评估大型语言模型的组合命题推理能力。数据集分为基础原子问题（LogiHard-Base，1461项）和组合问题（LogiHard-C，539项），后者通过LogiHard协议转化为二阶命题判断任务。每个问题包含9维认知特征、IRT 3PL参数（区分度、难度、伪猜测）、来源归属和推理类型标签。数据来源于中国公务员考试、LSAT、GMAT、IBPS、CAT和Ravens Progressive Matrices等公开高难度考试准备材料，语言比例为45%英语和55%中文。数据集适用于评估大型语言模型的组合推理能力、计算机自适应测试（CAT）框架中的难度校准，以及研究有效性保证的基准强化和污染抵抗。

LogiHard-2k is a native logical reasoning benchmark dataset derived from high-difficulty human examinations, containing 2000 strictly stratified multiple-choice questions designed to evaluate the compositional propositional reasoning capabilities of large language models. The dataset is divided into basic atomic problems (LogiHard-Base, 1461 items) and combinatorial problems (LogiHard-C, 539 items), with the latter transformed into second-order propositional judgment tasks through the LogiHard protocol. Each question includes 9-dimensional cognitive features, IRT 3PL parameters (discrimination, difficulty, pseudo-guessing), source attribution, and reasoning type labels. The data originates from publicly available high-difficulty exam preparation materials such as Chinese Civil Service Exams, LSAT, GMAT, IBPS, CAT, and Ravens Progressive Matrices, with a language ratio of 45% English and 55% Chinese. The dataset is suitable for evaluating the combinatorial reasoning abilities of large language models, difficulty calibration in Computerized Adaptive Testing (CAT) frameworks, and research on benchmark reinforcement and contamination resistance with validity guarantees.

创建时间：

2026-05-05

原始信息汇总

数据集概述：LogiHard-2k

LogiHard-2k 是一个原生逻辑推理基准数据集，由 2,000 道严格分层的多项选择题组成，专门设计用于评估大型语言模型在组合命题推理方面的能力。

数据集构成

LogiHard-Base（基础集）：1,461 个问题，涉及 0 阶自然语言推理。
LogiHard-C（组合集）：539 个问题，通过 LogiHard 协议确定性转换为 2 阶命题判断任务。
每个样本包含 9 维认知特征、IRT 3PL 参数（区分度、难度、伪猜测）、来源归属和推理类型标签。

数据结构

每条数据以 JSON 格式组织，包含以下字段：

id：唯一标识符
subset：子集类型（base 或 combinatorial）
tier：难度层级（Easy、Medium、Hard、Expert 或 null）
language：语言（en 或 zh）
source：来源
context：题目上下文
options：选项列表
correct_answer：正确答案列表
propositional_statements：命题陈述列表
formulas：逻辑公式列表
cognitive_features：9 维认知特征（例如 oscillation_points、logic_density 等）
gold_score：综合评分
irt_3pl：项目反应理论三参数模型（a 区分度、b 难度、c 猜测度）
reasoning_type：推理类型（syllogistic、analogical 或 propositional）

数据划分

子集	数量	描述
`base`	1,461	原子多项选择题（单选）
`combinatorial`	539	命题组合变体（多选）
— Easy	108	仅精确性
— Medium	215	加析取
— Hard	162	加否定
— Expert	54	加复合否定

数据来源

题目源自公开的高风险考试备考材料，包括：

中国公务员考试
LSAT（法学院入学考试）
GMAT（管理学研究生入学考试）
IBPS（银行人员选拔考试）
CAT（普通入学考试）
瑞文推理测验

语言分布：45% 英文，55% 中文。

标注方法

认知特征通过自动化模式匹配，从前沿推理模型（温度 1.0，最大 16,000 token）的长链思维推理痕迹中提取。
综合评分通过加权线性组合（z 归一化加逻辑谬误惩罚）汇总 9 个指标。
IRT 3PL 参数基于认知特征经验校准：难度（b）来自综合评分、逻辑密度和推理长度；区分度（a）来自算子复杂度层级。

偏差、风险与局限

语言不平衡：55% 中文、45% 英文，未覆盖类型上不同的语言。
文化范围：来源集中在东亚和北美考试传统。
模型依赖：认知评分依赖单一推理模型的痕迹模式，排名可能不适用于其他模型家族。
无个人隐私信息：所有题目均为抽象逻辑推理问题。
领域限制：仅评估纯逻辑演绎，不涉及感知推理、程序执行或开放式生成。

预期用途

评估大型语言模型的组合推理能力。
在计算机自适应测试框架中校准难度。
研究基准加固和抗污染方法。

不适用于：高风险人类评估、招聘或入学筛选（未经领域特定验证）。

许可协议

本项目采用 CC-BY 4.0 许可协议。

搜集汇总

数据集介绍

构建方式

LogiHard-2K 是一个专为评估大语言模型组合逻辑推理能力而设计的高质量基准数据集，其构建过程融合了严谨的学术规范与工程智慧。数据源自中国公务员考试、LSAT、GMAT等高风险人类选拔考试中的逻辑题目，经严格筛选与分层后形成包含1,461道基础原子题与539道组合逻辑题的2,000项多选题。组合题目通过名为LogiHard的确定性协议，将自然语言推理任务转化为二阶命题判断形式，并依据运算复杂度（如仅含精确匹配、析取、否定、复合否定）划分为Easy至Expert四个难度层级。每道题目均配备9维认知特征向量、IRT 3PL参数（区分度、难度、伪猜测率）、来源标签及推理类型标注，认知特征通过对前沿推理模型的长链思维轨迹进行自动化模式匹配提取，IRT参数则基于认知特征与运算复杂度层级经验校准，形成一套兼具理论深度与工程可行性的数据构建体系。

特点

该数据集的核心特色在于其多维度的精细结构化设计与对逻辑推理能力的纯化测查。每个样本不仅包含题干、选项和标准答案，还携带有命题声明、逻辑公式等结构化信息，并嵌入9项认知特征指标，如振荡点数、逻辑密度、溯因深度、辩证张力、维度意识、推理链长度、不确定性熵、转折点计数和概念抽象度，这些指标从多个角度量化了推理任务的认知负荷。在此基础上，Gold Score通过加权线性组合与z归一化及逻辑谬误惩罚聚合出综合得分，而IRT 3PL参数则提供了项目反应理论视角下的难度与区分度度量。数据集以55%中文和45%英文双语呈现，覆盖三段论、类比推理与命题推理三种类型，且明确限定了纯逻辑演绎的评估范畴，不涉及感知推理或开放式生成，从而确保了评估维度的精准聚焦。

使用方法

LogiHard-2K 提供了灵活且规范的使用方式，适用于多种研究场景。用户可直接通过Hugging Face Datasets库加载数据，按基础子集（base）与组合子集（combinatorial）进行拆分，也可依据Easy至Expert的难度分层或中文/英文语言版本进行过滤。每道题目的多选选项结构可直接用于构建大语言模型的零样本或少样本评估流程，结合正则匹配或基于模型的答案提取方法计算准确率。认知特征与IRT参数可用于基于计算机自适应测试（CAT）框架的难度校准与题目动态选择，而命题声明与逻辑公式字段则为可解释性分析提供了信号级验证依据。研究人员亦可利用该数据集进行对照实验，考量模型在基础原子推理与组合命题推理间的性能差异，或构建污染抵抗性更强的基准测试。

背景与挑战

背景概述

在逻辑推理能力评估领域，现有基准测试多聚焦于浅层自然语言推理，难以揭示大语言模型在组合命题演算上的真实局限。LogiHard-2K数据集于2024年由跨国际考试题库团队构建，涵盖1,461道原子问题与539道组合逻辑题，源自中国公务员考试、LSAT、GMAT等高利害性人类考试。该数据集独创性地将认知特征与IRT三参数模型相结合，为模型推理能力提供了多维度量化标尺。其引入的九维认知特征及难度层级划分，显著提升了评估的细粒度与客观性，迅速成为检验LLMs组合推理能力的重要基准，对计算机自适应测试领域亦产生了深远影响。

当前挑战

LogiHard-2K所面对的挑战具有双重性。在领域问题层面，现有推理基准多依赖单轮问答或简单逻辑链，难以覆盖复杂的组合命题推理、模态转换及多前提演绎，而LogiHard-2K通过引入多层次逻辑运算符（析取、否定、复合否定）直接填补了这一空白。在构建层面，数据来源虽横跨东西方考试体系，却面临语言与文化偏向性，55%中文与45%英文的配比难以代表全球语系多样性；同时，认知特征依赖单一前沿模型的思维链轨迹，其自动化标注过程可能引入模型特定偏差，导致评分在不同模型家族间泛化不足，且特征提取与IRT参数校准的稳健性仍需进一步验证。

常用场景

经典使用场景

LogiHard-2K作为一项专为评估大语言模型逻辑推理能力而设计的基准测试集，其最经典的使用场景聚焦于衡量模型在组合命题推理任务上的表现。该数据集精心构建了2,000道源自高利害人类考试的多项选择题，其中包含1,461道基础零阶自然语言推理题目与539道经确定性变换的二阶命题判断题目，全面覆盖易、中、难、专家四个难度层级。研究者可借助这一基准对模型在演绎推理、类比推理及命题逻辑推理等维度展开系统评测，尤其能够揭示模型在处理否定、析取及复合否定等复杂逻辑算子时的表现差异。

实际应用

在实际应用层面，LogiHard-2K展现出多元化价值。一方面，它可被部署于计算机自适应测试框架中，利用其IRT参数标定结果动态调整题目难度，实现个性化的推理能力诊断。另一方面，教育科技企业可借助该数据集构建针对逻辑推理薄弱环节的智能辅导系统，通过对九维认知特征的剖析精准定位学习者推理链中的缺陷节点。此外，该基准还为法律、管理类职业资格考试的自动化批阅与命题优化提供了量化依据，其跨语言特性（45%英语与55%中文）更使得逻辑推理训练材料能在不同文化背景下的教育场景中灵活适配。

衍生相关工作

LogiHard-2K的发布催生了多项富有启发性的后续研究工作。其基于认知特征与IRT参数的题目标定方法启发了研究者开发新的推理难度预测模型，通过将九维特征向量映射至神经网络实现自动化题目质量评估。围绕该数据集的组合逻辑变换协议，衍生出探索逻辑算子复杂度与模型推理能力之间缩放律的研究方向，揭示了模型在不同逻辑结构下的性能边界。此外，认知特征中振荡点与不确定性熵等指标被借鉴用于构建推理置信度校准框架，提升了模型在关键决策场景中的可解释性。这些工作共同构筑了一个以LogiHard-2K为核心的逻辑推理研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集