Wason Selection Task dataset
收藏arXiv2026-03-06 更新2024-08-10 收录
下载链接:
https://github.com/kmineshima/NeuBAROCO
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Wason Selection Task dataset,由庆应义塾大学和东京大学的研究团队创建,旨在系统地区分义务性条件句和描述性条件句。数据集包含160个问题,其中80个涉及义务性规则,80个涉及描述性规则,每个规则极性模式包含20个问题。数据集的构建过程包括明确编码义务性模态,以便在不同规则类型之间进行系统比较。该数据集主要用于评估大型语言模型在义务性规则下的条件推理能力,旨在揭示模型在推理过程中是否存在与人类相似的领域特异性效应和错误模式。
This dataset, termed the Wason Selection Task dataset, was created by a research team from Keio University and the University of Tokyo, with the core objective of systematically differentiating between deontic conditional statements and descriptive conditional statements. The dataset contains 160 questions in total, with 80 focusing on deontic rules and 80 on descriptive rules, and each polarity pattern of the rules includes 20 questions. The construction of the dataset involves explicit encoding of deontic modality to facilitate systematic comparisons between different rule types. This dataset is primarily used to evaluate the conditional reasoning abilities of large language models (LLMs) under deontic rules, aiming to reveal whether the models present domain-specific effects and error patterns similar to those of humans during their reasoning processes.
提供机构:
庆应义塾大学; 东京大学
创建时间:
2026-03-06
原始信息汇总
NeuBAROCO 数据集概述
数据集内容
NLI (Natural Language Inference) 任务格式
文件
描述
| 列名 | 描述 |
|---|---|
| ID | 问题ID |
| ORIGINAL_ID | 原始问题ID |
| premises_ja | 两个前提(日语) |
| hypothesis_ja | 一个假设(日语) |
| premises_en | 两个前提(英语) |
| hypothesis_en | 一个假设(英语) |
| gold | 正确答案(entailment, contradiction, neutral) |
| mood | 每个前提和结论的形式(由A, E, I, O组成的三个字母) |
| inference-type | 逻辑推理类型(syllogism, propositional) |
| content-type | 基于信念一致性的分类(symbolic, congruent, incongruent) |
| conversion | 与转换错误相关(yes, no) |
| atmosphere | 与氛围效应相关(yes, no) |
Multiple-Choice 任务格式
文件
描述
| 列名 | 描述 |
|---|---|
| ID | 问题ID |
| premises_ja | 两个前提(日语) |
| hypothesis_ja_1 | 假设1(日语) |
| hypothesis_ja_2 | 假设2(日语) |
| hypothesis_ja_3 | 假设3(日语) |
| hypothesis_ja_4 | 假设4(日语) |
| hypothesis_ja_5 | 假设5(日语) |
| premises_en1 | 两个前提(英语) |
| hypothesis_en_1 | 假设1(英语) |
| hypothesis_en_2 | 假设2(英语) |
| hypothesis_en_3 | 假设3(英语) |
| hypothesis_en_4 | 假设4(英语) |
| hypothesis_en_5 | 假设5(英语) |
| gold | 正确答案(1-5) |
| content-type | 基于信念一致性的分类(symbolic, contentual, congruent, incongruent) |
| mood | 每个前提和结论的形式(由A, E, I, O组成的三个字母) |
| figure | 每个术语出现的顺序代码(1-4) |
- 注意: 五个假设中有一个是“none of them”。
NALOMA2023 实验使用的数据
文件
引用
如果您的研究中使用了此数据集,请引用以下内容:
- ACL Anthology: TBA
- arXiv preprint
@article{ozeki2024exploring, title={Exploring Reasoning Biases in Large Language Models Through Syllogism: Insights from the NeuBAROCO Dataset}, author={Kentaro Ozeki and Risako Ando and Takanobu Morishita and Hirohiko Abe and Koji Mineshima and Mitsuhiro Okada}, journal={arXiv preprint arXiv:2408.04403}, year={2024} }
搜集汇总
数据集介绍

构建方式
NeuBAROCO数据集是通过将BAROCO测试中的问题转换为自然语言推理(NLI)任务格式而构建的。该数据集包含英语和日语中的三段论推理问题,旨在评估大型语言模型在演绎推理任务中的能力和偏差。原始BAROCO测试问题集是为大规模研究人类推理能力而设计的,包括典型的涉及人类推理偏差的信念偏差任务。NeuBAROCO数据集在此基础上进行了扩展,增加了新的问题,并将其翻译成英语,以便进行更系统的评估。
特点
NeuBAROCO数据集的特点在于其多样性、详细的注释以及对推理偏差的评估。该数据集包括多种形式的推理偏差,如信念偏差、转换错误和氛围效应,并包含与每种问题相关联的推理偏差类型的详细注释。此外,数据集中的一部分问题与人类表现指标对齐,从而可以比较人类心理实验的结果和机器学习模型的初步研究结果。NeuBAROCO数据集的设计使得可以与人类心理实验的结果进行比较,并初步研究机器学习模型。
使用方法
NeuBAROCO数据集可用于评估大型语言模型在演绎推理任务中的能力和偏差。数据集包括多种任务类型,如多项选择题、自然语言推理任务和翻译-解释任务。多项选择题要求模型从给定的选项中选择正确的结论,而自然语言推理任务要求模型确定假设与前提之间的关系。翻译-解释任务要求模型首先将三段论翻译成逻辑表达式,然后解释其推理过程。这些任务的设计使得可以更精细地分析模型的推理能力,并确定错误和偏差的来源。
背景与挑战
背景概述
在自然语言处理(NLP)领域,大型语言模型(LLMs)的逻辑推理能力越来越受到关注。NeuBAROCO数据集由日本庆应大学的Ozeki Kentaro等人于2024年创建,旨在评估LLMs在演绎推理中的表现,特别是三段论推理。该数据集包含英文和日文的三段论推理问题,基于人类推理能力评估的心理实验问题集构建。NeuBAROCO数据集为LLMs的逻辑推理能力评估提供了新的视角,并有助于理解LLMs是否表现出类似于人类的推理偏差。
当前挑战
NeuBAROCO数据集相关的挑战包括:1) 所解决的领域问题是LLMs在自然语言中的逻辑推理能力,特别是三段论推理;2) 构建过程中遇到的挑战包括如何准确捕捉人类推理偏差,以及如何设计评估任务以全面评估LLMs的逻辑推理能力。此外,NeuBAROCO数据集还面临着将LLMs的推理能力与人类进行比较的挑战,以及如何处理自然语言推理中的复杂性和多样性。
常用场景
经典使用场景
NeuBAROCO数据集主要被用于评估大型语言模型(LLM)在自然语言中的逻辑推理能力,特别是探究这些模型是否表现出类似于人类的推理偏差。该数据集包含英文和日文的演绎推理问题,主要形式为三段论,是一种被广泛研究的推理形式。通过对LLM进行评估,研究人员发现这些模型在推理过程中存在与人类相似的偏差,例如信念偏差、转换错误和氛围效应。此外,该数据集还引入了一种新的任务,即“翻译-解释”任务,要求LLM将三段论翻译成抽象的逻辑表达式并解释其推理过程,从而更精确地识别LLM的推理错误。
实际应用
NeuBAROCO数据集在实际应用中可以用于评估和改进LLM的逻辑推理能力。通过对LLM进行评估,研究人员发现这些模型在推理过程中存在与人类相似的偏差,例如信念偏差、转换错误和氛围效应。这些偏差的存在表明LLM在逻辑推理能力方面仍有待提高。通过对LLM进行评估和改进,可以提高LLM在自然语言处理任务中的表现,例如文本摘要、机器翻译和问答系统等。此外,NeuBAROCO数据集还可以用于开发新的推理评估方法,例如“翻译-解释”任务,从而更精确地识别LLM的推理错误,并为提高LLM的逻辑推理能力提供参考。
衍生相关工作
NeuBAROCO数据集衍生了多个相关的研究工作。首先,该数据集为评估LLM的逻辑推理能力提供了一个新的基准,促进了LLM在推理任务中的研究和发展。其次,该数据集引入了“翻译-解释”任务,为评估LLM的推理过程提供了一种新的方法,有助于研究人员更深入地了解LLM的推理机制。此外,NeuBAROCO数据集还促进了LLM推理偏差的研究,例如信念偏差、转换错误和氛围效应等。这些研究有助于改进LLM的逻辑推理能力,并为开发更先进的自然语言处理系统提供参考。
以上内容由遇见数据集搜集并总结生成



