GEM/ART

Hugging Face2022-10-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/GEM/ART

下载链接

链接失效反馈

官方服务：

资源简介：

GEM/ART数据集是一个用于研究基于语言的溯因推理（Abductive Reasoning）的数据集。溯因推理是指推断出最合理的解释。例如，如果Jenny下班回家发现家里一团糟，并且记得她离开时窗户是开着的，她可以假设有小偷闯入并造成了混乱，作为最合理的解释。该数据集包含两个观察事件和一个解释标签，标签由亚马逊Mechanical Turk平台的众包工作者生成。数据集的结构包括训练集、开发集和测试集，主要用于训练和评估模型生成合理的假设来解释给定的观察事件。数据集的创建者来自Allen Institute for AI，并且数据集被用于GEM基准测试中。

The GEM/ART dataset is a dedicated resource for research on language-based abductive reasoning. Abductive reasoning refers to the process of inferring the most plausible explanation for observed scenarios. For instance, if Jenny returns home from work to find her house in a state of disarray and recalls leaving her window open, she may hypothesize that a burglar broke in and caused the chaos as the most reasonable explanation. Each sample in this dataset comprises two observed events and an accompanying explanation label, with the labels generated by crowdworkers on the Amazon Mechanical Turk platform. The dataset is structured into training, validation, and test splits, and is primarily used to train and evaluate models that generate plausible hypotheses to explain the given observed events. It was developed by researchers from the Allen Institute for AI, and has been incorporated into the GEM benchmark suite.

提供机构：

GEM

原始信息汇总

数据集概述

数据集名称

名称: ART
全称: Abductive Reasoning Task

数据集描述

任务类型: 推理
语言: 英语
许可证: Apache License 2.0
创建方式: 自动创建
数据来源: 原始数据
主要用途: 研究语言基础的推理能力

数据集结构

数据字段:
- observation_1: 描述一个观察/事件的字符串
- observation_2: 描述一个观察/事件的字符串
- label: 解释observation_1和observation_2可能发生原因的字符串
数据分割:
- train: 训练实例
- dev: 开发实例
- test: 测试实例

数据集创建者

创建者: Chandra Bhagavatula (AI2), Ronan Le Bras (AI2), Chaitanya Malaviya (AI2), Keisuke Sakaguchi (AI2), Ari Holtzman (AI2, UW), Hannah Rashkin (AI2, UW), Doug Downey (AI2), Wen-tau Yih (AI2), Yejin Choi (AI2, UW)
组织: Allen Institute for AI

数据集使用

主要任务: 推理
目标使用: 训练和评估模型以生成解释两个给定观察的合理假设

数据集获取

网页: Abductive Commonsense Reasoning
下载链接: Google Storage
论文: OpenReview
联系人: Chandra Bhagavatulla (chandrab@allenai.org)

数据集评估

评估指标: BLEU, BERT-Score, ROUGE
评估结果: 无

数据集维护

维护计划: 无

搜集汇总

数据集介绍

构建方式

在自然语言推理领域，GEM/ART数据集的构建体现了对溯因推理任务的系统性探索。该数据集通过亚马逊土耳其机器人平台，由来自美国、加拿大、英国和澳大利亚的众包工作者精心创作。研究者设计了一套定制化模板，引导参与者基于两个给定观察生成最合理的解释。为确保数据质量，团队采用了对抗性过滤算法对原始文本进行筛选，并自动为每个观察关联了COMET推理列表，从而构建了一个专注于日常事件解释的英文语料库。

特点

GEM/ART数据集的核心特点在于其专注于溯因自然语言生成任务，这是首个系统研究语言基溯因推理的专项资源。数据集以三元组结构呈现，包含两个观察事件和一个解释性假设，模拟人类从片段信息中推断最合理解释的认知过程。其内容涵盖日常情境，避免了个人身份信息，确保了使用的安全性。该资源支持训练与评估模型在开放域推理场景下的解释生成能力，为探究机器理解因果关系提供了标准化测试平台。

使用方法

利用GEM/ART数据集开展研究时，研究者可通过HuggingFace的datasets库直接加载数据，便捷获取训练集、开发集和测试集划分。典型工作流程涉及以观察对作为输入，训练序列生成模型输出连贯假设。评估阶段可采用BLEU、ROUGE和BERT-Score等多维度指标衡量生成文本的质量与相关性。该数据集适用于探究神经语言模型在常识推理中的局限性，亦可用于构建能够进行合理推断的对话系统或解释生成工具。

背景与挑战

背景概述

溯源于2020年，由艾伦人工智能研究所（AI2）的Chandra Bhagavatula等学者构建的ART数据集，标志着自然语言处理领域对溯因推理这一核心认知能力的系统性探索。该数据集聚焦于溯因自然语言生成任务，旨在通过给定两个观察事件，引导模型生成最合理的解释性假设。作为首个专门针对语言溯因推理的基准资源，ART不仅深化了机器对常识推理的理解，也为推动生成式人工智能在复杂语境下的解释能力提供了关键数据支撑，对叙事生成、对话系统及认知计算等领域产生了深远影响。

当前挑战

在解决溯因推理这一领域问题时，ART数据集面临的核心挑战在于如何准确评估模型生成的假设在逻辑连贯性、常识合理性与创造性之间的微妙平衡。由于溯因推理本身具有开放性与主观性，构建统一且可靠的自动化评估指标成为难点，传统基于文本匹配的度量标准（如BLEU）难以充分捕捉解释的合理性与新颖性。在数据构建过程中，挑战主要源于高质量标注的获取：通过众包平台收集的解释需确保多样性且避免偏见，同时需设计有效的对抗过滤算法以剔除平凡或不合逻辑的样本，从而维持数据集的严谨性与代表性。

常用场景

经典使用场景

在自然语言处理领域，溯因推理作为人类认知的核心能力之一，长期以来缺乏专门的评估基准。GEM/ART数据集通过构建一个基于观察的假设生成任务，为研究语言模型中的溯因推理提供了经典场景。该数据集要求模型根据两个给定的观察事件，生成一个最合理的解释性假设，从而模拟人类在日常情境中的推理过程。这一设计不仅挑战了模型对因果关系的理解能力，还推动了生成式人工智能在逻辑推理方向的发展。

实际应用

在实际应用层面，GEM/ART数据集所训练的模型可广泛应用于智能对话系统、教育辅助工具及自动化报告生成等领域。例如，在客户服务场景中，系统能够根据用户描述的问题现象自动推测根本原因；在教育领域，可帮助学生通过观察实验现象推导科学原理。这些应用不仅提升了人机交互的自然度与深度，还为医疗诊断支持、法律案例分析等需要复杂推理的专业场景提供了技术原型，体现了人工智能从感知智能向认知智能跨越的实践价值。

衍生相关工作

自GEM/ART数据集发布以来，已衍生出多项经典研究工作。例如，研究者基于该数据集提出了融合常识知识图谱的推理增强模型，通过引入外部知识提升假设的合理性。同时，针对其设计的对抗性过滤算法启发了后续数据质量控制方法的发展。在评测体系方面，该数据集被整合到GEM基准测试平台，推动了BLEU、BERT-Score等多维度评估指标的联合应用。这些工作共同深化了溯因推理在预训练语言模型中的理论探索与技术实现路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集