allenai/atomic

Name: allenai/atomic
Creator: allenai
Published: 2024-01-18 11:01:54
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/allenai/atomic

下载链接

链接失效反馈

官方服务：

资源简介：

ATOMIC数据集是一个用于常识推理的文本数据集，主要包含事件及其相关的常识推理关系。数据集由华盛顿大学的研究团队通过众包方式创建，包含训练集、测试集和验证集三个部分。数据集中的每个事件都有多个维度的注释，如oEffect、oReact、xIntent等，用于描述事件的可能结果、反应和意图等。数据集的语言为英语，且数据量在10万到100万之间。

提供机构：

allenai

原始信息汇总

ATOMIC 数据集概述

数据集描述

数据集摘要

ATOMIC 数据集提供了模板句子和在 ATOMIC 常识数据集中定义的关系。该数据集分为三个部分：训练集、测试集和验证集。

支持的任务和排行榜

[更多信息待补充]

语言

英语（en）

数据集结构

数据实例

以下是 ATOMIC 数据集的一个示例： json { "event": "PersonX uses PersonXs ___ to obtain", "oEffect": [], "oReact": ["annoyed", "angry", "worried"], "oWant": [], "prefix": ["uses", "obtain"], "split": "trn", "xAttr": [], "xEffect": [], "xIntent": ["to have an advantage", "to fulfill a desire", "to get out of trouble"], "xNeed": [], "xReact": ["pleased", "smug", "excited"], "xWant": [] }

数据字段

event: 事件的字符串表示。
oEffect, oReact, oWant, xAttr, xEffect, xIntent, xNeed, xReact, xWant: 每个维度的注释，存储为 JSON 转储的字符串。注意："none" 表示工作者明确回应了空响应，而 [] 表示工作者没有注释此维度。
prefix: 表示内容词前缀的 JSON 转储字符串（用于更好地划分训练/验证/测试集）。
split: 事件所属部分的字符串表示。

数据分割

ATOMIC 数据集分为三个部分：测试集、训练集和验证集。

数据集创建

策划理由

该数据集是为了辅助常识推理而收集和创建的。

源数据

数据集由华盛顿大学使用众包数据创建。

注释

注释过程

通过表单进行人工注释。

注释者

人工注释。

个人和敏感信息

未知，但可能没有。

使用数据的考虑

数据集的社会影响

该数据集的目标是帮助机器理解常识。

偏见的讨论

由于数据由人工注释者提供，可能存在偏见。

其他已知限制

尽管有许多关系，但数据相当稀疏。此外，数据集的每个条目都可以沿着各种维度（如 oEffect, oReact 等）扩展为多个句子。

附加信息

数据集策展人

华盛顿大学的 ATOMIC 作者。

许可信息

Creative Commons Attribution 4.0 International License.

引用信息

plaintext @article{Sap2019ATOMICAA, title={ATOMIC: An Atlas of Machine Commonsense for If-Then Reasoning}, author={Maarten Sap and Ronan Le Bras and Emily Allaway and Chandra Bhagavatula and Nicholas Lourie and Hannah Rashkin and Brendan Roof and Noah A. Smith and Yejin Choi}, journal={ArXiv}, year={2019}, volume={abs/1811.00146} }

贡献

感谢 @ontocord 添加此数据集。

搜集汇总

数据集介绍

构建方式

ATOMIC数据集由华盛顿大学采用众包方式构建，旨在辅助机器进行常识推理。该数据集通过收集和整合人类在特定情境下对事件可能引发的影响、反应、需求和意图等维度的标注，形成了一个关于if-then推理的常识图谱。

特点

ATOMIC数据集的特点在于其丰富的常识推理关系，涵盖了事件及其可能引起的多种后果和反应。数据集采用单语英语构建，包含三个数据划分：训练集、测试集和验证集，共计约40万个实例。每个实例都包括事件描述和与之相关的多个维度标注，如后果、反应、需求和意图等。

使用方法

使用ATOMIC数据集时，用户可以通过其提供的CSV文件载入数据，并利用Pandas库对数据进行进一步处理。数据集的每个字段都以JSON格式存储，便于读取和解析。用户可以依据数据集的划分进行模型训练、评估和测试，以提升机器的常识推理能力。

背景与挑战

背景概述

ATOMIC（An Atlas of Machine Commonsense for If-Then Reasoning）数据集是由华盛顿大学的研究团队在2019年创建的，旨在助力机器进行常识推理的研究。该数据集通过众包的方式收集，包含了一系列的事件描述和与其相关的多种维度注释，如后果（oEffect）、反应（oReact）、愿望（oWant）、属性（xAttr）、效果（xEffect）、意图（xIntent）、需求（xNeed）、反应（xReact）和愿望（xWant）。这些注释为机器学习模型提供了丰富的上下文信息，以理解和预测事件之间的因果关系。

当前挑战

该数据集在构建过程中遇到的挑战主要包括如何确保众包数据的质量和一致性，以及如何处理可能存在的偏见和敏感性信息。此外，数据集的稀疏性以及可能包含的过时或不当事件描述也是使用该数据集时需要考虑的问题。在研究领域问题方面，ATOMIC数据集面临的挑战是如何有效地利用这些复杂的常识关系进行文本到文本的生成任务，以及如何提高模型的泛化能力和对复杂逻辑关系的理解。

常用场景

经典使用场景

在文本到文本生成的任务中，ATOMIC数据集的经典使用场景在于构建和评估机器的常识推理能力。该数据集提供了一系列事件描述，以及与之相关的各种可能后果、反应、需求和意图等维度，使得研究者和开发者能够训练模型理解和预测事件之间的逻辑关系，进而生成符合逻辑的后续句子或故事情节。

衍生相关工作

基于ATOMIC数据集，研究者们开展了一系列相关工作，包括但不限于构建用于常识推理的模型、分析数据集中的偏见和局限性，以及开发新的评估指标来衡量模型在常识推理任务上的表现。这些衍生工作进一步扩展了ATOMIC数据集的应用范围，并促进了常识推理领域的学术交流和发展。

数据集最近研究