allenai/atomic
收藏ATOMIC 数据集概述
数据集描述
数据集摘要
ATOMIC 数据集提供了模板句子和在 ATOMIC 常识数据集中定义的关系。该数据集分为三个部分:训练集、测试集和验证集。
支持的任务和排行榜
[更多信息待补充]
语言
英语(en)
数据集结构
数据实例
以下是 ATOMIC 数据集的一个示例: json { "event": "PersonX uses PersonXs ___ to obtain", "oEffect": [], "oReact": ["annoyed", "angry", "worried"], "oWant": [], "prefix": ["uses", "obtain"], "split": "trn", "xAttr": [], "xEffect": [], "xIntent": ["to have an advantage", "to fulfill a desire", "to get out of trouble"], "xNeed": [], "xReact": ["pleased", "smug", "excited"], "xWant": [] }
数据字段
- event: 事件的字符串表示。
- oEffect, oReact, oWant, xAttr, xEffect, xIntent, xNeed, xReact, xWant: 每个维度的注释,存储为 JSON 转储的字符串。注意:"none" 表示工作者明确回应了空响应,而 [] 表示工作者没有注释此维度。
- prefix: 表示内容词前缀的 JSON 转储字符串(用于更好地划分训练/验证/测试集)。
- split: 事件所属部分的字符串表示。
数据分割
ATOMIC 数据集分为三个部分:测试集、训练集和验证集。
数据集创建
策划理由
该数据集是为了辅助常识推理而收集和创建的。
源数据
数据集由华盛顿大学使用众包数据创建。
注释
注释过程
通过表单进行人工注释。
注释者
人工注释。
个人和敏感信息
未知,但可能没有。
使用数据的考虑
数据集的社会影响
该数据集的目标是帮助机器理解常识。
偏见的讨论
由于数据由人工注释者提供,可能存在偏见。
其他已知限制
尽管有许多关系,但数据相当稀疏。此外,数据集的每个条目都可以沿着各种维度(如 oEffect, oReact 等)扩展为多个句子。
附加信息
数据集策展人
华盛顿大学的 ATOMIC 作者。
许可信息
Creative Commons Attribution 4.0 International License.
引用信息
plaintext @article{Sap2019ATOMICAA, title={ATOMIC: An Atlas of Machine Commonsense for If-Then Reasoning}, author={Maarten Sap and Ronan Le Bras and Emily Allaway and Chandra Bhagavatula and Nicholas Lourie and Hannah Rashkin and Brendan Roof and Noah A. Smith and Yejin Choi}, journal={ArXiv}, year={2019}, volume={abs/1811.00146} }
贡献
感谢 @ontocord 添加此数据集。




