community-datasets/glucose
收藏数据集概述
数据集描述
数据集摘要
GLUCOSE(GeneraLized and COntextualized Story Explanations)是一个用于常识推理的新颖概念框架和数据集。给定一个短故事和故事中的句子X,GLUCOSE捕捉与X相关的十个因果解释维度。这些维度受到人类认知心理学的启发,涵盖了X的隐含原因和效果,包括事件、地点、拥有状态和其他属性。
支持的任务和排行榜
GLUCOSE支持以下常识推理任务:
- 原因
- 驱动事件的情绪
- 使事件发生的位置
- 使事件发生的拥有状态
- 使事件发生的其他属性
- 后果
- 由事件引起的情绪
- 由事件引起的位置变化
- 由事件引起的拥有状态变化
- 由事件引起的其他属性变化
语言
数据集为单语种,语言为英语。
数据集结构
数据实例
数据实例包括以下字段:
experiment_id: 随机生成的字母数字序列,附加句子索引。story_id: 故事的随机字母数字标识符。worker_id: 每个工人的唯一标识号。submission_time_normalized: 提交时间,格式为YYYYMMDD。worker_quality_assessment: 工人在任务中的评分。selected_sentence_index: 故事中给定句子的索引。story: 用于任务的ROC故事的全文。selected_sentence: 故事中被注释的句子。[1-10]_specificNL: 特定于故事的常识知识,自然语言格式。[1-10]_specificStructured: 特定于故事的常识知识,结构化格式。[1-10]_generalNL: 从特定陈述中得出的关于世界的普遍规则,自然语言格式。[1-10]_generalStructured: 从特定陈述中得出的关于世界的普遍规则,结构化格式。number_filled_in: 为任务填充的维度数量。
数据分割
- 训练集:65,521个样本
- 测试集:500个样本,不包括工人ID、评分、填充数量和结构化文本。
数据集创建
策划理由
人类在阅读或聆听时会做出隐含的常识推理,这构成了他们对发生的事情和原因的理解。为了使AI系统能够构建类似的思维模型,我们引入了GLUCOSE,这是一个大规模的隐含常识因果知识数据集,编码为关于世界的因果小理论,每个理论都基于叙事背景。
源数据
初始数据收集和规范化
初始文本来自ROCStories。
源语言生产者
数据由Amazon Mechanical Turk提供。
注释
注释过程
为了开发能够构建叙事思维模型的模型,我们旨在通过众包创建一个大规模、质量监控的数据集。使用众包工人(而不是少数专家注释者)确保了思维的多样性,从而扩大了常识知识资源的覆盖范围。注释任务很复杂:它要求注释者理解不同因果维度在各种上下文中的应用,并提出超越故事上下文的普遍理论。为了严格控制质量,我们在Amazon Mechanical Turk平台上设计了一个三阶段的常识知识获取管道。工人首先通过资格测试,他们必须在10个多选题中至少获得90%的分数。接下来,合格的工人可以进行主要的GLUCOSE数据收集任务:给定一个故事S和故事句子X,他们被要求填充(允许不适用)所有十个GLUCOSE维度,从GLUCOSE数据获取中获得逐步指导。为了确保数据一致性,相同的工人回答S,X对的所有维度。最后,提交的内容由专家审查,专家在0到3的范围内对每个工人进行评分,并提供改进建议。我们的最终用户界面是超过六轮试点研究的结果,迭代改进交互元素、功能、维度定义、说明和示例。
注释者
注释者为Amazon Mechanical Turk工人,并由专家提供反馈。
个人和敏感信息
数据集中不包含个人或敏感信息。
使用数据的注意事项
数据集的社会影响
[更多信息待补充]
偏见的讨论
[更多信息待补充]
其他已知限制
[更多信息待补充]
附加信息
数据集策展人
Nasrin Mostafazadeh, Aditya Kalyanpur, Lori Moon, David Buchanan, Lauren Berkowitz, Or Biran, Jennifer Chu-Carroll,来自Elemental Cognition。
许可信息
Creative Commons Attribution-NonCommercial 4.0 International Public License
引用信息
@inproceedings{mostafazadeh2020glucose, title={GLUCOSE: GeneraLized and COntextualized Story Explanations}, author={Nasrin Mostafazadeh and Aditya Kalyanpur and Lori Moon and David Buchanan and Lauren Berkowitz and Or Biran and Jennifer Chu-Carroll}, year={2020}, booktitle={The Conference on Empirical Methods in Natural Language Processing}, publisher={Association for Computational Linguistics} }
贡献
感谢@TevenLeScao添加此数据集。



