five

community-datasets/glucose

收藏
Hugging Face2024-06-25 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/glucose
下载链接
链接失效反馈
官方服务:
资源简介:
GLUCOSE(GeneraLized and COntextualized Story Explanations)是一个新颖的概念框架和数据集,用于常识推理。给定一个短篇故事和故事中的一个句子X,GLUCOSE捕捉了与X相关的十个维度的因果解释。这些维度受人类认知心理学的启发,涵盖了X的隐含原因和结果,包括事件、位置、拥有状态等属性。数据集由众包方式创建,语言为英语,数据量在10K到100K之间。
提供机构:
community-datasets
原始信息汇总

数据集概述

数据集描述

数据集摘要

GLUCOSE(GeneraLized and COntextualized Story Explanations)是一个用于常识推理的新颖概念框架和数据集。给定一个短故事和故事中的句子X,GLUCOSE捕捉与X相关的十个因果解释维度。这些维度受到人类认知心理学的启发,涵盖了X的隐含原因和效果,包括事件、地点、拥有状态和其他属性。

支持的任务和排行榜

GLUCOSE支持以下常识推理任务:

  1. 原因
  2. 驱动事件的情绪
  3. 使事件发生的位置
  4. 使事件发生的拥有状态
  5. 使事件发生的其他属性
  6. 后果
  7. 由事件引起的情绪
  8. 由事件引起的位置变化
  9. 由事件引起的拥有状态变化
  10. 由事件引起的其他属性变化

语言

数据集为单语种,语言为英语。

数据集结构

数据实例

数据实例包括以下字段:

  • experiment_id: 随机生成的字母数字序列,附加句子索引。
  • story_id: 故事的随机字母数字标识符。
  • worker_id: 每个工人的唯一标识号。
  • submission_time_normalized: 提交时间,格式为YYYYMMDD。
  • worker_quality_assessment: 工人在任务中的评分。
  • selected_sentence_index: 故事中给定句子的索引。
  • story: 用于任务的ROC故事的全文。
  • selected_sentence: 故事中被注释的句子。
  • [1-10]_specificNL: 特定于故事的常识知识,自然语言格式。
  • [1-10]_specificStructured: 特定于故事的常识知识,结构化格式。
  • [1-10]_generalNL: 从特定陈述中得出的关于世界的普遍规则,自然语言格式。
  • [1-10]_generalStructured: 从特定陈述中得出的关于世界的普遍规则,结构化格式。
  • number_filled_in: 为任务填充的维度数量。

数据分割

  • 训练集:65,521个样本
  • 测试集:500个样本,不包括工人ID、评分、填充数量和结构化文本。

数据集创建

策划理由

人类在阅读或聆听时会做出隐含的常识推理,这构成了他们对发生的事情和原因的理解。为了使AI系统能够构建类似的思维模型,我们引入了GLUCOSE,这是一个大规模的隐含常识因果知识数据集,编码为关于世界的因果小理论,每个理论都基于叙事背景。

源数据

初始数据收集和规范化

初始文本来自ROCStories。

源语言生产者

数据由Amazon Mechanical Turk提供。

注释

注释过程

为了开发能够构建叙事思维模型的模型,我们旨在通过众包创建一个大规模、质量监控的数据集。使用众包工人(而不是少数专家注释者)确保了思维的多样性,从而扩大了常识知识资源的覆盖范围。注释任务很复杂:它要求注释者理解不同因果维度在各种上下文中的应用,并提出超越故事上下文的普遍理论。为了严格控制质量,我们在Amazon Mechanical Turk平台上设计了一个三阶段的常识知识获取管道。工人首先通过资格测试,他们必须在10个多选题中至少获得90%的分数。接下来,合格的工人可以进行主要的GLUCOSE数据收集任务:给定一个故事S和故事句子X,他们被要求填充(允许不适用)所有十个GLUCOSE维度,从GLUCOSE数据获取中获得逐步指导。为了确保数据一致性,相同的工人回答S,X对的所有维度。最后,提交的内容由专家审查,专家在0到3的范围内对每个工人进行评分,并提供改进建议。我们的最终用户界面是超过六轮试点研究的结果,迭代改进交互元素、功能、维度定义、说明和示例。

注释者

注释者为Amazon Mechanical Turk工人,并由专家提供反馈。

个人和敏感信息

数据集中不包含个人或敏感信息。

使用数据的注意事项

数据集的社会影响

[更多信息待补充]

偏见的讨论

[更多信息待补充]

其他已知限制

[更多信息待补充]

附加信息

数据集策展人

Nasrin Mostafazadeh, Aditya Kalyanpur, Lori Moon, David Buchanan, Lauren Berkowitz, Or Biran, Jennifer Chu-Carroll,来自Elemental Cognition。

许可信息

Creative Commons Attribution-NonCommercial 4.0 International Public License

引用信息

@inproceedings{mostafazadeh2020glucose, title={GLUCOSE: GeneraLized and COntextualized Story Explanations}, author={Nasrin Mostafazadeh and Aditya Kalyanpur and Lori Moon and David Buchanan and Lauren Berkowitz and Or Biran and Jennifer Chu-Carroll}, year={2020}, booktitle={The Conference on Empirical Methods in Natural Language Processing}, publisher={Association for Computational Linguistics} }

贡献

感谢@TevenLeScao添加此数据集。

搜集汇总
背景与挑战
背景概述
GLUCOSE是一个用于常识推理的英语数据集,专注于从短篇故事中提取十个维度的因果解释,这些维度受人类认知心理学启发,涵盖事件、位置等属性。它通过众包方式创建,数据量在10K到100K之间,旨在提供结构化的故事理解框架。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作