community-datasets/glucose

Name: community-datasets/glucose
Creator: community-datasets
Published: 2024-06-25 13:56:04
License: 暂无描述

Hugging Face2024-06-25 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/community-datasets/glucose

下载链接

链接失效反馈

官方服务：

资源简介：

GLUCOSE（GeneraLized and COntextualized Story Explanations）是一个新颖的概念框架和数据集，用于常识推理。给定一个短篇故事和故事中的一个句子X，GLUCOSE捕捉了与X相关的十个维度的因果解释。这些维度受人类认知心理学的启发，涵盖了X的隐含原因和结果，包括事件、位置、拥有状态等属性。数据集由众包方式创建，语言为英语，数据量在10K到100K之间。

提供机构：

community-datasets

原始信息汇总

数据集概述

数据集描述

数据集摘要

GLUCOSE（GeneraLized and COntextualized Story Explanations）是一个用于常识推理的新颖概念框架和数据集。给定一个短故事和故事中的句子X，GLUCOSE捕捉与X相关的十个因果解释维度。这些维度受到人类认知心理学的启发，涵盖了X的隐含原因和效果，包括事件、地点、拥有状态和其他属性。

支持的任务和排行榜

GLUCOSE支持以下常识推理任务：

原因
驱动事件的情绪
使事件发生的位置
使事件发生的拥有状态
使事件发生的其他属性
后果
由事件引起的情绪
由事件引起的位置变化
由事件引起的拥有状态变化
由事件引起的其他属性变化

语言

数据集为单语种，语言为英语。

数据集结构

数据实例

数据实例包括以下字段：

experiment_id: 随机生成的字母数字序列，附加句子索引。
story_id: 故事的随机字母数字标识符。
worker_id: 每个工人的唯一标识号。
submission_time_normalized: 提交时间，格式为YYYYMMDD。
worker_quality_assessment: 工人在任务中的评分。
selected_sentence_index: 故事中给定句子的索引。
story: 用于任务的ROC故事的全文。
selected_sentence: 故事中被注释的句子。
[1-10]_specificNL: 特定于故事的常识知识，自然语言格式。
[1-10]_specificStructured: 特定于故事的常识知识，结构化格式。
[1-10]_generalNL: 从特定陈述中得出的关于世界的普遍规则，自然语言格式。
[1-10]_generalStructured: 从特定陈述中得出的关于世界的普遍规则，结构化格式。
number_filled_in: 为任务填充的维度数量。

数据分割

训练集：65,521个样本
测试集：500个样本，不包括工人ID、评分、填充数量和结构化文本。

数据集创建

策划理由

人类在阅读或聆听时会做出隐含的常识推理，这构成了他们对发生的事情和原因的理解。为了使AI系统能够构建类似的思维模型，我们引入了GLUCOSE，这是一个大规模的隐含常识因果知识数据集，编码为关于世界的因果小理论，每个理论都基于叙事背景。

源数据

初始数据收集和规范化

初始文本来自ROCStories。

源语言生产者

数据由Amazon Mechanical Turk提供。

注释

注释过程

为了开发能够构建叙事思维模型的模型，我们旨在通过众包创建一个大规模、质量监控的数据集。使用众包工人（而不是少数专家注释者）确保了思维的多样性，从而扩大了常识知识资源的覆盖范围。注释任务很复杂：它要求注释者理解不同因果维度在各种上下文中的应用，并提出超越故事上下文的普遍理论。为了严格控制质量，我们在Amazon Mechanical Turk平台上设计了一个三阶段的常识知识获取管道。工人首先通过资格测试，他们必须在10个多选题中至少获得90%的分数。接下来，合格的工人可以进行主要的GLUCOSE数据收集任务：给定一个故事S和故事句子X，他们被要求填充（允许不适用）所有十个GLUCOSE维度，从GLUCOSE数据获取中获得逐步指导。为了确保数据一致性，相同的工人回答S，X对的所有维度。最后，提交的内容由专家审查，专家在0到3的范围内对每个工人进行评分，并提供改进建议。我们的最终用户界面是超过六轮试点研究的结果，迭代改进交互元素、功能、维度定义、说明和示例。

注释者

注释者为Amazon Mechanical Turk工人，并由专家提供反馈。

个人和敏感信息

数据集中不包含个人或敏感信息。

使用数据的注意事项

数据集的社会影响

[更多信息待补充]

偏见的讨论

[更多信息待补充]

其他已知限制

[更多信息待补充]

附加信息

数据集策展人

Nasrin Mostafazadeh, Aditya Kalyanpur, Lori Moon, David Buchanan, Lauren Berkowitz, Or Biran, Jennifer Chu-Carroll，来自Elemental Cognition。

许可信息

Creative Commons Attribution-NonCommercial 4.0 International Public License

引用信息

@inproceedings{mostafazadeh2020glucose, title={GLUCOSE: GeneraLized and COntextualized Story Explanations}, author={Nasrin Mostafazadeh and Aditya Kalyanpur and Lori Moon and David Buchanan and Lauren Berkowitz and Or Biran and Jennifer Chu-Carroll}, year={2020}, booktitle={The Conference on Empirical Methods in Natural Language Processing}, publisher={Association for Computational Linguistics} }

贡献

感谢@TevenLeScao添加此数据集。

搜集汇总

背景与挑战

背景概述

GLUCOSE是一个用于常识推理的英语数据集，专注于从短篇故事中提取十个维度的因果解释，这些维度受人类认知心理学启发，涵盖事件、位置等属性。它通过众包方式创建，数据量在10K到100K之间，旨在提供结构化的故事理解框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集