A Corpus for Commonsense Inference in the Story Cloze Test

github2022-10-15 更新2024-05-31 收录

下载链接：

https://github.com/sirmammingtonham/transformer_commonsense

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于常识推理的故事封闭测试，旨在训练和评估机器学习算法在叙事理解和推理方面的能力。

This dataset is designed for the closed testing of common sense reasoning through stories, aiming to train and evaluate the capabilities of machine learning algorithms in narrative comprehension and reasoning.

创建时间：

2021-04-05

原始信息汇总

数据集概述

数据集名称

A Corpus for Commonsense Inference in the Story Cloze Test

数据集格式

Arrow格式: 位于baseline_data/目录
原始文本格式: 位于baseline_texts/目录

数据集内容

该数据集基于Story Cloze Test，旨在训练和评估机器学习算法在叙事理解和推理方面的能力。数据集包含1871个故事，每个故事由三名人工标注者进行标注，用于决定故事结尾句和哪句话对推理贡献最大。

数据集用途

用于预测叙事推理的类别和贡献句子，以及评估模型在原始Story Cloze Test任务上的表现。

引用信息

@inproceedings{yao-etal-2022-corpus, title = "A Corpus for Commonsense Inference in Story Cloze Test", author = "Yao, Bingsheng and Joseph, Ethan and Lioanag, Julian and Si, Mei", booktitle = "Proceedings of the Thirteenth Language Resources and Evaluation Conference", month = jun, year = "2022", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://aclanthology.org/2022.lrec-1.375", pages = "3500--3508", abstract = "The Story Cloze Test (SCT) is designed for training and evaluating machine learning algorithms for narrative understanding and inferences. The SOTA models can achieve over 90{%} accuracy on predicting the last sentence. However, it has been shown that high accuracy can be achieved by merely using surface-level features. We suspect these models may not extit{truly} understand the story. Based on the SCT dataset, we constructed a human-labeled and human-verified commonsense knowledge inference dataset. Given the first four sentences of a story, we asked crowd-source workers to choose from four types of narrative inference for deciding the ending sentence and which sentence contributes most to the inference. We accumulated data on 1871 stories, and three human workers labeled each story. Analysis of the intra-category and inter-category agreements show a high level of consensus. We present two new tasks for predicting the narrative inference categories and contributing sentences. Our results show that transformer-based models can reach SOTA performance on the original SCT task using transfer learning but don{}t perform well on these new and more challenging tasks.", }

搜集汇总

数据集介绍

构建方式

该数据集的构建基于Story Cloze Test（SCT）框架，旨在通过人类标注和验证的方式增强对故事理解的常识推理能力。研究团队通过众包平台收集了1871个故事的前四句话，并要求标注者从四种叙事推理类型中选择最合适的结尾句子，并确定哪些句子对推理贡献最大。每个故事由三名人类工作者独立标注，确保了数据的高一致性和可靠性。通过这种方式，数据集不仅保留了SCT的原始任务，还引入了新的推理任务，如叙事推理类别的预测和关键句子的识别。

特点

该数据集的特点在于其专注于常识推理的深度理解，而非仅仅依赖表面特征进行预测。数据集包含丰富的叙事推理类别和关键句子标注，为模型提供了更具挑战性的任务。此外，数据集的高一致性通过多轮人类标注和验证得以保证，确保了数据的质量。数据集还提供了多种格式的访问方式，包括arrow格式和原始文本格式，便于研究者在不同场景下使用。

使用方法

数据集的使用方法包括预处理、分类任务和生成任务的执行。研究者可以通过提供的Python脚本将原始文本数据转换为适合训练的格式，并利用Hugging Face的预训练模型进行微调。分类任务支持故事结尾预测、推理类别预测和重要性多标签分类，而生成任务则允许模型生成故事的结尾。此外，数据集还支持多任务学习，研究者可以通过调整参数和模型架构，探索不同任务之间的协同效应。

背景与挑战

背景概述

《A Corpus for Commonsense Inference in the Story Cloze Test》数据集由Bingsheng Yao、Ethan Joseph、Julian Lioanag和Mei Si等研究人员于2022年提出，旨在解决叙事理解与推理中的常识推理问题。该数据集基于Story Cloze Test（SCT）构建，SCT原本用于训练和评估机器学习算法在叙事理解方面的表现。尽管现有模型在预测故事结尾句子时能达到90%以上的准确率，但这些模型可能仅依赖表面特征而非真正理解故事内容。为此，研究人员通过众包方式构建了一个包含1871个故事的人类标注数据集，要求标注者从四种叙事推理类型中选择最合适的结尾句子，并识别对推理贡献最大的句子。该数据集的发布为叙事推理和常识推理领域提供了新的研究工具，推动了相关模型的进一步发展。

当前挑战

该数据集面临的挑战主要集中在两个方面。首先，尽管现有模型在SCT任务上表现优异，但其高准确率可能依赖于表面特征而非深层次的叙事理解，这导致模型在更复杂的常识推理任务中表现不佳。其次，数据集的构建过程也面临挑战。由于常识推理涉及复杂的语义理解和人类认知，众包标注过程中需要确保标注者之间的高度一致性。尽管研究人员通过多轮标注和验证确保了数据质量，但如何进一步提升标注的准确性和一致性仍是未来研究的重点。此外，如何设计更有效的模型架构以应对这些复杂的推理任务，也是该领域亟待解决的问题。

常用场景

经典使用场景

在自然语言处理领域，故事补全测试（Story Cloze Test, SCT）被广泛用于评估模型对叙事理解和推理的能力。该数据集通过提供故事的前四句话，要求模型从多个选项中选择最合适的结尾句子。这种设置不仅测试了模型对文本表面特征的理解，还深入考察了其对故事深层逻辑和常识推理的掌握。通过这种方式，研究者能够更全面地评估模型在复杂叙事任务中的表现。

解决学术问题

该数据集解决了传统故事补全测试中模型仅依赖表面特征进行预测的问题。通过引入人类标注的常识推理数据，研究者能够更准确地评估模型是否真正理解了故事的深层含义。这一改进不仅提升了模型在叙事理解任务中的表现，还为后续研究提供了更为丰富的评估标准，推动了自然语言处理领域在常识推理和叙事理解方向的发展。

衍生相关工作

该数据集衍生了一系列经典研究工作，特别是在基于Transformer的模型上进行迁移学习和多任务学习的探索。研究者通过在该数据集上训练BERT、RoBERTa和DeBERTa等模型，不仅验证了这些模型在传统故事补全任务中的有效性，还进一步探索了其在常识推理和重要性预测等新任务中的潜力。这些研究为后续在叙事理解和常识推理领域的工作提供了重要的参考和基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

A Corpus for Commonsense Inference in the Story Cloze Test

数据集概述

数据集名称

数据集格式

数据集内容

相关任务

数据集用途

引用信息