five

MoE-UNC/story_cloze

收藏
Hugging Face2024-03-05 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/MoE-UNC/story_cloze
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: story_id dtype: string - name: input_sentence_1 dtype: string - name: input_sentence_2 dtype: string - name: input_sentence_3 dtype: string - name: input_sentence_4 dtype: string - name: sentence_quiz1 dtype: string - name: sentence_quiz2 dtype: string - name: answer_right_ending dtype: int32 splits: - name: validation num_bytes: 614056 num_examples: 1871 - name: test num_bytes: 613156 num_examples: 1871 download_size: 872758 dataset_size: 1227212 configs: - config_name: default data_files: - split: validation path: data/validation-* - split: test path: data/test-* ---
提供机构:
MoE-UNC
原始信息汇总

数据集概述

数据集特征

  • story_id: 字符串类型
  • input_sentence_1: 字符串类型
  • input_sentence_2: 字符串类型
  • input_sentence_3: 字符串类型
  • input_sentence_4: 字符串类型
  • sentence_quiz1: 字符串类型
  • sentence_quiz2: 字符串类型
  • answer_right_ending: 32位整数类型

数据集划分

  • validation: 包含1871个样本,大小为614056字节
  • test: 包含1871个样本,大小为613156字节

数据集大小

  • 下载大小: 872758字节
  • 数据集大小: 1227212字节

配置信息

  • config_name: default
    • data_files:
      • validation: 路径为data/validation-*
      • test: 路径为data/test-*
搜集汇总
数据集介绍
main_image_url
构建方式
故事完形填空(Story Cloze)数据集旨在评估机器对叙事文本的理解与推理能力。该数据集构建于自然语言处理领域对故事结尾预测任务的探索之上,每个样本由五句连贯叙述构成,其中前四句为故事主体,后两句为候选结尾,并标注了正确的结局选项。数据来源于众包平台,通过人工编写故事开头与结尾,确保叙事逻辑的合理性与多样性。数据集划分为验证集和测试集,各包含1871个样本,以支持模型性能的可靠评估。
使用方法
该数据集适用于训练和评估故事理解模型,特别是需要文本推理能力的系统。使用时,可将前四句输入句子作为上下文,两个候选句子作为待选输出,正确答案作为监督信号。模型需基于上下文预测正确结局,通常采用分类或排序方法。推荐使用预训练语言模型(如BERT、GPT)进行微调,输入格式为拼接故事主体与候选结尾,输出为二分类概率。数据加载可通过HuggingFace Datasets库直接读取,支持验证集和测试集的灵活划分。
背景与挑战
背景概述
在自然语言处理领域,叙事理解与常识推理是衡量机器语言智能的重要维度,而故事完形填空任务正是评估模型对事件因果链条与上下文语义整合能力的经典范式。MoE-UNC/story_cloze数据集由北卡罗来纳大学教堂山分校等机构的研究人员于2017年左右构建,核心研究问题聚焦于机器能否基于四句连贯故事的前文,从两个候选结局中准确选出符合逻辑的结尾。该数据集包含3742个样本,划分为验证集与测试集各1871条,每条样本均包含四句输入故事与两个候选句子,其中正确答案由人工标注。作为ROCStories语料的衍生资源,story_cloze数据集为常识推理、故事生成及预训练语言模型的评估提供了标准化基准,显著推动了叙事理解领域的发展,尤其在零样本与少样本场景下成为检验模型泛化能力的试金石。
当前挑战
该数据集所解决的领域问题在于故事结局预测的常识推理挑战,即模型需理解隐含的时间顺序、因果逻辑与社会惯例,而非仅依赖表面词汇匹配,这要求模型具备超越局部上下文的全局叙事建模能力。构建过程中遇到的挑战包括:1)确保候选结局的区分度——设计者需避免明显错误或过于简单的选项,以迫使模型进行深层推理;2)标注一致性维护——人工标注者需遵循严格的质量控制流程,确保结局选择的客观性,减少主观偏差;3)数据规模限制——仅1871个测试样本可能不足以全面覆盖多样化的叙事结构,导致模型评估的统计稳定性受到影响。此外,故事长度固定为五句(四句前文加一句结局),限制了模型对更长叙事链的推理能力,且数据集未提供训练集,使得模型需依赖外部语料或迁移学习来适应任务,增加了泛化难度。
常用场景
经典使用场景
在自然语言理解与叙事推理的研究疆域中,Story Cloze Test 数据集作为一项标杆性资源,其经典使用场景聚焦于评估模型对故事结尾的合理选择能力。该数据集要求模型基于给定的四句前文,从两个候选句子中甄别出逻辑自洽的结局,由此检验机器对因果链条、事件时序及角色动机的深层理解。这一任务不仅考验模型对局部语义的捕捉,更衡量其跨越句子边界进行整体叙事建模的功力,成为衡量文本连贯性与常识推理能力的试金石。
解决学术问题
该数据集精准回应了自然语言处理领域长期悬而未决的核心学术难题——如何让机器具备类似人类的叙事理解与常识推理能力。传统模型往往擅长局部模式匹配,却难以把握故事发展的因果逻辑与潜在世界知识。Story Cloze 通过提供结构化的故事片段与二选一结尾任务,迫使研究者探索更强大的上下文编码器、外部知识融合机制以及因果推理框架。它的问世推动了叙事理解从浅层语义向深层认知的跃迁,为常识推理、事件预测及故事生成等子领域树立了可量化的评估基准。
实际应用
在实际应用层面,Story Cloze 数据集所蕴含的叙事理解能力具有广阔的商业与社会价值。它可赋能智能写作助手,帮助算法自动生成逻辑通顺的故事结尾或补全情节缺口,提升创作效率。在交互式娱乐领域,该技术可用于动态调整游戏剧情走向,根据玩家行为生成连贯的叙事分支。此外,在教育场景中,基于 Story Cloze 的模型能够辅助评估学生的写作逻辑性,自动检测故事结构中的断裂或矛盾,从而提供个性化反馈,推动语言学习与文学素养的培养。
数据集最近研究
最新研究方向
在当前自然语言处理的前沿探索中,叙事理解与常识推理已成为衡量模型认知能力的关键维度。Story Cloze数据集作为该领域的经典基准,聚焦于故事结尾的合理选择任务,要求模型在理解四句短文的因果链条与隐含逻辑后,从两个候选句子中选出正确的结局。这一任务不仅检验模型对叙事结构的把握,更触及对世界知识、社会惯例及情感倾向的深层推理。近年来,随着大语言模型与混合专家系统(MoE)的兴起,针对Story Cloze的研究热点转向如何通过稀疏激活与动态路由机制提升模型在有限上下文中的长程依赖建模能力。同时,该数据集在评估模型对反事实情境与意外转折的敏感度方面展现出独特价值,其测试集与验证集的精心划分使得跨模型泛化能力的对比研究更为严谨。作为连接基础语言理解与高级推理的桥梁,Story Cloze持续推动着可解释人工智能与故事生成方向的理论突破。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作