TellMeWhy
收藏arXiv2021-08-17 更新2024-06-21 收录
下载链接:
http://lunr.cs.stonybrook.edu/tellmewhy
下载链接
链接失效反馈官方服务:
资源简介:
TellMeWhy是一个由石溪大学创建的大型数据集,包含超过30,000个关于短篇故事中角色行为的‘为什么’问题及其自由形式的答案。该数据集特别关注那些答案不在故事文本中的问题,旨在测试模型是否能利用外部常识知识来回答问题。数据集的创建过程涉及使用简单的模板转换从故事中生成问题,并通过众包方式收集答案。TellMeWhy的应用领域主要集中在测试和提升自然语言处理系统在理解和推理叙事文本方面的能力,特别是在需要常识推理的情境中。
TellMeWhy is a large-scale dataset created by Stony Brook University, comprising over 30,000 'why' questions regarding the behaviors of characters in short stories along with their free-form answers. This dataset specifically focuses on questions whose answers are not present within the original story text, and aims to evaluate whether models can leverage external commonsense knowledge to answer such questions. The construction of this dataset involves generating questions from stories using simple template-based conversion, and collecting answers via crowdsourcing. Its primary application scenarios focus on testing and enhancing the capabilities of natural language processing (NLP) systems to understand and reason over narrative texts, particularly in scenarios requiring commonsense reasoning.
提供机构:
石溪大学
创建时间:
2021-06-11
搜集汇总
数据集介绍

构建方式
TellMeWhy数据集旨在探索叙事文本中角色行为背后的动机推理,其构建过程融合了自动化模板与人工众包。研究团队首先基于ROCStories和CATERS两个叙事语料库,利用依存句法分析对故事中的动作句进行模板化转换,自动生成超过11万条“为什么”问题。随后,从每个故事中随机抽取至少三个问题,通过Amazon Mechanical Turk平台招募标注员为每个问题提供三条自由形式的答案。为提升答案质量,标注员被要求以提示短语(如“主语+动词+宾语+because...”)开头作答,并判断答案是否可直接从故事中提取。最终,经过三轮验证与筛选,数据集包含30,519个问题,每个问题对应三条独立的人类标注答案,其中约三分之一的答案无法直接从叙事文本中获取,需依赖常识推理。
使用方法
TellMeWhy适用于训练和评估模型在叙事语境下回答开放式“为什么”问题的能力。使用时,模型需以故事文本为上下文,接收一个“为什么”问题,并生成合理的自由形式答案。研究团队提供了标准化的评估流程:建议采用T5或UnifiedQA等预训练语言模型进行微调,输入格式为故事与问题拼接(如T5的SQuAD格式),输出为生成答案。评估方面,除BLEU、ROUGE-L、BLEURT和BertScore等自动指标外,强烈推荐使用配套的人工评估接口,由三名标注员对生成答案的语法性和有效性进行评分。该接口已证明人类答案的语法性达99%、有效性达96%,而当前最优模型(如微调T5)在隐性答案问题上的有效性评分远低于人类,凸显了该数据集作为基准的挑战性。
背景与挑战
背景概述
在自然语言处理领域,理解叙事文本中角色行为背后的动机是衡量机器深层语义推理能力的关键维度。尽管近年来问答系统取得了显著进展,但现有模型在回答需要常识知识填充叙事空白的“为什么”类问题时仍显乏力。为填补这一空白,Yash Kumar Lal等人于2021年联合纽约州立大学石溪分校、美国海军学院及德克萨斯大学奥斯汀分校,构建了TellMeWhy数据集。该数据集基于ROCStories和CATERS叙事语料,通过众包方式收集了超过3万个“为什么”问题及其自由形式答案,其中约三分之一的问题答案无法从叙事文本中直接获取。TellMeWhy的提出不仅丰富了叙事理解领域的数据资源,更揭示了当前模型在因果推理与常识应用上的显著局限,为后续研究提供了具有挑战性的基准。
当前挑战
TellMeWhy数据集面临的核心挑战在于如何使模型具备超越文本表面的因果推理能力。首先,所解决的领域问题聚焦于叙事理解中的“为什么”问答,这类问题往往要求模型调用外部常识知识来填补叙事中隐含的因果链条,而非简单的信息检索或文本匹配。其次,构建过程中遭遇的挑战包括:如何确保众包答案的质量与多样性,研究团队通过设计结构化提示和双重验证机制(语法性与有效性评分)来提升答案可靠性;如何界定答案是否隐含于叙事文本中,团队依赖众包标注者的多数意见进行划分;此外,开放生成任务的自动评估指标(如BLEU、ROUGE)与人类判断相关性较弱,迫使研究开发系统化的人工评估框架,以准确衡量模型在生成合理答案时的真实表现。
常用场景
经典使用场景
在自然语言处理领域,理解叙事文本中角色行为背后的动机是迈向深层语义理解的关键一步。TellMeWhy数据集应运而生,它聚焦于回答叙事中的“为什么”类问题,这些问题常需借助常识知识进行推理。该数据集最经典的使用场景是作为机器阅读理解与常识推理的基准测试平台,研究者可利用其超过三万个“为什么”问题及对应的自由形式答案,评估模型在理解隐含意图、填补叙事空白方面的能力。通过将问题分为显式答案与隐式答案两类,该数据集尤其适合检验模型是否具备超越文本表面信息的推理本领,从而推动叙事理解研究向更接近人类认知的方向发展。
解决学术问题
TellMeWhy数据集精准回应了学术研究中一个长期存在的痛点:现有问答数据集普遍缺乏对“为什么”类问题的专门覆盖,尤其是那些答案需依赖外部常识而非文本显式陈述的问题。该数据集通过精心设计的众包流程,系统性地收集了叙事中角色行为的原因解释,其中约三分之一的问题答案无法直接从故事中提取。这为学界提供了评估和推动模型在隐含推理、常识调用及开放生成能力上的标准化测试工具。其意义在于,它揭示了当前最先进的语言模型(如GPT-2、T5)在回答此类问题时远逊于人类表现,从而明确指出了叙事理解研究中亟待突破的瓶颈,为后续研究树立了明确挑战。
实际应用
在现实应用中,TellMeWhy数据集的价值体现在多个需要深度文本理解的场景。例如,在教育领域,它可以赋能智能辅导系统,使其能够自动生成针对故事阅读的追问,帮助学生理解角色行为背后的逻辑,从而培养批判性思维。在娱乐产业中,该数据集可用于提升互动叙事或游戏中的非玩家角色(NPC)对话质量,使其能根据剧情上下文对玩家行为给出合理解释,增强沉浸感。此外,在客服与心理咨询场景中,基于TellMeWhy训练的模型能够更好地理解用户叙述中隐含的动机与需求,从而提供更具同理心和针对性的回应,改善人机交互体验。
数据集最近研究
最新研究方向
在自然语言处理领域,叙事理解与常识推理的交叉地带已成为前沿探索的热点,而TellMeWhy数据集恰如其分地填补了‘为何类’问题解答的空白。该数据集聚焦于叙事中角色行动背后的动机推断,要求模型不仅捕捉文本显性信息,更需调用外部常识知识进行隐式推理。当前研究趋势正围绕大语言模型在这一挑战性任务上的表现展开,尤其是GPT-2、T5和UnifiedQA等模型在生成合理答案时暴露出显著短板——它们倾向于从原文中复制片段而非进行深层因果推理,导致在隐式答案问题上的性能急剧下降。这一发现与近年来对模型‘表面理解’的批判性反思相呼应,推动学界重新审视评估体系,强调人工评估在开放生成任务中的不可替代性。TellMeWhy的提出不仅为叙事理解设立了更严苛的基准,更催化了关于常识与目标导向推理的新一轮探索,其影响力正延伸至可解释AI与认知计算等交叉领域。
相关研究论文
- 1TellMeWhy: A Dataset for Answering Why-Questions in Narratives石溪大学 · 2021年
以上内容由遇见数据集搜集并总结生成



