Time-Sensitive QA (TimeQA)
收藏arXiv2021-10-25 更新2024-06-21 收录
下载链接:
https://github.com/wenhuchen/Time-Sensitive-QA
下载链接
链接失效反馈官方服务:
资源简介:
TimeQA数据集由加州大学圣巴巴拉分校计算机科学系创建,专注于时间敏感问题的回答。该数据集包含20,000个问答对,涉及5,500个时间演化事实和70种关系,旨在推动模型在时间理解和推理方面的能力。数据集通过从WikiData挖掘时间演化事实,并结合众包工作者的验证和校准,生成多样化的问答对。TimeQA数据集的应用领域包括提升自然语言处理模型对时间变化的敏感性,特别是在长文档阅读理解中。
The TimeQA dataset was created by the Department of Computer Science at the University of California, Santa Barbara, and focuses on answering time-sensitive questions. Comprising 20,000 question-answer pairs, the dataset covers 5,500 temporally evolving facts and 70 types of relations, aiming to advance models' capabilities in temporal understanding and reasoning. The dataset is constructed by extracting temporally evolving facts from Wikidata, followed by validation and calibration via crowdworkers to generate diverse question-answer pairs. Applications of the TimeQA dataset include enhancing the temporal sensitivity of natural language processing (NLP) models, particularly in long-document reading comprehension tasks.
提供机构:
加州大学圣巴巴拉分校计算机科学系
创建时间:
2021-08-14
搜集汇总
数据集介绍

构建方式
Time-Sensitive QA (TimeQA) 数据集的构建方式首先从 WikiData 中挖掘随时间演变的事实,并将其与对应的维基百科页面进行关联。然后,雇佣众包工作者对这些嘈杂的事实进行验证和校准。最后,根据标注的时间敏感事实生成问答对。这个数据集在时间理解和时间推理方面都提出了挑战。
特点
TimeQA 数据集的特点在于它包含了大量的时间敏感问题,这些问题要求模型能够理解事实的时间范围和间隔,并且能够在文本中推理时间信息。数据集包含两个难度级别(简单和困难),每个级别包含约 20K 个问答对,涉及 5.5K 个随时间演变的事实和 70 种关系。困难版本比简单版本更具挑战性,因为它要求更多的推理。
使用方法
TimeQA 数据集的使用方法是通过评估不同状态-of-the-art 长文档问答系统(如 BigBird 和 FiD)的性能来实现的。实验结果表明,这些模型在时间推理方面仍然存在不足,而 TimeQA 数据集可以作为基准来开发对时间变化更敏感的 NLP 模型。
背景与挑战
背景概述
TimeQA数据集的创建旨在解决自然语言处理领域中一个长期被忽视的问题:时间敏感问题。时间是我们物理世界的重要维度,许多事实随时间而演变,如美国总统每四年可能更换一次。因此,考虑时间维度并使现有的问答模型能够进行时间推理变得尤为重要。然而,现有的问答数据集中包含的时间敏感问题较少,因此不适合用于诊断或基准测试模型的时间推理能力。为了促进这一方向的研究,研究人员提出了构建一个时间敏感问答数据集。该数据集通过从WikiData中挖掘时间演变的事实并将其与相应的维基百科页面进行对齐来构建。此外,研究人员还雇佣众包工作者来验证和校准这些嘈杂的事实,并基于注释的时间敏感事实生成问答对。TimeQA数据集在时间理解和时间推理方面提出了挑战。研究人员对不同的最先进的长期文档问答系统进行了评估,如BigBird和FiD。最好的模型FiD只能达到46%的准确率,仍然远低于人类87%的性能。这表明这些模型仍然缺乏进行一致的时间推理的能力。因此,研究人员相信,他们的数据集可以作为一个基准来开发对时间变化更敏感的NLP模型。
当前挑战
TimeQA数据集带来的挑战包括时间理解和时间推理。时间理解方面,模型需要理解长文本中事实的时间范围(开始和结束时间)。然而,时间信息可以隐含地表达在文本中,这需要时间常识来理解,例如,“在第二次世界大战期间”意味着“从1939年到1945年”,“1934年之后的一年”指的是“1944年”。时间推理方面,模型需要在查询条件下对文本中的时间信息进行推理。更正式地说,模型需要理解查询中呈现的时间与事实之间的时间关系(“在……之内”、“在……之间”、“在……之前”、“在……之后”等)。TimeQA数据集的发布为研究时间敏感问题提供了一个重要的基准,并为开发更强大的时间推理模型提供了新的研究方向。
常用场景
经典使用场景
TimeQA数据集是一个专注于时间敏感问题的问答数据集。它通过从WikiData中挖掘时间演变的事实,并将它们与相应的Wikipedia页面进行对齐,从而构建了一个包含时间信息的问题-答案对。该数据集的主要使用场景是评估和诊断问答模型在处理时间信息方面的能力,特别是它们在理解时间范围和进行时间推理方面的能力。
实际应用
TimeQA数据集在实际应用中可以用于开发更加智能的问答系统,这些系统能够理解时间信息,并能够根据时间信息进行推理。此外,TimeQA数据集还可以用于开发其他NLP任务,如关系抽取和事件时间提取等。
衍生相关工作
TimeQA数据集的发布激发了学术界对时间敏感问题的研究。基于TimeQA数据集,许多研究者提出了不同的模型和方法,以解决时间敏感问题。例如,一些研究者提出了基于图神经网络的方法,以更好地理解时间信息;一些研究者提出了基于注意力机制的方法,以更好地进行时间推理。这些研究和模型的出现,为NLP模型更好地理解时间信息提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



