CovidQA

Name: CovidQA
Creator: 滑铁卢大学计算机科学学院
Published: 2020-04-24 01:35:11
License: 暂无描述

arXiv2020-04-24 更新2024-06-21 收录

下载链接：

http://covidqa.ai/

下载链接

链接失效反馈

官方服务：

资源简介：

CovidQA是由滑铁卢大学计算机科学学院创建的针对COVID-19问题的问答数据集，包含124个问题-文章对。数据集从Kaggle的COVID-19开放研究数据集挑战中手工构建，旨在为COVID-19相关研究提供初步评估资源。CovidQA虽不适合监督学习，但可用于评估现有模型在COVID-19特定主题上的零样本或迁移能力。该数据集的应用领域主要集中在COVID-19相关问题的自动问答系统评估。

CovidQA is a COVID-19-focused question answering dataset created by the School of Computer Science, University of Waterloo, which contains 124 question-article pairs. It was manually constructed from the Kaggle COVID-19 Open Research Dataset Challenge, and is designed to provide a preliminary evaluation resource for COVID-19-related research. Although CovidQA is not suitable for supervised learning, it can be used to evaluate the zero-shot or transfer capabilities of existing models on COVID-19-specific topics. The main application area of this dataset centers on the evaluation of automated question answering systems for COVID-19-related questions.

提供机构：

滑铁卢大学计算机科学学院

创建时间：

2020-04-24

搜集汇总

数据集介绍

构建方式

在COVID-19研究文献急剧增长的背景下，CovidQA数据集通过系统化的人工标注流程构建而成。研究团队以Kaggle平台发布的COVID-19开放研究数据集挑战赛中的专家审核文献综述为基础，从结构化答案表格中提取医学问题。针对每个问题，研究人员在CORD-19文献库中精确定位对应的科学论文，并通过人工判断在原文中标注出精确的答案片段。标注过程中特别注重保持答案片段的文本完整性，确保其不跨越句子边界，同时将过于宽泛的主题分解为多个具体问题，最终形成124个问题-文档对的高质量标注数据。

特点

该数据集呈现出鲜明的领域专属性与评估导向特征。作为首个面向COVID-19的公开问答数据集，其问题均源自经过流行病学专家审核的医学文献综述，涵盖病毒传播、临床症状、防控措施等关键研究方向。数据规模虽不足以支撑监督式训练，但精心设计的124个问题-答案对构成了具有挑战性的领域内测试集。每个问题同时提供关键词查询和自然语言问题两种表述形式，为评估模型在不同输入模式下的表现提供了独特视角。数据标注遵循严格的句子级评估标准，避免了传统问答数据集中答案边界模糊的复杂性。

使用方法

该数据集主要服务于零样本学习和跨领域迁移评估场景。研究人员可将预训练的语言模型在CovidQA上进行直接测试，评估其在COVID-19专业领域的泛化能力。典型评估流程将完整科学论文与问题同时输入模型，要求模型对文档中的所有句子进行相关性排序，正确答案所在的句子被视为正例。评估指标采用平均倒数排名、首位精确率和前三召回率等多维度度量。数据集特别适用于对比传统检索模型与神经模型的性能差异，同时为研究自然语言问题与关键词查询在专业领域的效果差异提供了实验平台。

背景与挑战

背景概述

在2020年初，COVID-19疫情迅速蔓延，相关科研文献呈指数级增长，给医学研究者带来了信息过载的严峻挑战。为应对这一需求，滑铁卢大学、纽约大学及Facebook AI Research等机构的研究人员于2020年4月合作创建了CovidQA数据集，这是首个针对COVID-19领域的公开问答数据集。该数据集基于Kaggle的COVID-19开放研究数据集挑战赛中的专家整理知识，手动构建了124个问题-文章对，旨在评估零样本或迁移学习模型在疫情相关主题上的性能，为自然语言处理研究提供了临时的评估基准，推动了领域内信息检索与问答系统的发展。

当前挑战

CovidQA数据集旨在解决COVID-19领域问答系统的挑战，即从海量科学文献中快速准确地提取关键信息，以辅助医学研究和决策。然而，该数据集规模较小，仅包含124个样本，不足以支持监督式机器学习模型的训练，限制了其在大规模应用中的有效性。在构建过程中，研究人员面临诸多困难：首先，从Kaggle的答案表中手动映射到原始文献时，需处理标题差异和答案跨度模糊的问题，例如部分答案需从邻近文本中推断比例数据；其次，定义精确答案跨度存在主观性，团队通过句子级评估规避了复杂性；此外，部分问题范围过宽，需分解为多个子问题以确保可操作性，且缺乏“无答案”文档，影响了模型在真实场景中的泛化能力。

常用场景

经典使用场景

在自然语言处理领域，CovidQA数据集被广泛应用于评估模型在零样本或迁移学习场景下的性能。该数据集构建于COVID-19开放研究数据集（CORD-19）之上，通过手动标注124个问题-文章对，为研究者提供了一个专门针对疫情相关问题的测试基准。其经典使用场景包括测试信息检索系统在医学文献中的答案定位能力，以及验证预训练语言模型在特定领域的适应性。

衍生相关工作

CovidQA催生了多项经典研究工作，包括基于Transformer架构的神经检索系统Neural Covidex的开发。该数据集还被用于评估BioBERT、SciBERT等生物医学领域预训练模型的跨领域迁移能力。相关研究进一步探索了多阶段检索架构在专业领域的优化策略，为后续大规模疫情问答数据集的构建提供了方法论基础。

数据集最近研究