CovidQA, PolicyQA, TechQA

Name: CovidQA, PolicyQA, TechQA
Creator: 卡内基梅隆大学
Published: 2023-09-22 02:48:02
License: 暂无描述

arXiv2023-09-22 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2309.12426v1

下载链接

链接失效反馈

官方服务：

资源简介：

本研究涉及三个数据集：CovidQA、PolicyQA和TechQA。CovidQA专注于COVID-19相关的问题回答，包含2019个问题-答案对，涉及病毒传播、公共卫生干预和社会影响等主题。PolicyQA包含12,102个关于美国移民和旅行政策的问题-答案对，需要对特定政策文件进行推理以确定答案。TechQA提供1,808个关于技术支持问题的例子，涉及计算机网络、软件和硬件。这些数据集用于评估通过GPT-4生成的合成数据对机器阅读理解任务的增强效果，特别是在资源有限的情况下。

This study involves three datasets: CovidQA, PolicyQA, and TechQA. CovidQA focuses on COVID-19-related question answering, containing 2019 question-answer pairs covering topics such as viral transmission, public health interventions, and social impacts. PolicyQA comprises 12,102 question-answer pairs regarding U.S. immigration and travel policies, which requires reasoning over specific policy documents to determine the correct answers. TechQA provides 1,808 examples of technical support questions, covering computer networks, software, and hardware. These datasets are utilized to evaluate the enhancement effect of synthetic data generated via GPT-4 on machine reading comprehension tasks, especially under resource-constrained scenarios.

提供机构：

卡内基梅隆大学

创建时间：

2023-09-22

搜集汇总

数据集介绍

构建方式

在机器阅读理解领域，低资源数据集常因标注成本高昂而难以扩展。针对CovidQA、PolicyQA和TechQA这三个特定领域的数据集，研究团队采用GPT-4模型进行数据增强。构建过程分为两个阶段：首先，通过上下文学习技术，利用原始训练集中的少量示例（一至两个样本）引导模型生成风格与主题一致的合成文本段落；随后，基于生成的段落，再次借助少量示例引导模型生成相应的问答对。为确保数据质量，还引入了循环一致性过滤机制，即让模型对生成的问答进行自我验证，仅保留答案一致的样本，从而提升合成数据的精确度。

特点

这些数据集覆盖了医疗健康、公共政策和技术支持等多个专业领域，各自具有鲜明的领域特性。CovidQA聚焦于新冠疫情相关的问答，PolicyQA涉及美国移民与旅行政策的解读，而TechQA则专注于技术故障排除。它们的共同特点是训练规模相对有限，样本数量介于一千至一万余条之间，属于典型的低资源场景。这种领域专属性与数据稀缺性并存的特点，使得它们成为检验合成数据增强方法有效性的理想测试平台，尤其能够揭示大语言模型在模仿特定领域语言风格与知识结构方面的潜力与局限。

使用方法

该增强数据集主要用于提升基于BERT或RoBERTa等预训练模型的抽取式阅读理解系统在低资源领域的性能。研究人员可将原始训练集与GPT-4生成的合成数据合并，共同用于模型微调。实验表明，对于CovidQA和PolicyQA，这种增强策略能显著提升模型在精确匹配和F1分数上的表现；然而，对于规模极小的TechQA数据集，提升效果则不够稳定。因此，在使用时需结合具体数据集的规模与领域复杂性进行评估。此外，合成数据也可作为基准，用于进一步研究生成数据的质量评估与过滤方法。

背景与挑战

背景概述

在自然语言处理领域，机器阅读理解作为一项核心任务，旨在使模型能够基于给定文本准确回答用户问题，其应用场景广泛涵盖医疗健康、政策解读与技术支援等关键领域。CovidQA、PolicyQA与TechQA这三个数据集分别聚焦于新冠疫情、美国移民政策及技术支援问答，由Möller等人、Ahmad等人以及Castelli等人于2020年构建，旨在应对低资源环境下专业领域数据稀缺的挑战。这些数据集的创建推动了领域特定问答系统的发展，尤其在突发公共卫生事件与复杂政策分析中，为模型训练提供了宝贵的标注资源，显著提升了机器在专业化语境下的理解与推理能力。

当前挑战

这些数据集所解决的领域问题在于低资源机器阅读理解，其核心挑战包括模型在有限标注数据下泛化能力不足，以及专业领域语境中问答对的语义复杂性与多样性难以捕捉。构建过程中，研究人员面临标注成本高昂、领域专家参与需求大以及文本来源狭窄等难题，例如CovidQA需快速整合疫情动态信息，PolicyQA依赖精细的政策文档解析，而TechQA则涉及高度专业化的技术术语。此外，利用大语言模型进行数据增强时，需克服生成内容的质量控制、领域偏移缓解以及极低数据量下合成样本的有效性等挑战，以确保增强数据能切实提升下游任务性能。

常用场景

经典使用场景

在自然语言处理领域，低资源机器阅读理解任务常面临数据稀缺的挑战，CovidQA、PolicyQA和TechQA这三个数据集作为典型代表，其经典使用场景在于评估和提升模型在特定领域下的问答性能。研究者利用这些数据集，通过微调预训练语言模型如BERT或RoBERTa，探索模型在医疗健康、公共政策和技术支持等专业领域的理解能力。这些数据集不仅为模型训练提供了宝贵的标注样本，还成为衡量数据增强技术有效性的关键基准，特别是在使用大语言模型生成合成数据以扩充训练集时，它们能够直观反映模型性能的改进程度。

解决学术问题

这些数据集主要解决了低资源环境下机器阅读理解模型的泛化难题。在学术研究中，它们帮助探索如何克服领域特定数据不足的瓶颈，例如通过合成数据生成技术来弥补标注资源的匮乏。论文中提出的GPT-4增强方法，显著提升了模型在CovidQA和PolicyQA上的表现，这验证了利用大语言模型进行数据扩充的可行性，为低资源NLP任务提供了新的解决方案。其意义在于推动了数据高效学习方法的发展，降低了人工标注的成本，同时为新兴领域如疫情信息处理和政策解读提供了技术支撑，促进了跨学科研究的融合。

衍生相关工作

围绕这些数据集，衍生了一系列经典研究工作。例如，论文中提出的基于GPT-4的上下文和问答对生成方法，开创了利用大语言模型进行低资源机器阅读理解数据增强的先河。后续研究在此基础上发展了更精细的过滤技术，如循环一致性过滤，以提升合成数据的质量。此外，这些数据集还激发了跨领域数据增强策略的探索，如结合外部知识库或迁移学习，进一步优化模型在稀缺数据环境下的性能。这些工作共同推动了合成数据生成在NLP中的理论创新与应用拓展，为后续研究奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集