CoQAR

github2023-06-13 更新2024-05-31 收录

下载链接：

https://github.com/Orange-OpenSource/COQAR

下载链接

链接失效反馈

官方服务：

资源简介：

CoQAR是一个包含4.5K对话的语料库，源自开源数据集Conversational Question-Answering dataset CoQA，总计有53K后续问题-答案对。每个原始问题都手动标注了至少2个至多3个脱离上下文的改写。

CoQAR is a corpus comprising 4.5K dialogues, derived from the open-source dataset Conversational Question-Answering dataset CoQA, totaling 53K follow-up question-answer pairs. Each original question has been manually annotated with at least two and up to three out-of-context paraphrases.

创建时间：

2022-04-29

原始信息汇总

COQAR数据集概述

数据集描述

名称: CoQAR
来源: 基于Conversational Question-Answering dataset CoQA
规模: 包含4.5K对话，总计53K后续问答对
特点: 每个原始问题手动标注了至少2个至多3个脱离上下文的改写问题
应用: 适用于至少三个NLP任务：问题改写、问题重写和对话式问答

数据集使用

目的: 用于训练和评估问题重写模型
实验结果: 支持问题重写作为非对话式问答模型预处理步骤，能提升模型性能

许可证信息

代码: 根据Apache 2.0许可证发布
标注: 根据CC-BY-SA 4.0许可证发布
原始数据集内容: 根据不同许可证发布，包括CC BY-SA 4.0、MSR-LA、RACE自有许可证和Apache许可证

搜集汇总

数据集介绍

构建方式

CoQAR数据集的构建基于开源的对话式问答数据集CoQA，包含了4.5K个对话和53K个后续问答对。每个原始问题均经过人工标注，生成了至少2个至多3个脱离上下文的改写版本。这一过程旨在为自然语言处理任务提供丰富的语料支持，特别是针对问题改写和对话式问答的研究。

特点

CoQAR数据集的特点在于其多样化的改写标注，每个原始问题均配备了多个脱离上下文的改写版本，这为研究问题改写和对话式问答提供了丰富的实验数据。此外，数据集涵盖了多个领域的文本，包括文学、维基百科、儿童故事、新闻等，确保了数据的广泛性和代表性。通过实验验证，该数据集在提升非对话式问答模型性能方面表现出显著效果。

使用方法

CoQAR数据集可用于多种自然语言处理任务，包括问题改写、问题复述和对话式问答。用户可以通过提供的代码在`rewriting`文件夹中进行模型训练和评估。数据集的使用需遵循相应的许可协议，其中代码部分采用Apache 2.0许可，标注部分采用CC-BY-SA 4.0许可，原始CoQA内容则根据其来源领域的不同采用相应的许可协议。

背景与挑战

背景概述

CoQAR数据集由Quentin Brabant、Gwenole Lecorve和Lina Rojas-Barahona等研究人员于2022年提出，旨在解决对话式问答系统中的问题重写任务。该数据集基于CoQA（Conversational Question-Answering dataset）构建，包含了4.5K个对话和53K个后续问答对。每个原始问题均被手动标注了至少2至3个脱离上下文的改写版本，以支持自然语言处理中的问题复述、问题重写和对话式问答任务。CoQAR的提出为提升非对话式问答模型的性能提供了新的预处理思路，并在LREC 2022会议上发表，进一步推动了对话式问答领域的研究进展。

当前挑战

CoQAR数据集在构建和应用过程中面临多重挑战。首先，问题重写任务要求模型能够在不依赖上下文的情况下生成语义一致且语法正确的改写版本，这对模型的语义理解和生成能力提出了较高要求。其次，数据集的标注过程需要大量人工参与，确保每个原始问题至少有两个改写版本，这不仅增加了时间和成本，还对标注者的语言能力提出了较高要求。此外，CoQAR的应用场景涉及多个自然语言处理任务，如问题复述和对话式问答，这要求模型具备跨任务的泛化能力，进一步增加了模型训练的复杂性。

常用场景

经典使用场景

CoQAR数据集在自然语言处理领域中被广泛应用于对话式问答系统的开发与优化。其核心应用场景包括对话中的问题重写、问题释义以及对话式问答任务。通过提供大量手动标注的问题重写样本，CoQAR为研究者提供了一个丰富的实验平台，用于训练和评估模型在复杂对话环境中的表现。

解决学术问题

CoQAR数据集解决了对话式问答系统中上下文依赖问题的挑战。传统问答模型在处理多轮对话时，往往难以捕捉上下文信息，导致回答质量下降。CoQAR通过提供脱离上下文的问题重写样本，帮助模型更好地理解对话中的隐含信息，从而提升问答系统的性能。这一创新为对话式问答领域的研究提供了新的思路和方法。

衍生相关工作

CoQAR数据集的发布推动了多个相关研究工作的进展。基于CoQAR的研究成果，许多学者开发了新型的问题重写模型和对话式问答算法。例如，一些研究利用CoQAR的标注数据，提出了基于预训练语言模型的问题重写方法，显著提升了模型在复杂对话场景中的表现。此外，CoQAR还为跨领域对话系统的研究提供了宝贵的数据支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集