MultiReQA

github2024-01-05 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/MultiReQA

下载链接

链接失效反馈

官方服务：

资源简介：

MultiReQA是一个跨域评估检索问答模型的挑战性新基准，包含八个来自MRQA共享任务的公开QA数据集，用于测试检索问答模型执行域转移任务的能力。

MultiReQA is a challenging new benchmark for evaluating retrieval-based question answering models across domains. It incorporates eight publicly available QA datasets from the MRQA shared task, designed to test the ability of retrieval-based question answering models to perform domain transfer tasks.

创建时间：

2020-04-25

原始信息汇总

数据集概述

数据集名称

MultiReQA

数据集目的

MultiReQA 是一个跨领域检索问答模型的评估基准，旨在测试检索问答模型在不同领域间的迁移能力。

数据集组成

MultiReQA 包含来自八个公开可用问答数据集的句子边界注释，这些数据集包括：

SearchQA
TriviaQA
HotpotQA
NaturalQuestions
SQuAD
BioASQ
RelationExtraction
TextbookQA

其中五个数据集（SearchQA, TriviaQA, HotpotQA, NaturalQuestions, SQuAD）包含训练和测试数据，其余三个（BioASQ, RelationExtraction, TextbookQA）仅包含测试数据。

数据格式

所有数据集均采用统一的压缩 JSONL 格式存储，文件扩展名为 .jsonl.gz。数据格式包括以下字段：

candidate_id: 候选句子的ID，由MRQA共享任务的原始qid组成。
response_start: 句子在其原始上下文中的起始索引。
response_end: 句子在其原始上下文中的结束索引。

数据统计

下表展示了每个数据集的候选句子数量：

	训练数据	测试数据
SearchQA	629,160	454,836
TriviaQA	335,659	238,339
HotpotQA	104,973	52,191
SQuAD	87,133	10,642
NaturalQuestions	106,521	22,118
BioASQ	-	14,158
RelationExtraction	-	3,301
TextbookQA	-	3,701

引用信息

若使用此数据集，请引用以下文献：

@misc{m2020multireqa, title={MultiReQA: A Cross-Domain Evaluation for Retrieval Question Answering Models}, author={Mandy Guo and Yinfei Yang and Daniel Cer and Qinlan Shen and Noah Constant}, year={2020}, eprint={2005.02507}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

MultiReQA数据集的构建基于MRQA共享任务中的八个公开问答数据集，包括SearchQA、TriviaQA、HotpotQA、NaturalQuestions、SQuAD、BioASQ、RelationExtraction和TextbookQA。通过将这些数据集转换为统一的格式，并添加句子边界注释，MultiReQA旨在评估检索问答模型在跨领域任务中的表现。数据集的构建过程不仅保留了原始数据集的结构，还通过标注句子边界信息，确保了数据的精确性和可复现性。

使用方法

MultiReQA数据集的使用方法相对简单，所有数据均以压缩的JSONL格式存储，便于读取和处理。每个样本包含候选句子的ID、句子在原始上下文中的起始和结束位置。用户可以通过解析这些字段，快速构建检索问答模型。数据集的设计旨在支持跨领域评估，用户可以通过在不同数据集上训练和测试模型，验证其在不同领域的泛化能力。使用该数据集时，建议引用相关文献，以确保学术规范。

背景与挑战

背景概述

MultiReQA数据集由Mandy Guo、Yinfei Yang、Daniel Cer、Qinlan Shen和Noah Constant等研究人员于2020年创建，旨在为检索式问答（ReQA）模型提供一个跨领域的评估基准。该数据集整合了来自MRQA共享任务的八个公开问答数据集，包括SearchQA、TriviaQA、HotpotQA、NaturalQuestions、SQuAD、BioASQ、RelationExtraction和TextbookQA，涵盖了多个领域的问答任务。MultiReQA的核心研究问题在于评估模型在不同领域间的迁移能力，为问答系统的跨领域性能提供了重要的测试平台。该数据集的发布推动了检索式问答模型的研究，特别是在跨领域任务中的表现，为相关领域的研究者提供了宝贵的资源和参考。

当前挑战

MultiReQA数据集在构建和应用过程中面临多重挑战。首先，检索式问答任务本身要求模型能够从开放语料库中精准检索出与问题相关的句子级答案，这对模型的语义理解和检索能力提出了极高要求。其次，跨领域评估的复杂性使得模型需要在不同领域的问答任务中表现出色，这对模型的泛化能力和领域适应性构成了严峻考验。在数据集的构建过程中，研究人员需要将多个来源的问答数据集统一格式，并标注句子边界，这一过程不仅耗时且需要高度的精确性。此外，部分数据集仅包含测试数据，缺乏训练数据，这进一步增加了模型训练的难度。这些挑战共同构成了MultiReQA数据集在推动检索式问答模型研究中的关键障碍。

常用场景

经典使用场景

MultiReQA数据集在检索式问答（ReQA）领域中扮演着重要角色，其经典使用场景在于评估模型在不同领域的跨域性能。通过整合来自多个公开问答数据集的句子边界注释，MultiReQA为研究者提供了一个统一的基准，用于测试模型在多样化数据集上的泛化能力。这一数据集特别适用于那些需要验证模型在跨域任务中表现的研究工作。

解决学术问题

MultiReQA数据集解决了检索式问答模型在跨域任务中的性能评估问题。传统模型往往在单一领域表现优异，但在面对不同领域的数据时表现不佳。MultiReQA通过提供多领域的评估任务，帮助研究者识别和优化模型在跨域场景中的弱点，从而推动模型在更广泛的应用场景中的性能提升。

实际应用

在实际应用中，MultiReQA数据集被广泛用于开发和优化智能问答系统。这些系统需要能够处理来自不同领域的用户查询，并提供准确的答案。通过使用MultiReQA，开发者可以测试和验证系统在多样化数据集上的表现，确保其在实际应用中的鲁棒性和准确性。

数据集最近研究