google-research-datasets/multi_re_qa

Name: google-research-datasets/multi_re_qa
Creator: google-research-datasets
Published: 2024-01-18 11:09:48
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/google-research-datasets/multi_re_qa

下载链接

链接失效反馈

官方服务：

资源简介：

MultiReQA数据集是一个多领域的检索问答（ReQA）评估套件，包含了来自八个公开可用的问答数据集的句子边界注释。这些数据集包括SearchQA、TriviaQA、HotpotQA、NaturalQuestions、SQuAD、BioASQ、RelationExtraction和TextbookQA。数据集的主要任务是问答（QA）和检索问答（ReQA）。数据集的创建是通过将现有的QA数据集从MRQA共享任务转换为MultiReQA基准的格式。数据集的结构包括数据实例、数据字段和数据分割。数据实例的格式包括候选ID、响应开始和响应结束的索引。数据字段包括候选ID、响应开始和响应结束的索引。数据分割包括训练集和测试集，具体数据集的分割情况有所不同。

提供机构：

google-research-datasets

原始信息汇总

数据集卡片 MultiReQA

数据集描述

数据集摘要

MultiReQA 包含来自八个公开可用 QA 数据集的句子边界注释，包括 SearchQA、TriviaQA、HotpotQA、NaturalQuestions、SQuAD、BioASQ、RelationExtraction 和 TextbookQA。其中五个数据集（SearchQA、TriviaQA、HotpotQA、NaturalQuestions、SQuAD）包含训练和测试数据，另外三个数据集（BioASQ、RelationExtraction、TextbookQA）仅包含测试数据（还包括 DuoRC，但在官方文档中未明确说明）。

支持的任务和排行榜

问答（QA）
检索问答（ReQA）

语言

句子边界注释适用于 SearchQA、TriviaQA、HotpotQA、NaturalQuestions、SQuAD、BioASQ、RelationExtraction、TextbookQA 和 DuoRC。

数据集结构

数据实例

通用格式如下： json { "candidate_id": <candidate_id>, "response_start": <response_start>, "response_end": <response_end> }

SearchQA 的一个示例： json { "candidate_id": "SearchQA_000077f3912049dfb4511db271697bad/_0_1", "response_end": 306, "response_start": 243 }

数据字段

json { "candidate_id": <STRING>, "response_start": <INT>, "response_end": <INT> }

candidate_id: 候选句子的候选 ID，由 MRQA 共享任务的原始 qid 组成。
response_start: 句子相对于其原始上下文的起始索引。
response_end: 句子相对于其原始上下文的结束索引。

数据分割

训练和验证分割仅适用于以下数据集：

SearchQA
TriviaQA
HotpotQA
SQuAD
NaturalQuestions

测试分割仅适用于以下数据集：

BioASQ
RelationExtraction
TextbookQA

每个数据集的候选句子数量如下表所示：

	MultiReQA
	train	test
SearchQA	629,160	454,836
TriviaQA	335,659	238,339
HotpotQA	104,973	52,191
SQuAD	87,133	10,642
NaturalQuestions	106,521	22,118
BioASQ	-	14,158
RelationExtraction	-	3,301
TextbookQA	-	3,701

数据集创建

策划理由

MultiReQA 是一个新的多领域 ReQA 评估套件，由从公开可用的 QA 数据集（来自 MRQA 共享任务）中提取的八个检索问答任务组成。该数据集是通过将现有的 QA 数据集从 MRQA 共享任务转换为 MultiReQA 基准格式来策划的。

源数据

初始数据收集和规范化

初始数据收集是通过将现有的 QA 数据集从 MRQA 共享任务转换为 MultiReQA 基准格式来完成的。

注释

注释过程

[更多信息需要]

注释者

数据集的注释者/策划者是 mandyguo-xyguo 和 mwurts4google，他们是官方 MultiReQA GitHub 仓库的贡献者。

个人和敏感信息

[更多信息需要]

使用数据的注意事项

数据集的社会影响

[更多信息需要]

偏见的讨论

[更多信息需要]

其他已知限制

[更多信息需要]

附加信息

数据集策划者

数据集的注释者/策划者是 mandyguo-xyguo 和 mwurts4google，他们是官方 MultiReQA GitHub 仓库的贡献者。

许可信息

[更多信息需要]

引用信息

bibtex @misc{m2020multireqa, title={MultiReQA: A Cross-Domain Evaluation for Retrieval Question Answering Models}, author={Mandy Guo and Yinfei Yang and Daniel Cer and Qinlan Shen and Noah Constant}, year={2020}, eprint={2005.02507}, archivePrefix={arXiv}, primaryClass={cs.CL} }

贡献

感谢 @Karthik-Bhaskar 添加此数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集