five

google-research-datasets/multi_re_qa

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/google-research-datasets/multi_re_qa
下载链接
链接失效反馈
官方服务:
资源简介:
MultiReQA数据集是一个多领域的检索问答(ReQA)评估套件,包含了来自八个公开可用的问答数据集的句子边界注释。这些数据集包括SearchQA、TriviaQA、HotpotQA、NaturalQuestions、SQuAD、BioASQ、RelationExtraction和TextbookQA。数据集的主要任务是问答(QA)和检索问答(ReQA)。数据集的创建是通过将现有的QA数据集从MRQA共享任务转换为MultiReQA基准的格式。数据集的结构包括数据实例、数据字段和数据分割。数据实例的格式包括候选ID、响应开始和响应结束的索引。数据字段包括候选ID、响应开始和响应结束的索引。数据分割包括训练集和测试集,具体数据集的分割情况有所不同。
提供机构:
google-research-datasets
原始信息汇总

数据集卡片 MultiReQA

数据集描述

数据集摘要

MultiReQA 包含来自八个公开可用 QA 数据集的句子边界注释,包括 SearchQA、TriviaQA、HotpotQA、NaturalQuestions、SQuAD、BioASQ、RelationExtraction 和 TextbookQA。其中五个数据集(SearchQA、TriviaQA、HotpotQA、NaturalQuestions、SQuAD)包含训练和测试数据,另外三个数据集(BioASQ、RelationExtraction、TextbookQA)仅包含测试数据(还包括 DuoRC,但在官方文档中未明确说明)。

支持的任务和排行榜

  • 问答(QA)
  • 检索问答(ReQA)

语言

句子边界注释适用于 SearchQA、TriviaQA、HotpotQA、NaturalQuestions、SQuAD、BioASQ、RelationExtraction、TextbookQA 和 DuoRC。

数据集结构

数据实例

通用格式如下: json { "candidate_id": <candidate_id>, "response_start": <response_start>, "response_end": <response_end> }

SearchQA 的一个示例: json { "candidate_id": "SearchQA_000077f3912049dfb4511db271697bad/_0_1", "response_end": 306, "response_start": 243 }

数据字段

json { "candidate_id": <STRING>, "response_start": <INT>, "response_end": <INT> }

  • candidate_id: 候选句子的候选 ID,由 MRQA 共享任务的原始 qid 组成。
  • response_start: 句子相对于其原始上下文的起始索引。
  • response_end: 句子相对于其原始上下文的结束索引。

数据分割

训练和验证分割仅适用于以下数据集:

  • SearchQA
  • TriviaQA
  • HotpotQA
  • SQuAD
  • NaturalQuestions

测试分割仅适用于以下数据集:

  • BioASQ
  • RelationExtraction
  • TextbookQA

每个数据集的候选句子数量如下表所示:

MultiReQA
train test
SearchQA 629,160 454,836
TriviaQA 335,659 238,339
HotpotQA 104,973 52,191
SQuAD 87,133 10,642
NaturalQuestions 106,521 22,118
BioASQ - 14,158
RelationExtraction - 3,301
TextbookQA - 3,701

数据集创建

策划理由

MultiReQA 是一个新的多领域 ReQA 评估套件,由从公开可用的 QA 数据集(来自 MRQA 共享任务)中提取的八个检索问答任务组成。该数据集是通过将现有的 QA 数据集从 MRQA 共享任务 转换为 MultiReQA 基准格式来策划的。

源数据

初始数据收集和规范化

初始数据收集是通过将现有的 QA 数据集从 MRQA 共享任务转换为 MultiReQA 基准格式来完成的。

注释

注释过程

[更多信息需要]

注释者

数据集的注释者/策划者是 mandyguo-xyguomwurts4google,他们是官方 MultiReQA GitHub 仓库的贡献者。

个人和敏感信息

[更多信息需要]

使用数据的注意事项

数据集的社会影响

[更多信息需要]

偏见的讨论

[更多信息需要]

其他已知限制

[更多信息需要]

附加信息

数据集策划者

数据集的注释者/策划者是 mandyguo-xyguomwurts4google,他们是官方 MultiReQA GitHub 仓库的贡献者。

许可信息

[更多信息需要]

引用信息

bibtex @misc{m2020multireqa, title={MultiReQA: A Cross-Domain Evaluation for Retrieval Question Answering Models}, author={Mandy Guo and Yinfei Yang and Daniel Cer and Qinlan Shen and Noah Constant}, year={2020}, eprint={2005.02507}, archivePrefix={arXiv}, primaryClass={cs.CL} }

贡献

感谢 @Karthik-Bhaskar 添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作