google-research-datasets/multi_re_qa
收藏数据集卡片 MultiReQA
数据集描述
数据集摘要
MultiReQA 包含来自八个公开可用 QA 数据集的句子边界注释,包括 SearchQA、TriviaQA、HotpotQA、NaturalQuestions、SQuAD、BioASQ、RelationExtraction 和 TextbookQA。其中五个数据集(SearchQA、TriviaQA、HotpotQA、NaturalQuestions、SQuAD)包含训练和测试数据,另外三个数据集(BioASQ、RelationExtraction、TextbookQA)仅包含测试数据(还包括 DuoRC,但在官方文档中未明确说明)。
支持的任务和排行榜
- 问答(QA)
- 检索问答(ReQA)
语言
句子边界注释适用于 SearchQA、TriviaQA、HotpotQA、NaturalQuestions、SQuAD、BioASQ、RelationExtraction、TextbookQA 和 DuoRC。
数据集结构
数据实例
通用格式如下: json { "candidate_id": <candidate_id>, "response_start": <response_start>, "response_end": <response_end> }
SearchQA 的一个示例: json { "candidate_id": "SearchQA_000077f3912049dfb4511db271697bad/_0_1", "response_end": 306, "response_start": 243 }
数据字段
json { "candidate_id": <STRING>, "response_start": <INT>, "response_end": <INT> }
- candidate_id: 候选句子的候选 ID,由 MRQA 共享任务的原始 qid 组成。
- response_start: 句子相对于其原始上下文的起始索引。
- response_end: 句子相对于其原始上下文的结束索引。
数据分割
训练和验证分割仅适用于以下数据集:
- SearchQA
- TriviaQA
- HotpotQA
- SQuAD
- NaturalQuestions
测试分割仅适用于以下数据集:
- BioASQ
- RelationExtraction
- TextbookQA
每个数据集的候选句子数量如下表所示:
| MultiReQA | ||
|---|---|---|
| train | test | |
| SearchQA | 629,160 | 454,836 |
| TriviaQA | 335,659 | 238,339 |
| HotpotQA | 104,973 | 52,191 |
| SQuAD | 87,133 | 10,642 |
| NaturalQuestions | 106,521 | 22,118 |
| BioASQ | - | 14,158 |
| RelationExtraction | - | 3,301 |
| TextbookQA | - | 3,701 |
数据集创建
策划理由
MultiReQA 是一个新的多领域 ReQA 评估套件,由从公开可用的 QA 数据集(来自 MRQA 共享任务)中提取的八个检索问答任务组成。该数据集是通过将现有的 QA 数据集从 MRQA 共享任务 转换为 MultiReQA 基准格式来策划的。
源数据
初始数据收集和规范化
初始数据收集是通过将现有的 QA 数据集从 MRQA 共享任务转换为 MultiReQA 基准格式来完成的。
注释
注释过程
[更多信息需要]
注释者
数据集的注释者/策划者是 mandyguo-xyguo 和 mwurts4google,他们是官方 MultiReQA GitHub 仓库的贡献者。
个人和敏感信息
[更多信息需要]
使用数据的注意事项
数据集的社会影响
[更多信息需要]
偏见的讨论
[更多信息需要]
其他已知限制
[更多信息需要]
附加信息
数据集策划者
数据集的注释者/策划者是 mandyguo-xyguo 和 mwurts4google,他们是官方 MultiReQA GitHub 仓库的贡献者。
许可信息
[更多信息需要]
引用信息
bibtex @misc{m2020multireqa, title={MultiReQA: A Cross-Domain Evaluation for Retrieval Question Answering Models}, author={Mandy Guo and Yinfei Yang and Daniel Cer and Qinlan Shen and Noah Constant}, year={2020}, eprint={2005.02507}, archivePrefix={arXiv}, primaryClass={cs.CL} }
贡献
感谢 @Karthik-Bhaskar 添加此数据集。



