mrqa-workshop/mrqa

Name: mrqa-workshop/mrqa
Creator: mrqa-workshop
Published: 2024-01-24 10:52:34
License: 暂无描述

Hugging Face2024-01-24 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/mrqa-workshop/mrqa

下载链接

链接失效反馈

官方服务：

资源简介：

MRQA 2019共享任务专注于问答系统的泛化能力评估。一个有效的问答系统不仅应该能够从训练集中插值回答来自相同分布的测试示例，还应该能够外推至分布外的示例——这是一个显著更难的挑战。该数据集是18个现有问答数据集的集合（经过精心选择的子集），并转换为相同的格式（SQuAD格式）。在这18个数据集中，六个数据集用于训练，六个数据集用于开发，最后六个用于测试。该数据集作为MRQA 2019共享任务的一部分发布。

MRQA 2019 Shared Task focuses on evaluating the generalization capability of question answering (QA) systems. An effective QA system should not only be able to interpolate answers for test examples drawn from the same distribution as the training set, but also extrapolate to out-of-distribution (OOD) examples—a notably more demanding challenge. This dataset comprises carefully curated subsets of 18 existing QA datasets, converted to a standardized SQuAD format. Of these 18 datasets, 6 are designated for training, 6 for development, and the remaining 6 for testing. This dataset was released as part of the MRQA 2019 Shared Task.

提供机构：

mrqa-workshop

原始信息汇总

数据集卡片 for MRQA 2019

数据集描述

数据集摘要

MRQA 2019 共享任务专注于问答中的泛化能力。一个有效的问答系统不仅应该能够从训练集中插值来回答来自相同分布的测试样本，还应该能够外推到分布外的样本——这是一个更具挑战性的任务。

该数据集是18个现有问答数据集的集合（经过精心选择的子集），并转换为相同的格式（SQuAD 格式）。在这18个数据集中，六个数据集用于训练，六个数据集用于开发，最后六个用于测试。该数据集作为 MRQA 2019 共享任务的一部分发布。

支持的任务和排行榜

任务格式是抽取式问答。给定一个问题和上下文段落，系统必须在文档中找到最适合回答问题的单词或短语。尽管这种格式有些限制，但它允许我们利用许多现有数据集，并且其简单性有助于我们专注于域外泛化，而不是其他重要但正交的挑战。

我们已将几个现有数据集从其原始格式和设置改编为符合我们统一的抽取式设置。最值得注意的是：

我们仅提供一个长度受限的上下文。
没有不可回答或非跨度答案的问题。
所有问题至少有一个在上下文中找到的接受答案。

跨度被判断为完全匹配，如果它在执行与 SQuAD 数据集一致的规范化后匹配答案字符串。具体来说：

文本是不区分大小写的。
所有标点符号都被去除。
所有冠词 {a, an, the} 都被移除。
所有连续的空白标记都被压缩为一个普通的空格。

答案使用完全匹配和令牌级 F1 指标进行评估。可以参考 mrqa_official_eval.py 进行评估。

语言

数据集中的文本是英语。相关的 BCP-47 代码是 en。

数据集结构

数据实例

一个示例如下： json { "qid": "f43c83e38d1e424ea00f8ad3c77ec999", "subset": "SQuAD", "context": "CBS broadcast Super Bowl 50 in the U.S., and charged an average of $5 million for a 30-second commercial during the game. The Super Bowl 50 halftime show was headlined by the British rock group Coldplay with special guest performers Beyoncé and Bruno Mars, who headlined the Super Bowl XLVII and Super Bowl XLVIII halftime shows, respectively. It was the third-most watched U.S. broadcast ever.", "context_tokens": { "offsets": [0, 4, 14, 20, 25, 28, 31, 35, 39, 41, 45, 53, 56, 64, 67, 68, 70, 78, 82, 84, 94, 105, 112, 116, 120, 122, 126, 132, 137, 140, 149, 154, 158, 168, 171, 175, 183, 188, 194, 203, 208, 216, 222, 233, 241, 245, 251, 255, 257, 261, 271, 275, 281, 286, 292, 296, 302, 307, 314, 323, 328, 330, 342, 344, 347, 351, 355, 360, 361, 366, 374, 379, 389, 393], "tokens": ["CBS", "broadcast", "Super", "Bowl", "50", "in", "the", "U.S.", ",", "and", "charged", "an", "average", "of", "$", "5", "million", "for", "a", "30-second", "commercial", "during", "the", "game", ".", "The", "Super", "Bowl", "50", "halftime", "show", "was", "headlined", "by", "the", "British", "rock", "group", "Coldplay", "with", "special", "guest", "performers", "Beyoncé", "and", "Bruno", "Mars", ",", "who", "headlined", "the", "Super", "Bowl", "XLVII", "and", "Super", "Bowl", "XLVIII", "halftime", "shows", ",", "respectively", ".", "It", "was", "the", "third", "-", "most", "watched", "U.S.", "broadcast", "ever", "."] }, "question": "Who was the main performer at this years halftime show?", "question_tokens": { "offsets": [0, 4, 8, 12, 17, 27, 30, 35, 39, 42, 51, 55], "tokens": ["Who", "was", "the", "main", "performer", "at", "this", "year", "s", "halftime", "show", "?"] }, "detected_answers": { "char_spans": [ { "end": [201], "start": [194] }, { "end": [201], "start": [194] }, { "end": [201], "start": [194] } ], "text": ["Coldplay", "Coldplay", "Coldplay"], "token_spans": [ { "end": [38], "start": [38] }, { "end": [38], "start": [38] }, { "end": [38], "start": [38] } ] }, "answers": ["Coldplay", "Coldplay", "Coldplay"] }

数据字段

subset: 该示例来自哪个数据集？
context: 这是支持段落的原始文本。插入了三个特殊标记类型：[TLE] 表示文档标题，[DOC] 表示文档分隔符，[PAR] 表示段落分隔符。上下文的最大长度为 800 个令牌。
context_tokens: 使用 spaCy 对支持段落进行标记化。每个令牌是一个包含令牌字符串和令牌字符偏移的元组。最大令牌数为 800。
- tokens: 令牌列表。
- offsets: 偏移列表。
qid: 问题的唯一标识符。qid 在所有数据集中是唯一的。
question: 问题的原始文本。
question_tokens: 问题的标记化版本。标记器和标记格式与上下文相同。
- tokens: 令牌列表。
- offsets: 偏移列表。
detected_answers: 为给定问题索引到上下文的答案跨度列表。对于某些数据集，这些跨度已使用搜索启发式自动检测。相同的答案可能在文本中出现多次——每个出现都被记录下来。例如，如果 42 是答案，上下文 "The answer is 42. 42 is the answer." 有两个标记。
- text: 检测到的答案的原始文本。
- char_spans: 包含（开始，结束）字符跨度（索引到原始上下文）。
  - start: 开始（单个元素）
  - end: 结束（单个元素）
- token_spans: 包含（开始，结束）令牌跨度（索引到标记化上下文）。
  - start: 开始（单个元素）
  - end: 结束（单个元素）

数据分割

训练数据

数据集	示例数量
SQuAD	86,588
NewsQA	74,160
TriviaQA	61,688
SearchQA	117,384
HotpotQA	72,928
NaturalQuestions	104,071

开发数据

这些域内数据可用于帮助开发模型。

数据集	示例数量
SQuAD	10,507
NewsQA	4,212
TriviaQA	7,785
SearchQA	16,980
HotpotQA	5,904
NaturalQuestions	12,836

测试数据

最终测试数据仅包含域外数据。

数据集	示例数量
BioASQ	1,504
DROP	1,503
DuoRC	1,501
RACE	674
RelationExtraction	2,948
TextbookQA	1,503

从官方仓库：

注意： 如前所述，域外数据集已从其原始设置修改为适应统一的 MRQA 共享任务范式。在较高层次上，进行了以下两个主要修改：

所有 QA-上下文对都是抽取式的。即，答案是从上下文中选择的，而不是通过例如多项选择。
所有上下文都被限制在最多 800 个令牌。因此，对于较长的上下文，如维基百科文章，我们只考虑答案出现在前 800 个令牌中的示例。

因此，某些分割比原始数据集更难（例如，RACE 中移除了多项选择），而某些分割则更容易（例如，NaturalQuestions 中限制了上下文长度——我们使用短答案选择）。因此，如果与这些数据集上的先前工作进行比较，应预期不同的性能范围。

搜集汇总

数据集介绍

背景与挑战

背景概述

MRQA 2019 dataset is a unified collection of 18 QA datasets formatted for extractive question answering, designed to test generalization across diverse domains. It includes training, development, and test splits with datasets like SQuAD, NewsQA, and TriviaQA, totaling over 584,000 examples, and supports tasks requiring precise answer extraction from context.

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集