mrqa-workshop/mrqa
收藏数据集卡片 for MRQA 2019
数据集描述
数据集摘要
MRQA 2019 共享任务专注于问答中的泛化能力。一个有效的问答系统不仅应该能够从训练集中插值来回答来自相同分布的测试样本,还应该能够外推到分布外的样本——这是一个更具挑战性的任务。
该数据集是18个现有问答数据集的集合(经过精心选择的子集),并转换为相同的格式(SQuAD 格式)。在这18个数据集中,六个数据集用于训练,六个数据集用于开发,最后六个用于测试。该数据集作为 MRQA 2019 共享任务的一部分发布。
支持的任务和排行榜
任务格式是抽取式问答。给定一个问题和上下文段落,系统必须在文档中找到最适合回答问题的单词或短语。尽管这种格式有些限制,但它允许我们利用许多现有数据集,并且其简单性有助于我们专注于域外泛化,而不是其他重要但正交的挑战。
我们已将几个现有数据集从其原始格式和设置改编为符合我们统一的抽取式设置。最值得注意的是:
- 我们仅提供一个长度受限的上下文。
- 没有不可回答或非跨度答案的问题。
- 所有问题至少有一个在上下文中找到的接受答案。
跨度被判断为完全匹配,如果它在执行与 SQuAD 数据集一致的规范化后匹配答案字符串。具体来说:
- 文本是不区分大小写的。
- 所有标点符号都被去除。
- 所有冠词
{a, an, the}都被移除。 - 所有连续的空白标记都被压缩为一个普通的空格
。
答案使用完全匹配和令牌级 F1 指标进行评估。可以参考 mrqa_official_eval.py 进行评估。
语言
数据集中的文本是英语。相关的 BCP-47 代码是 en。
数据集结构
数据实例
一个示例如下: json { "qid": "f43c83e38d1e424ea00f8ad3c77ec999", "subset": "SQuAD", "context": "CBS broadcast Super Bowl 50 in the U.S., and charged an average of $5 million for a 30-second commercial during the game. The Super Bowl 50 halftime show was headlined by the British rock group Coldplay with special guest performers Beyoncé and Bruno Mars, who headlined the Super Bowl XLVII and Super Bowl XLVIII halftime shows, respectively. It was the third-most watched U.S. broadcast ever.", "context_tokens": { "offsets": [0, 4, 14, 20, 25, 28, 31, 35, 39, 41, 45, 53, 56, 64, 67, 68, 70, 78, 82, 84, 94, 105, 112, 116, 120, 122, 126, 132, 137, 140, 149, 154, 158, 168, 171, 175, 183, 188, 194, 203, 208, 216, 222, 233, 241, 245, 251, 255, 257, 261, 271, 275, 281, 286, 292, 296, 302, 307, 314, 323, 328, 330, 342, 344, 347, 351, 355, 360, 361, 366, 374, 379, 389, 393], "tokens": ["CBS", "broadcast", "Super", "Bowl", "50", "in", "the", "U.S.", ",", "and", "charged", "an", "average", "of", "$", "5", "million", "for", "a", "30-second", "commercial", "during", "the", "game", ".", "The", "Super", "Bowl", "50", "halftime", "show", "was", "headlined", "by", "the", "British", "rock", "group", "Coldplay", "with", "special", "guest", "performers", "Beyoncé", "and", "Bruno", "Mars", ",", "who", "headlined", "the", "Super", "Bowl", "XLVII", "and", "Super", "Bowl", "XLVIII", "halftime", "shows", ",", "respectively", ".", "It", "was", "the", "third", "-", "most", "watched", "U.S.", "broadcast", "ever", "."] }, "question": "Who was the main performer at this years halftime show?", "question_tokens": { "offsets": [0, 4, 8, 12, 17, 27, 30, 35, 39, 42, 51, 55], "tokens": ["Who", "was", "the", "main", "performer", "at", "this", "year", "s", "halftime", "show", "?"] }, "detected_answers": { "char_spans": [ { "end": [201], "start": [194] }, { "end": [201], "start": [194] }, { "end": [201], "start": [194] } ], "text": ["Coldplay", "Coldplay", "Coldplay"], "token_spans": [ { "end": [38], "start": [38] }, { "end": [38], "start": [38] }, { "end": [38], "start": [38] } ] }, "answers": ["Coldplay", "Coldplay", "Coldplay"] }
数据字段
subset: 该示例来自哪个数据集?context: 这是支持段落的原始文本。插入了三个特殊标记类型:[TLE]表示文档标题,[DOC]表示文档分隔符,[PAR]表示段落分隔符。上下文的最大长度为 800 个令牌。context_tokens: 使用 spaCy 对支持段落进行标记化。每个令牌是一个包含令牌字符串和令牌字符偏移的元组。最大令牌数为 800。tokens: 令牌列表。offsets: 偏移列表。
qid: 问题的唯一标识符。qid在所有数据集中是唯一的。question: 问题的原始文本。question_tokens: 问题的标记化版本。标记器和标记格式与上下文相同。tokens: 令牌列表。offsets: 偏移列表。
detected_answers: 为给定问题索引到上下文的答案跨度列表。对于某些数据集,这些跨度已使用搜索启发式自动检测。相同的答案可能在文本中出现多次——每个出现都被记录下来。例如,如果42是答案,上下文"The answer is 42. 42 is the answer."有两个标记。text: 检测到的答案的原始文本。char_spans: 包含(开始,结束)字符跨度(索引到原始上下文)。start: 开始(单个元素)end: 结束(单个元素)
token_spans: 包含(开始,结束)令牌跨度(索引到标记化上下文)。start: 开始(单个元素)end: 结束(单个元素)
数据分割
训练数据
| 数据集 | 示例数量 |
|---|---|
| SQuAD | 86,588 |
| NewsQA | 74,160 |
| TriviaQA | 61,688 |
| SearchQA | 117,384 |
| HotpotQA | 72,928 |
| NaturalQuestions | 104,071 |
开发数据
这些域内数据可用于帮助开发模型。
| 数据集 | 示例数量 |
|---|---|
| SQuAD | 10,507 |
| NewsQA | 4,212 |
| TriviaQA | 7,785 |
| SearchQA | 16,980 |
| HotpotQA | 5,904 |
| NaturalQuestions | 12,836 |
测试数据
最终测试数据仅包含域外数据。
| 数据集 | 示例数量 |
|---|---|
| BioASQ | 1,504 |
| DROP | 1,503 |
| DuoRC | 1,501 |
| RACE | 674 |
| RelationExtraction | 2,948 |
| TextbookQA | 1,503 |
从官方仓库:
注意: 如前所述,域外数据集已从其原始设置修改为适应统一的 MRQA 共享任务范式。在较高层次上,进行了以下两个主要修改:
- 所有 QA-上下文对都是抽取式的。即,答案是从上下文中选择的,而不是通过例如多项选择。
- 所有上下文都被限制在最多
800个令牌。因此,对于较长的上下文,如维基百科文章,我们只考虑答案出现在前800个令牌中的示例。
因此,某些分割比原始数据集更难(例如,RACE 中移除了多项选择),而某些分割则更容易(例如,NaturalQuestions 中限制了上下文长度——我们使用短答案选择)。因此,如果与这些数据集上的先前工作进行比较,应预期不同的性能范围。




