MS MARCO

github2021-03-13 更新2024-05-31 收录

下载链接：

https://github.com/yangliuy/nlp-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

MS MARCO: 一个人工生成的机器阅读理解数据集，2016年发布。

MS MARCO: A machine reading comprehension dataset artificially generated, released in 2016.

创建时间：

2017-03-23

原始信息汇总

数据集概述

问题回答（Question Answering）

(MS MARCO) MS MARCO: 一个人类生成的机器阅读理解数据集，2016年。
(NewsQA) NewsQA: 一个机器理解数据集，2016年。
(SQuAD) SQuAD: 超过100,000个问题用于文本机器理解，2016年。
(GraphQuestions) 用于QA评估的丰富特征问题集生成，2016年。
(Story Cloze) 用于更深入理解常识故事的语料库和完形评估，2016年。
(Childrens Book Test) 使用显式记忆表示阅读儿童书籍，2015年。
(SimpleQuestions) 使用记忆网络的大规模简单问题回答，2015年。
(WikiQA) WikiQA: 开放领域问题回答的挑战数据集，2015年。
(CNN-DailyMail) 教机器阅读和理解，2015年。
(QuizBowl) 用于段落事实问题回答的神经网络，2014年。
(MCTest) MCTest: 文本开放领域机器理解的挑战数据集，2013年。
(QASent) 什么是Jeopardy模型？用于QA的准同步语法，2007年。

对话系统（Dialogue Systems）

(Ubuntu Dialogue Corpus) Ubuntu对话语料库：用于非结构化多轮对话系统研究的大型数据集，2015年。

目标导向对话系统（Goal-Oriented Dialogue Systems）

(Frames) Frames: 用于为目标导向对话系统添加记忆的语料库，2016年。
(DSTC 2 & 3) 对话状态跟踪挑战2 & 3，2013年。

搜集汇总

数据集介绍

构建方式

MS MARCO数据集的构建基于真实世界的搜索引擎查询日志，研究人员从Bing搜索引擎中提取了数百万条用户查询，并邀请了人工标注员为这些查询生成相应的答案。标注员通过阅读相关的网页内容，提取出与查询最相关的段落或句子作为答案。这一过程确保了数据集的高质量和实用性，能够有效支持机器阅读理解任务的研究与开发。

特点

MS MARCO数据集以其大规模和多样性著称，涵盖了广泛的主题和领域。其独特之处在于答案形式的多样性，包括段落、句子以及简短的事实性回答。此外，数据集中还包含了部分未回答的查询，这为研究如何处理无答案或低质量查询提供了重要场景。数据集的设计充分考虑了真实世界应用的需求，使其成为评估和训练问答系统的理想选择。

使用方法

MS MARCO数据集主要用于训练和评估机器阅读理解模型。研究人员可以通过加载数据集中的查询和对应的答案段落，构建端到端的问答系统。数据集提供了标准化的评估脚本，便于用户计算模型的准确率、召回率等指标。此外，数据集还支持多任务学习，例如答案生成、答案排序和信息检索等任务，为自然语言处理领域的研究提供了丰富的实验场景。

背景与挑战

背景概述

MS MARCO数据集于2016年由微软研究院推出，旨在为机器阅读理解任务提供高质量的数据支持。该数据集的核心研究问题是通过人类生成的问答对，推动自然语言处理领域中的问答系统发展。MS MARCO的独特之处在于其数据来源于真实的用户查询，涵盖了广泛的领域和复杂的语言结构，极大地提升了问答系统的实用性和泛化能力。该数据集自发布以来，已成为问答系统研究中的基准数据集之一，对推动机器阅读理解技术的发展产生了深远影响。

当前挑战

MS MARCO数据集在解决问答系统领域的挑战时，面临的主要问题是如何处理开放域问答中的多样性和复杂性。由于用户查询的多样性和答案的非结构化特性，模型需要具备强大的语义理解和推理能力。此外，数据集的构建过程中也面临诸多挑战，例如如何从海量网页中提取有效信息、如何确保问答对的质量和多样性，以及如何平衡数据集的规模和标注成本。这些挑战不仅考验了数据集的构建技术，也为后续的模型优化和算法创新提供了重要的研究方向。

常用场景

经典使用场景

MS MARCO数据集在自然语言处理领域中被广泛用于机器阅读理解任务。该数据集通过提供大量真实世界中的问题和对应的答案段落，使得研究人员能够训练和评估模型在复杂语境下的理解能力。其独特之处在于问题的多样性和答案的开放性，这使得模型不仅需要理解文本，还需要具备推理和综合信息的能力。

衍生相关工作

MS MARCO数据集催生了许多经典的研究工作。例如，基于该数据集的研究推动了BERT、T5等预训练语言模型的发展，这些模型在多项自然语言处理任务中取得了突破性进展。此外，MS MARCO还激发了多文档问答、开放域问答等新研究方向，为学术界和工业界提供了丰富的研究素材和应用场景。

数据集最近研究