MS MARCO

github2018-11-06 更新2024-05-31 收录

下载链接：

https://github.com/Kyubyong/nlp-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

MS MARCO: 一个人类生成的机器阅读理解数据集，2016年发布。

MS MARCO: A human-generated machine reading comprehension dataset released in 2016.

创建时间：

2017-06-07

原始信息汇总

自然语言处理数据集

问题回答

(MS MARCO) MS MARCO: 一个人工生成的机器阅读理解数据集，2016年 [论文] [数据]
(NewsQA) NewsQA: 一个机器理解数据集，2016年 [论文] [数据]
(SQuAD) SQuAD: 超过10万个问题的机器理解文本数据集，2016年 [论文] [数据]
(GraphQuestions) 用于QA评估的特征丰富的问答集生成，2016年 [论文] [数据]
(Story Cloze) 用于深入理解常识故事的语料库和完形填空评估，2016年 [论文] [数据]
(Childrens Book Test) 金发女孩原则：使用显式记忆表示阅读儿童书籍，2015年 [论文] [数据]
(SimpleQuestions) 使用记忆网络的大规模简单问答，2015年 [论文] [数据]
(WikiQA) WikiQA: 一个开放域问答挑战数据集，2015年 [论文] [数据]
(CNN-DailyMail) 教机器阅读和理解，2015年 [论文] [代码生成] [数据]
(QuizBowl) 用于段落问答的事实型神经网络，2014年 [论文] [数据]
(MCTest) MCTest: 一个开放域机器理解文本的挑战数据集，2013年 [论文] [数据] [备用数据链接]
(QASent) 什么是Jeopardy模型？一个用于问答的准同步语法，2007年 [论文] [数据]

对话系统

(Ubuntu Dialogue Corpus) Ubuntu对话语料库：一个用于非结构化多轮对话系统研究的大型数据集，2015年 [论文] [数据]

目标导向对话系统

(Frames) Frames: 一个用于为目标导向对话系统添加记忆的语料库，2016年 [论文] [数据]
(DSTC 2 & 3) 对话状态跟踪挑战2 & 3，2013年 [论文] [数据]

搜集汇总

数据集介绍

构建方式

MS MARCO数据集的构建，是通过汇集人类生成的问答对，旨在模拟真实世界中的机器阅读理解任务。该数据集的构建过程涉及从互联网上收集大量文档，并邀请人类标注者为这些文档创建真实的问答对，从而提供了一个接近实际应用场景的测试平台。

使用方法

使用MS MARCO数据集时，研究者可以将其作为训练集来训练机器阅读理解模型。数据集提供了问答对的文本以及相应的文档上下文，研究者需要设计模型来理解这些问题，并从文档中提取出正确的答案。同时，该数据集也适用于评估模型的性能，通过其提供的测试集来检验模型在真实世界数据上的表现。

背景与挑战

背景概述

MS MARCO数据集，全称为Machine Reading Comprehension Dataset，由微软研究院于2016年推出，旨在为自然语言处理领域提供一份高质量的人工生成机读理解数据集。该数据集的主要研究人员来自于微软研究院，核心研究问题是如何提升机器在自然语言理解和生成方面的能力。MS MARCO的出现对相关领域产生了深远影响，其大规模的问答数据促进了机器阅读理解技术的进步，为研究者和工程师提供了宝贵的资源。

当前挑战

MS MARCO数据集面临的挑战主要在于：1) 数据集的构建过程中，如何保证问题的多样性和答案的准确性；2) 在所解决的领域问题——机器阅读理解上，如何有效提升模型对复杂问题的理解和回答能力；3) 如何处理大规模数据带来的计算和存储挑战。

常用场景

经典使用场景

MS MARCO数据集，作为自然语言处理领域的重要资源，其经典使用场景主要在于机器阅读理解任务的训练与评估。该数据集集合了大量人类生成的疑问和对应的答案，旨在通过模拟真实用户查询，促进算法对长篇文本的理解和回答能力，为构建更加智能的问答系统提供了基础。

解决学术问题

该数据集解决了传统机器阅读理解数据集中存在的答案分布不均匀、问题质量参差不齐等问题。MS MARCO的数据标注过程注重真实性和多样性，使得学术研究者在探究机器理解自然语言的能力时，能够更加准确地评估模型的泛化能力和鲁棒性，对提升自然语言处理技术的准确性和实用性具有重要价值。

实际应用

在实用层面，MS MARCO数据集的应用场景广泛，包括但不限于搜索引擎的查询理解、智能客服的自动回复生成、在线教育平台的知识问答等。这些应用场景下，数据集提供的丰富多样的问答对，有助于提升系统的交互质量和用户体验。

数据集最近研究