MS MARCO

github2017-05-23 更新2024-05-31 收录

下载链接：

https://github.com/GOODDEEP/nlp-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

MS MARCO: 一个人工生成的机器阅读理解数据集，2016年发布。

MS MARCO: A machine-generated machine reading comprehension dataset, released in 2016.

创建时间：

2017-05-23

原始信息汇总

数据集概述

问题回答（Question Answering）

(MS MARCO) MS MARCO: 一个人工生成的机器阅读理解数据集，2016年。
(NewsQA) NewsQA: 一个机器理解数据集，2016年。
(SQuAD) SQuAD: 超过100,000个问题用于文本的机器理解，2016年。
(GraphQuestions) 用于QA评估的丰富特征问题集生成，2016年。
(Story Cloze) 用于深入理解常识故事的语料库和完形评估，2016年。
(Childrens Book Test) 使用显式记忆表示阅读儿童书籍，2015年。
(SimpleQuestions) 使用记忆网络的大规模简单问题回答，2015年。
(WikiQA) WikiQA: 一个开放领域问题回答的挑战数据集，2015年。
(CNN-DailyMail) 教机器阅读和理解，2015年。
(QuizBowl) 用于段落事实问题回答的神经网络，2014年。
(MCTest) MCTest: 一个开放领域机器文本理解的挑战数据集，2013年。
(QASent) 什么是Jeopardy模型？一个用于QA的准同步语法，2007年。

对话系统（Dialogue Systems）

(Ubuntu Dialogue Corpus) Ubuntu对话语料库：一个用于非结构化多轮对话系统研究的大型数据集，2015年。

目标导向对话系统（Goal-Oriented Dialogue Systems）

(Frames) Frames: 一个用于为目标导向对话系统添加记忆的语料库，2016年。
(DSTC 2 & 3) 对话状态跟踪挑战2 & 3，2013年。

搜集汇总

数据集介绍

构建方式

MS MARCO数据集的构建，旨在通过人类生成的查询和答案对，模拟现实世界中的机器阅读理解环境。该数据集的构建基于真实用户的搜索查询，并包含了对应的答案文档，以及人工标注的相关性评分，从而为研究者和开发者提供了一个丰富且贴近实际应用场景的测试平台。

特点

MS MARCO数据集的特点在于其规模庞大、多样性丰富，以及紧贴真实应用场景。数据集中包含了数十万条由真实用户生成的查询，以及与之对应的答案文档和人工标注的相关性评分。此外，该数据集还提供了详细的评估协议，以帮助研究者在统一的评价标准下对比和评估模型性能。

使用方法

使用MS MARCO数据集时，研究者可以遵循其提供的评估协议，通过官方网站提供的API进行模型训练和性能评估。用户需要下载数据集，并根据数据集的文档说明进行预处理。之后，可以利用数据集中的查询、文档和评分信息，进行模型训练，并通过在线的评估系统来测试模型的阅读理解能力。

背景与挑战

背景概述

MS MARCO数据集，全称为Machine Reading Comprehension，是由微软研究院于2016年发布的一个大型机器阅读理解数据集。该数据集的创建旨在推进机器阅读理解技术的发展，其主要研究人员为微软研究院的知识工程团队。MS MARCO的核心研究问题是如何使机器能够理解自然语言文本并准确回答相关问题，其对自然语言处理领域产生了深远的影响，为相关研究提供了宝贵的数据资源。

当前挑战

MS MARCO数据集在研究领域中面临的挑战主要包括：一是如何处理和解析人类生成的自然语言文本的多样性和复杂性；二是在大规模数据集上进行高效的模型训练和推理；三是构建能够准确评估机器阅读理解性能的评价指标。在数据集构建过程中，研究人员也面临着如何保证数据质量、避免数据偏差以及确保数据安全性的挑战。

常用场景

经典使用场景

在自然语言处理领域，MS MARCO数据集作为一项重要资源，其经典使用场景主要集中于机器阅读理解任务。该数据集通过提供人类生成的查询和答案，使得研究者在构建和评估机器阅读理解模型时，能够更加贴近真实世界的应用场景，进而提升模型的理解能力。

解决学术问题

MS MARCO数据集解决了传统阅读理解数据集中缺乏真实用户意图和复杂语境的问题。它的构建基于真实用户的搜索日志，从而使得研究者能够针对机器理解人类查询的真实意图进行深入研究，这对于提升机器理解自然语言的能力具有重要的学术意义和影响。

衍生相关工作

MS MARCO数据集的发布促进了相关领域的研究，衍生出了一系列经典工作。这些研究不仅涉及对数据集本身的深入分析，还包括基于该数据集的模型改进、性能评估方法的研究，以及在不同场景下的应用探索，为自然语言处理领域的发展做出了积极贡献。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集