MS MARCO

github2017-12-25 更新2024-05-31 收录

下载链接：

https://github.com/yury-chernushenko/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

MS MARCO: 一个人工生成的机器阅读理解数据集，2016年发布，旨在通过真实世界文档中的问题回答任务来推动机器阅读理解技术的发展。

MS MARCO: A machine-generated machine reading comprehension dataset, released in 2016, designed to advance the development of machine reading comprehension technology through question-answering tasks based on real-world documents.

创建时间：

2017-02-04

原始信息汇总

数据集概述

文本理解与问答数据集

Facebook Research Babi
- 内容：文本理解问题、目标导向对话、上下文问题、电影问题、简单问题
- 链接：Facebook Research Babi
Maluuba Datasets
- 内容：CNN新闻的Q&A对（12万）、目标导向对话框架
- 链接：Maluuba Datasets
Quora Dataset
- 内容：问题重复（40万）
- 链接：Quora Dataset
MS MARCO
- 内容：关于5W1H的Q/A
- 链接：MS MARCO
SQuAD
- 内容：Q/A
- 链接：SQuAD

其他相关数据集

Project Gutenberg
- 内容：书籍
- 链接：Project Gutenberg
StackOverflow Data
- 内容：StackOverflow的Q&A
- 链接：StackOverflow Data
Yelp Dataset Challenge
- 内容：Yelp评论数据集
- 链接：Yelp Dataset Challenge

问答系统相关数据集

MS MARCO
- 内容：人类生成的机器阅读理解数据集
- 链接：MS MARCO
NewsQA
- 内容：机器理解数据集
- 链接：NewsQA
SQuAD
- 内容：机器理解文本的Q/A
- 链接：SQuAD
GraphQuestions
- 内容：QA评估的丰富问题集生成
- 链接：GraphQuestions
Story Cloze
- 内容：理解常识故事的语料库和完形评估
- 链接：Story Cloze
Childrens Book Test
- 内容：儿童书籍阅读的显式记忆表示
- 链接：Childrens Book Test
SimpleQuestions
- 内容：大规模简单问题问答
- 链接：SimpleQuestions
WikiQA
- 内容：开放域问答挑战数据集
- 链接：WikiQA
CNN-DailyMail
- 内容：机器阅读和理解教学
- 链接：CNN-DailyMail
QuizBowl
- 内容：事实问题问答的神经网络
- 链接：QuizBowl
MCTest
- 内容：机器理解文本的挑战数据集
- 链接：MCTest
QASent
- 内容：QA的准同步语法
- 链接：QASent

对话系统数据集

Ubuntu Dialogue Corpus
- 内容：非结构化多轮对话系统的大规模数据集
- 链接：Ubuntu Dialogue Corpus

目标导向对话系统数据集

Frames
- 内容：为目标导向对话系统添加记忆的数据集
- 链接：Frames
DSTC 2 & 3
- 内容：对话状态跟踪挑战
- 链接：DSTC 2 & 3

搜集汇总

数据集介绍

构建方式

MS MARCO数据集是基于真实用户在微软的Bing搜索引擎上生成的问题构建而成，旨在为机器阅读理解任务提供一个接近实际应用场景的测试平台。该数据集包含了大量由用户提出的自然问题以及相应的答案，这些答案是从搜索结果中提取的。

特点

MS MARCO数据集的特点在于其问题的自然性和多样性，所有问题均为实际用户生成，且涵盖了广泛的主题。数据集中的答案不是预先设定的，而是根据搜索结果动态提取，这使得该数据集在评估机器阅读理解模型时更加接近真实应用场景。

使用方法

使用MS MARCO数据集时，研究者可以从官方网站下载数据集，并根据数据集的readme文件说明进行相应的预处理。数据集包含了问题和答案的对，研究者可以利用这些对进行模型训练和评估。此外，数据集还提供了评估脚本，以便研究者可以方便地测试和比较不同模型的性能。

背景与挑战

背景概述

MS MARCO数据集，全称为Machine Reading Comprehension Dataset，由Facebook AI Research团队于2016年创建。该数据集以真实世界的问题和答案对为特色，旨在促进机器阅读理解领域的研究。MS MARCO收集了数以万计的由人类生成的问题和对应的答案，这些问题涉及广泛的主题，并在问答对中包含了丰富的上下文信息。该数据集的发布，为机器阅读理解领域带来了新的研究视角，推动了自然语言处理技术的进步，对相关领域产生了深远的影响。

当前挑战

MS MARCO数据集在构建过程中面临的挑战主要包括：确保数据质量的高标准，处理人类语言的自然多样性和复杂性，以及设计能够有效评估模型性能的评价指标。研究领域面临的挑战包括如何处理开放域问题 answering 的不确定性，如何在保证隐私和安全的前提下使用真实世界数据，以及如何提升模型对长篇文本的理解能力。此外，构建一个既能反映真实世界场景，又能为研究人员提供一致评价标准的数据集，也是一项艰巨的任务。

常用场景

经典使用场景

MS MARCO数据集，作为机器阅读理解领域的一项重要资源，其经典使用场景在于评估和提升机器对自然语言文本的理解能力。该数据集包含了由真实用户在微软的Bing搜索引擎上生成的问题和答案对，为研究者在机器阅读理解任务上提供了丰富的、贴近实际应用场景的训练和测试材料。

解决学术问题

该数据集解决了传统阅读理解数据集中问题与答案关联性不强、缺乏实际用户意图等问题。MS MARCO的数据来源于真实用户的搜索行为，因此能够更好地模拟现实世界中用户提出的问题，对于提升机器理解自然语言的能力、理解用户意图以及提升开放域问答系统的性能具有重要的学术研究价值。

衍生相关工作

基于MS MARCO数据集，研究者们衍生出了一系列相关工作，包括对数据集的分析、改进的机器学习模型、以及性能评估指标的研究，这些工作进一步推动了机器阅读理解领域的发展，并促进了相关技术的实际应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集