microsoft/ms_marco

Hugging Face2024-01-04 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/microsoft/ms_marco

下载链接

链接失效反馈

资源简介：

MS MARCO数据集是一个专注于深度学习在搜索领域应用的数据集集合。最初的数据集是一个包含100,000个真实Bing问题和人工生成答案的问答数据集。随后，数据集扩展到了包含1,000,000个问题的数据集，以及自然语言生成、段落排序、关键词提取、爬虫和对话搜索等多个数据集。数据集分为三个任务/形式：原始问答数据集(v1.1)、问答(v2.1)和自然语言生成(v2.1)。v1.1版本包含100,000个示例，而v2.1版本则包含超过1,000,000个查询，并且质量更高。自然语言生成数据集包含180,000个示例，旨在提供可以被智能音箱朗读的答案。

MS MARCO Dataset is a collection of datasets focused on the application of deep learning in the search domain. The original dataset was a question answering (QA) dataset containing 100,000 real Bing queries and human-generated answers. Subsequently, the dataset collection expanded to include a dataset with 1,000,000 queries, as well as multiple datasets covering natural language generation (NLG), passage ranking, keyword extraction, web crawling, and conversational search. The dataset collection is divided into three task/formats: the original QA dataset (v1.1), QA (v2.1), and natural language generation (v2.1). The v1.1 version contains 100,000 examples, while the v2.1 version includes over 1,000,000 queries with higher quality. The natural language generation dataset consists of 180,000 examples, designed to produce answers that can be read aloud by smart speakers.

提供机构：

microsoft

原始信息汇总

Microsoft Machine Reading Comprehension Dataset (MS MARCO) 数据集概述

数据集配置

v1.1

特征:
- answers: 字符串序列
- passages: 字典特征，包含:
  - is_selected: 32位整数
  - passage_text: 字符串
  - url: 字符串
- query: 字符串
- query_id: 32位整数
- query_type: 字符串
- wellFormedAnswers: 字符串序列
数据分割:
- validation: 42665198 字节, 10047 样本
- train: 350516260 字节, 82326 样本
- test: 40977580 字节, 9650 样本
下载大小: 217328153 字节
数据集大小: 434159038 字节

v2.1

特征:
- answers: 字符串序列
- passages: 字典特征，包含:
  - is_selected: 32位整数
  - passage_text: 字符串
  - url: 字符串
- query: 字符串
- query_id: 32位整数
- query_type: 字符串
- wellFormedAnswers: 字符串序列
数据分割:
- validation: 413765365 字节, 101093 样本
- train: 3462807709 字节, 808731 样本
- test: 405691932 字节, 101092 样本
下载大小: 2105722550 字节
数据集大小: 4282265006 字节

数据集文件配置

v1.1

验证集: v1.1/validation-*
训练集: v1.1/train-*
测试集: v1.1/test-*

v2.1

验证集: v2.1/validation-*
训练集: v2.1/train-*
测试集: v2.1/test-*

搜集汇总

数据集介绍

构建方式

MS MARCO数据集的构建基于真实世界中的搜索查询，旨在为机器阅读理解任务提供高质量的数据资源。该数据集的构建过程涉及从Bing搜索引擎中收集真实的查询和对应的答案，然后通过人工标注的方式生成高质量的问答对。数据集包含了查询、答案、文档片段及其来源链接等信息，并分为训练集、验证集和测试集，以供模型训练和评估之用。

特点

MS MARCO数据集的特点在于其数据来源的真实性、多样性以及高质量的人工标注。数据集涵盖了大量的查询和答案，不仅包含文本信息，还包括是否被选中的标记和文档片段的来源链接。此外，数据集分为两个版本，v1.1和v2.1，后者在规模和质量上都有所提升，更适合用于竞争性的问答任务和自然语言生成任务。

使用方法

使用MS MARCO数据集时，用户可以根据自己的需求选择不同的版本和数据集分割。数据集以HuggingFace的格式存储，可以通过HuggingFace的datasets库轻松加载。用户可以针对问答和自然语言生成等任务进行模型的训练和评估，同时也可以利用数据集中的标注信息进行模型的 fine-tuning。

背景与挑战

背景概述

MS MARCO数据集，全名为Microsoft Machine Reading Comprehension Dataset，是由Microsoft Research团队于2016年在NIPS会议上推出的一组数据集。该数据集旨在推动机器阅读理解领域的研究，特别是针对搜索引擎的问答系统。它包含了真实世界中的Bing搜索查询、人类生成的回答以及相关网页段落，是目前自然语言处理领域内颇具影响力的资源之一。MS MARCO数据集的创建，填补了机器阅读理解领域高质量数据集的空白，为相关研究提供了宝贵的资源。

当前挑战

在构建MS MARCO数据集的过程中，研究人员面临了诸多挑战。首先，如何收集并处理大量的真实查询数据以保证数据的质量和多样性是一个挑战。其次，确保人类生成的回答准确且具有相关性，同时保护个人隐私和敏感信息也是数据集构建中的重要挑战。此外，数据集在应用中还面临如何公平地评估模型性能、避免偏见和确保社会影响力等挑战。

常用场景

经典使用场景

在自然语言处理领域，Microsoft Machine Reading Comprehension Dataset（MS MARCO）被广泛用于评估和提升机器阅读理解模型的能力。该数据集的核心应用场景在于构建和训练能够理解自然语言查询并从大量文本中提取相关答案的模型。

实际应用

在实际应用中，MS MARCO数据集可用于开发智能搜索系统，帮助提升搜索引擎对自然语言查询的理解能力，进而提高搜索质量和用户体验。此外，该数据集也为智能客服、语音助手等应用提供了基础数据支持，有助于实现更加自然和高效的人机交互。

衍生相关工作

基于MS MARCO数据集，学术界和工业界衍生出了许多相关工作，包括但不限于文本摘要、机器翻译、对话系统等领域的应用研究。这些工作不仅推动了机器阅读理解技术的发展，也为其他自然语言处理任务提供了新的视角和方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集